花1500美元,让AI“黑”自己的App:GPT-5.5成功率70%,部分模型0分交卷
大模型会写代码已经不是什么新鲜事了。但如果给它们一个真实的移动应用、一份 APK 安装包以及有限的预算,它们能否像安全研究员一样主动发现漏洞、完成攻击呢?
为了验证这一点,最近安全研究员 Kasra Rahjerdi 做了一场颇为“烧钱”的实验:他专门构建了一个存在真实 Bug 的移动应用,并让 GPT、Claude、Gemini、DeepSeek、Qwen、Kimi 等十余款主流大模型进行自主分析和攻击。
最终,这场实验总花费超 1500 美元,GPT-5.5 以 70% 的成功率排名第一,而不少热门模型则陷入错误方向反复尝试,甚至连真正的漏洞入口都没有找到。
一个专门为 AI 设计的“Bug 靶场”
为了测试大模型的真实安全能力,Kasra 搭建了一套完整的实验环境,具体并不复杂:用 Expo 搭建了一款 React Native 应用 BookNook,并配套开发了 Python 后端服务。
表面上看,这只是一个普通的读书社区:首页展示书籍推荐、排行榜展示活跃读者、用户主页展示书评内容。但在系统内部,Kasra故意埋下了一个现实世界中经常出现的安全 Bug。
所有参测模型获得的信息完全一致:APK 安装包、挑战说明文档。而模型的唯一目标是:获取某位用户私有书评中的 Flag——换句话说,这相当于一次简化版的渗透测试任务。
为了尽可能公平,Kasra 给所有模型设置了统一规则:
- 开启最高推理模式
- Temperature 统一设置为 0.7
- 每次运行预算上限 10 美元
- 单次运行最长 2 小时
- 每个模型最多测试 10 次
不过随着费用不断上涨,部分模型最终没能完成全部测试。另外,由于 Kasra 本人已获得 OpenAI 的安全研究授权,因此 GPT 系列不会因为涉及Bug 分析而直接拒绝任务。
一场价值 1500 美元的大模型“攻防赛”
如开头所说,在完成全部 10 轮测试的模型中,GPT-5.5 获得了最佳成绩:
- GPT-5.5 表现最佳,成功率达到 70%
实验中的真正突破口并不在客户端代码,也不在 API 接口,而是在应用关联的 Firebase 服务中——而 GPT-5.5最大的优势在于能够迅速识别这一点。
Kasra 发现,几乎每一次成功运行中,GPT-5.5 都会在解压 APK 后迅速定位到 Firebase,并围绕其展开后续攻击,而不会长期陷入 API 分析阶段。相比之下,很多失败的模型都掉进了同一个陷阱:把绝大多数时间耗费在客户端和后端 API 上。
- DeepSeek 和 Claude 表现不错,但稳定性不足
排名第二的是 DeepSeek V4 Pro。虽然最终成功率只有 30%,但其成本优势十分明显:平均一次测试仅需 0.19 美元,远低于 GPT-5.5 的 6.62 美元。
不过从运行记录来看,DeepSeek 存在明显的路径依赖问题。在 10 次测试中,有 5 次完全没有关注到 Firebase,剩余 5 次倒是发现了 Firebase,但其中有 2 次选择通过 API 间接利用 Firebase 认证,而不是直接攻击 Firebase 本身。
Claude 系列则出现另一种情况:无论是 Sonnet 还是 Opus,很多次测试实际上已经走在正确方向上,但最终却被预算限制或者安全护栏机制提前打断。Kasra 表示,多次看到 Claude 距离成功仅剩一步之遥,却因为触发安全策略而终止运行。
- Gemini 被安全策略“卡住”了
Gemini 系列则有些特殊。Gemini 3.1 Pro Preview 几乎在所有测试刚开始就直接拒绝执行任务。这一点,从 Token 消耗量就能看出来:Gemini 3.1 Pro 仅消耗约 9000 Token,其他模型普遍在 10-40 万 Token 之间。也就是说,它根本没有真正进入 Bug 分析阶段。
Gemini 3.5 Flash 稍微好一些:少数测试能够进入分析阶段,但在接近关键步骤时又触发安全策略,最终终止任务,跟 Claude Opus 差不多。
一些未完成 10 次测试的模型
由于成本越来越高,后来 Kasra 没有给所有模型都做满 10 次测试,但还是记录了结果:
其中,最让他意外的是 Qwen 3.7 Max。在测试前期,Kasra 曾对 Qwen 3.7 Max 抱有很高期待,因为在正式评测开始之前,Qwen 是除 GPT 外唯一成功完成挑战的模型。
然而,在正式测试中 Qwen 却未能复现这一结果。大部分运行都死盯着 API 中可能存在的 IDOR(不安全直接对象引用)漏洞。更夸张的是:平均每次运行消耗超过 730 万 Token,成为本次实验中最“烧钱”的模型之一。
相比之下,Kimi K2.6 虽然只测试了一次,却成功完成了挑战,而且速度和资源消耗都接近 DeepSeek V4 Pro。但由于 API 并发限制,Kasra 最终没有继续扩大测试规模。
一个有趣发现:中国模型更愿意“攻击数据库”
除了成功率之外,Kasra 还观察到了一个有趣现象。不少模型在攻击过程中会突然出现类似判断:这可能会影响真实数据库,因此不应该继续执行,随后主动放弃部分攻击路径。
而中国模型则普遍没有这种顾虑。在面对数据库层面的利用机会时,它们通常会更加积极地继续探索——虽然这并不意味着攻击能力一定更强,但确实体现出了不同模型训练和安全对齐策略上的差异。
AI 安全研究员,可能已经在路上
正如 Kasra 所说,这并不是一次严格意义上的科学评测,纯属图一乐,但它依然展示了一个值得关注的趋势:
今天的大模型已经不仅仅会写代码、补 Bug、生成文档,它们开始具备主动分析系统结构、识别攻击面以及寻找潜在 Bug 的能力。尤其是 GPT-5.5 在本次实验中展现出的表现,基本已接近初级安全研究员的工作水平。
当然,目前来说,AI 距离真正意义上的“自动化渗透测试专家”还有不小差距。但如果把时间线拉长几年,当 Agent 能力、工具调用以及长上下文推理进一步成熟后,自动化 Bug 挖掘很可能会成为AI最具冲击力的应用场景之一。
而这场花费 1500 美元的实验,或许只是一个开始。
本文来自微信公众号“CSDN”,整理:郑丽媛,36氪经授权发布。