花1500美元让AI“黑”自家App：GPT - 5.5成功率达70%，部分模型交0分答卷

一个专门为 AI 设计的“Bug 靶场”。

大模型会写代码已经不是什么新鲜事了。但如果给它们一个真实的移动应用、一份 APK 安装包以及有限的预算，它们能否像安全研究员一样主动发现漏洞、完成攻击呢？

为了验证这一点，最近安全研究员 Kasra Rahjerdi 做了一场颇为“烧钱”的实验：他专门构建了一个存在真实 Bug 的移动应用，并让 GPT、Claude、Gemini、DeepSeek、Qwen、Kimi 等十余款主流大模型进行自主分析和攻击。

最终，这场实验总花费超 1500 美元，GPT-5.5 以 70% 的成功率排名第一，而不少热门模型则陷入错误方向反复尝试，甚至连真正的漏洞入口都没有找到。

一个专门为 AI 设计的“Bug 靶场”

为了测试大模型的真实安全能力，Kasra 搭建了一套完整的实验环境，具体并不复杂：用 Expo 搭建了一款 React Native 应用 BookNook，并配套开发了 Python 后端服务。

表面上看，这只是一个普通的读书社区：首页展示书籍推荐、排行榜展示活跃读者、用户主页展示书评内容。但在系统内部，Kasra故意埋下了一个现实世界中经常出现的安全 Bug。

所有参测模型获得的信息完全一致：APK 安装包、挑战说明文档。而模型的唯一目标是：获取某位用户私有书评中的 Flag——换句话说，这相当于一次简化版的渗透测试任务。

为了尽可能公平，Kasra 给所有模型设置了统一规则：

开启最高推理模式
Temperature 统一设置为 0.7
每次运行预算上限 10 美元
单次运行最长 2 小时
每个模型最多测试 10 次

不过随着费用不断上涨，部分模型最终没能完成全部测试。另外，由于 Kasra 本人已获得 OpenAI 的安全研究授权，因此 GPT 系列不会因为涉及Bug 分析而直接拒绝任务。

一场价值 1500 美元的大模型“攻防赛”

如开头所说，在完成全部 10 轮测试的模型中，GPT-5.5 获得了最佳成绩：

GPT-5.5 表现最佳，成功率达到 70%

实验中的真正突破口并不在客户端代码，也不在 API 接口，而是在应用关联的 Firebase 服务中——而 GPT-5.5最大的优势在于能够迅速识别这一点。

Kasra 发现，几乎每一次成功运行中，GPT-5.5 都会在解压 APK 后迅速定位到 Firebase，并围绕其展开后续攻击，而不会长期陷入 API 分析阶段。相比之下，很多失败的模型都掉进了同一个陷阱：把绝大多数时间耗费在客户端和后端 API 上。

DeepSeek 和 Claude 表现不错，但稳定性不足

排名第二的是 DeepSeek V4 Pro。虽然最终成功率只有 30%，但其成本优势十分明显：平均一次测试仅需 0.19 美元，远低于 GPT-5.5 的 6.62 美元。

不过从运行记录来看，DeepSeek 存在明显的路径依赖问题。在 10 次测试中，有 5 次完全没有关注到 Firebase，剩余 5 次倒是发现了 Firebase，但其中有 2 次选择通过 API 间接利用 Firebase 认证，而不是直接攻击 Firebase 本身。

Claude 系列则出现另一种情况：无论是 Sonnet 还是 Opus，很多次测试实际上已经走在正确方向上，但最终却被预算限制或者安全护栏机制提前打断。Kasra 表示，多次看到 Claude 距离成功仅剩一步之遥，却因为触发安全策略而终止运行。

Gemini 被安全策略“卡住”了

Gemini 系列则有些特殊。Gemini 3.1 Pro Preview 几乎在所有测试刚开始就直接拒绝执行任务。这一点，从 Token 消耗量就能看出来：Gemini 3.1 Pro 仅消耗约 9000 Token，其他模型普遍在 10-40 万 Token 之间。也就是说，它根本没有真正进入 Bug 分析阶段。

Gemini 3.5 Flash 稍微好一些：少数测试能够进入分析阶段，但在接近关键步骤时又触发安全策略，最终终止任务，跟 Claude Opus 差不多。

一些未完成 10 次测试的模型

由于成本越来越高，后来 Kasra 没有给所有模型都做满 10 次测试，但还是记录了结果：

其中，最让他意外的是 Qwen 3.7 Max。在测试前期，Kasra 曾对 Qwen 3.7 Max 抱有很高期待，因为在正式评测开始之前，Qwen 是除 GPT 外唯一成功完成挑战的模型。

然而，在正式测试中 Qwen 却未能复现这一结果。大部分运行都死盯着 API 中可能存在的 IDOR（不安全直接对象引用）漏洞。更夸张的是：平均每次运行消耗超过 730 万 Token，成为本次实验中最“烧钱”的模型之一。

相比之下，Kimi K2.6 虽然只测试了一次，却成功完成了挑战，而且速度和资源消耗都接近 DeepSeek V4 Pro。但由于 API 并发限制，Kasra 最终没有继续扩大测试规模。

一个有趣发现：中国模型更愿意“攻击数据库”

除了成功率之外，Kasra 还观察到了一个有趣现象。不少模型在攻击过程中会突然出现类似判断：这可能会影响真实数据库，因此不应该继续执行，随后主动放弃部分攻击路径。

而中国模型则普遍没有这种顾虑。在面对数据库层面的利用机会时，它们通常会更加积极地继续探索——虽然这并不意味着攻击能力一定更强，但确实体现出了不同模型训练和安全对齐策略上的差异。

AI 安全研究员，可能已经在路上

正如 Kasra 所说，这并不是一次严格意义上的科学评测，纯属图一乐，但它依然展示了一个值得关注的趋势：

今天的大模型已经不仅仅会写代码、补 Bug、生成文档，它们开始具备主动分析系统结构、识别攻击面以及寻找潜在 Bug 的能力。尤其是 GPT-5.5 在本次实验中展现出的表现，基本已接近初级安全研究员的工作水平。

当然，目前来说，AI 距离真正意义上的“自动化渗透测试专家”还有不小差距。但如果把时间线拉长几年，当 Agent 能力、工具调用以及长上下文推理进一步成熟后，自动化 Bug 挖掘很可能会成为AI最具冲击力的应用场景之一。

而这场花费 1500 美元的实验，或许只是一个开始。

本文来自微信公众号“CSDN”，整理：郑丽媛，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

花1500美元，让AI“黑”自己的App：GPT-5.5成功率70%，部分模型0分交卷

一个专门为 AI 设计的“Bug 靶场”

一场价值 1500 美元的大模型“攻防赛”

一些未完成 10 次测试的模型

一个有趣发现：中国模型更愿意“攻击数据库”

AI 安全研究员，可能已经在路上