入侵30家大型机构、Claude自动完成90%?Anthropic 被质疑,Yann LeCun:他们利用可疑的研究来恐吓所有人
上周,来自 Anthropic 的研究人员表示,他们最近观察到“首个由 AI 协同操作的网络攻击行动”,在一次针对数十个目标的攻击活动中,他们检测到有黑客使用该公司的 Claude AI 工具参与行动。不过,外部研究人员对 Anthropic 这一发现的评价要谨慎得多。
Anthropic 于上周四发布了两份报告称,早在 9 月份,Anthropic 发现了一场“高度复杂的攻击活动”,该组织使用 Claude Code 自动化完成多达 90% 的工作。人类只需在少量关键节点干预,“每个黑客行动中仅有约 4–6 次关键决策点”。Anthropic 表示,这些黑客利用 AI Agent 化能力的程度达到了“前所未有”的水平。
但 Anthropic 表示:“这次行动对 AI Agent 时代的网络安全具有重大启示意义,这些系统可以在长时间内自主运行,并在较少人类参与的情况下完成复杂任务。Agent 对日常工作和生产力非常有价值,但在错误的人手中,它们能够显著提升大规模网络攻击的可行性。”
“说实话,整篇文章给我的感觉就像是‘Claude 太厉害了,黑客都用它’之类的营销噱头。”有海外网友表示,“这让我想起 PlayStation 2 刚上市时,索尼开始发布文章,声称它性能强大,伊拉克购买了数千台,打算将其改装成超级计算机。”
图灵奖获得者、Meta 首席科学家 Yann LeCun 在回复美国康涅狄格州参议员 Chris Murphy 表达担忧的帖子下表示,“你在被那些想通过监管来垄断行业的人戏耍。他们利用可疑的研究来恐吓所有人,从而让开源模型被监管到无法生存。”
AnswerDotAI 联合创始人、昆士兰大学教授 Jeremy Howard 也在 Murphy 帖子下调侃道,“看来游说政府掌控监管、确保利润锁定在私营部门的策略奏效了。”
曾创办 HouseTrip 的企业家 Arnaud Bertrand 在推特上表示,“不要轻易相信这些明显的宣传话术。我其实觉得挺有意思,所以让 Claude 去阅读他们自己公司的报告,并判断是否存在任何证据支持他们声称的‘此次攻击是国家支持的组织实施’。Claude 的回答是:No”
原对话:https://claude.ai/share/8af83dc8-f34c-4cf9-88e4-9f580859c95a
“我不禁联想到最近关于中国即将超越美国在人工智能竞赛并取得领先地位的言论。这类声明和报告似乎更像是试图促使美国政府介入并成为推动资金持续流入的大型投资者,而非其他目的。”有网友称。
同样,专业的安全研究人员也不认为这一发现如 Anthropic 所描述的那样是一个历史性转折点。他们质疑,为何类似的技术进展在报道中总是与恶意黑客相关,而白帽黑客与合法软件开发人员报告的仅是持续而细微的改进。
1 “拍马屁、推诿和幻觉”
虽然报告引起了很多关注,但 Phobos Group 创始执行官、拥有复杂安全攻防研究经验的 Dan Tentler 对外媒 Ars 表示:
“我仍然不相信,攻击者能够让这些模型完成别人根本做不到的事情。为什么这些模型在攻击者那里有 90% 的成功率,而我们其他人却要面对拍马屁式的迎合、各种推诿阻挠,甚至像迷幻般离谱的回答?”
研究人员并不否认 AI 工具能够改进工作流程、缩短特定任务的完成时间,例如分级分析、日志分析以及逆向工程。但要让 AI 以极低的人类干预自动执行一整套复杂的任务链,这一能力仍然难以实现。
许多研究人员将 AI 在网络攻击中的作用,与 Metasploit 或 SEToolkit 等已被使用数十年的黑客工具相比。毫无疑问,AI 工具确实有用,但它们的出现并没有实质性地提升黑客能力或加剧攻击的破坏性。
结果不那么“惊人”的另一个原因是:Anthropic 声称追踪的该组织(代号 GTG-1002)至少攻击了 30 家组织,包括主要科技巨头和政府机构,但只有“少量”攻击成功。这也引发了部分专家的疑问:即使假设大量人工步骤被 AI 消除,如果最终成功率仍然极低,那么这项能力又有多大的意义?
根据 Anthropic 的描述,黑客使用 Claude 利用公开可用的开源工具与框架编排攻击流程。这些工具已经存在多年,并且已经很容易被防御方检测。到目前为止,也没有迹象显示使用 AI 使得其攻击比传统技术更具威胁性或更隐蔽。
独立研究员 Kevin Beaumont 表示:
“这些威胁者并没有发明什么新的东西。”
Anthropic 自身也在报告中指出了一个“重要的局限性”:
Claude 在自主执行过程中经常夸大发现的结果,并偶尔捏造数据,例如声称获取了实际上无法使用的凭证,或把公开可查的信息误报为关键突破。这类幻觉问题在进攻性安全场景中带来了很大挑战,需要对所有声称的结果进行严格验证,这仍然是完全自主网络攻击的主要障碍之一。
2 “攻击是如何展开的”
Anthropic 的报告并未披露此次攻击的具体技术细节、工具链或漏洞利用方式。
Anthropic 表示,GTG-1002 开发了一套自主攻击框架,利用 Claude 作为中枢编排引擎,从而大幅减少对人类操作的依赖。该系统将复杂的多阶段攻击流程分解为一系列子任务,例如:漏洞扫描、凭证验证、数据提取、横向移动等。Anthropic 解释称:
“该框架将 Claude 的技术能力整合为一个自动化系统中的执行引擎,AI 根据人类操作员的指令执行特定技术任务,而系统的编排逻辑则负责维护攻击状态、管理阶段转换,并整合多个会话中的结果。”
“这种方法使得攻击者能在极少直接参与的情况下,达到国家级攻击行动才会具备的规模。框架通过对 Claude 的响应进行顺序控制,并根据新发现的信息不断调整后续任务,从而能够在无需持续人为操作的前提下自动推进侦察、初始入侵、持久化、以及数据外泄各阶段。”
攻击总体遵循五个阶段,并且在每个阶段都会进一步提高 AI 的自主性。
图源:Anthropic
网络攻击的生命周期示意图显示,攻击从“由人为主导的目标选择”逐步过渡到“主要依靠 AI 驱动”的攻击流程,期间通过 MCP 使用多种工具。在攻击的不同时段,AI 会返回到人类操控者那里,接受审核与进一步指示。
攻击者能够绕过 Claude 的安全限制机制,部分原因是将恶意任务切分成多个细小步骤,使得 AI 在单个任务层面无法识别其恶意性质。在其他情况下,攻击者会伪装成安全研究人员,假借提升防御能力的名义向 Claude 提问,从而规避检测。
目前由 AI 完成全流程开发的恶意软件距离构成现实威胁依然有较大差距。尽管未来 AI 辅助网络攻击可能会带来更具威胁性的结果,但现有数据表明,威胁行为者取得的实际成果与业界宣传相比存在明显落差,且远未达到人们想象中的惊人程度。
3 “这篇报告根本过不了任何专业评审”
“这篇报告根本过不了任何专业评审,它顶多是为了营销自己的 AI 安全产品,是可耻且不专业的。我们应该要求更高的标准,而不是接受炒作式的安全研究。”从事攻击性安全与软件工程的 djnn 说道。
“如果你和我一样,看了结论后就会迫不及待地希望看到有关 TTP(战术、技术与流程) 或 IoC(威胁情报指标) 的细节,以推动研究。然而,报告内容很快就变得空洞,这真的很糟糕。”djnn 说道。
威胁情报报告的主要目标是让他人掌握新的攻击方法,并提供可用于检测的攻击特征。通常,这些内容包括:与攻击活动相关的域名、可在 VirusTotal 等平台检索的文件哈希(MD5、SHA512 等)、供安全团队检查其系统是否受影响的情报参数等。例如,法国 CERT 在公布 APT28 攻击情报时,包含与 MITRE ATT&CK 对应的技术描述;钓鱼邮件内容、源 IP、发送时间;所使用的工具和 VPN;风险缓解与防御建议等。
“这些是行业标准,全球 SOC(安全运营中心)均依赖这些信息进行监测和防御。但在 Anthropic 的报告中,完全没有这些信息,而且大量内容无法被验证。”djnn 提出,“利用 AI 独立完成 80-90% 的战术操作”中,“80-90% ”这个数据就完全无法验证。
“报告明确宣称 AI 负责漏洞利用甚至数据外泄。这是非常重大的说法,却没有证据链支持:我们不知道使用了哪些工具、攻击了什么类型的系统、提取了哪些数据、受害者包括谁。 ”djnn 表示,“而报告声称 Anthropic 发现后关闭账户并进行了‘增强安全’,但没有说明漏洞是否已经修补、数据是否泄露、受影响组织是否得到补救。 ”
“威胁行为者使用 AI 当然是事实,不存在争议。但 Anthropic 这份报告完全没有达到专业威胁情报发布标准。”djnn 还表示,“网络攻击溯源是严肃且有外交后果的,你不能无凭无据指责一个国家。”“高度敏感的指控,却不给出任何证据。这种行为既不负责任,也不专业。”
值得注意的是,此前清华物理系传奇姚顺宇离开 Anthropic,部分原因就是不认同该公司的做法,之后他加入了 DeepMind。
“我已经受够了这些 AI 实验室。他们拥有非常优秀的工程师,却不断发布一些根本经不起基本检验的内容。GPT-5 的系统卡令人失望透顶。微软大谈特谈所谓的红队演练,但方式模糊、完全不可复现。所有实验室都自称‘支持科研’,却一次又一次地发布白皮书、制造噱头,却不提供对应代码与数据来验证其结论。”有网友表示。
参考链接:
https://www.anthropic.com/news/disrupting-AI-espionage
https://arstechnica.com/security/2025/11/researchers-question-anthropic-claim-that-ai-assisted-attack-was-90-autonomous/
https://djnn.sh/posts/anthropic-s-paper-smells-like-bullshit/
https://x.com/ChrisMurphyCT/status/1989120215171625149
本文来自微信公众号“InfoQ”,整理:褚杏娟,36氪经授权发布。