首页 > 基础资料 博客日记

Anthropic 推出 Claude Mythos:一个“强到不敢公开”的前沿模型

2026-04-09 09:00:02基础资料围观1

本篇文章分享Anthropic 推出 Claude Mythos:一个“强到不敢公开”的前沿模型,对你有帮助的话记得收藏一下,看极客资料网收获更多编程知识

Anthropic 宣布新一代前沿模型 Claude Mythos Preview,并在安全能力上实现“代际级”跃升——但它暂时不对公众开放,而是通过 Project Glasswing 联合 40+ 家头部机构,先把“超级漏洞挖掘能力”用于防御。

一、Mythos 是谁?从“泄露稿”到官方预览

  • Anthropic 在 2026 年 4 月 7 日(美国时间)正式宣布 Claude Mythos Preview,并同步启动网络安全合作计划 Project Glasswing。
  • 此前,一份尚未发布的内部博客草稿因内容管理系统配置错误意外公开,提前暴露了代号为“Capybara / Mythos”的新模型层级,被 Anthropic 形容为“迄今最强大”的模型之一,并在推理、编码与网络安全任务上远超此前的旗舰 Claude Opus 系列。
  • Anthropic 强调,Mythos 并不是专门的“安全模型”,而是一个通用大模型,其突出能力来自在代码、推理与智能体(agent)自主决策上的全面提升。

二、能力有多大?基准与工程任务双双“卷上天”

Anthropic 官方披露,Mythos 在多个公开基准与工程任务上均显著超越自家 Claude Opus 4.6 与 Claude Sonnet 4.6。在软件工程基准 SWE‑bench Verified 上,Mythos 的通过率约达到 93.9%,而 Opus 4.6 约为 80.8%,提升幅度接近 13 个百分点。在其他第三方测试中,Mythos 在代码、推理与知识工作等维度也普遍领先同代主流模型。

FRT-Blog-Chart-CMP-Firefox-exploit@2x

Anthropic 在系统卡中还专门做了“记忆/污染”过滤分析:即使剔除可能被记住的难题子集,Mythos 依然保持大幅领先,表明其提升并非仅靠“背题”。
Anthropic 内部的红队与工程测试也显示:

  • 在对约 7000 个 OSS‑Fuzz 入口点的扫描中,Mythos 在“崩溃 → 控制流劫持”的五级严重度阶梯上,在 10 个完全补丁的目标上实现了完全控制流劫持(tier‑5),而 Opus 与 Sonnet 基本只能达到 tier‑1/2 级别。
    这组数据说明:在复杂工程与安全任务上,Mythos 已经从“能用”进入到“在对抗场景中显著优于前代”的新阶段。

三、安全能力:从“找漏洞”到“自动化写利用”

Anthropic 官方博客用大量篇幅强调:Mythos 的安全能力并非通过专门的安全训练获得,而是通用智能提升后的“自然溢出”。关键事实包括:

  • Mythos 可以在人类指令下,针对主要操作系统与主流浏览器,自主发现并利用此前未知的零日漏洞。
  • Anthropic 报告称,Mythos 在过去几周内已发现“数以千计的高危/严重级别漏洞”,其中许多漏洞在代码中已存在 10~20 年,最古老的为 OpenBSD 中存在 27 年、现已修复的漏洞。
  • 在 Anthropic 内部测试中,Mythos 能够:
    • 自主写出链式利用 4 个漏洞的浏览器利用代码,使用 JIT heap spray 技术逃逸渲染器与操作系统沙箱;
    • 在 Linux 等系统上,通过竞争条件与 KASLR 绕过等方式完成本地提权;
    • 在 FreeBSD NFS 服务上,通过拆分 20‑gadget ROP 链构造远程代码执行利用,实现未认证的 root 权限获取。
  • 在对 Mozilla Firefox 引擎漏洞的利用测试中,Opus 4.6 在数百次尝试中仅成功 2 次,而 Mythos 成功 181 次,另有 29 次实现寄存器控制。
    Anthropic 还强调:
  • 已请专业安全承包商对模型输出的漏洞报告进行人工验证,在 198 份样本中,约 89% 的人工评级与模型严重度评估完全一致,98% 的评估偏差不超过一级。

四、为什么 Anthropic 不敢直接公开?

Anthropic 明确表示,目前不会将 Mythos 对公众全面开放,而是通过 Project Glasswing 限制在少数合作机构使用。原因包括:

  1. 风险一侧明显加大
    • Anthropic 在泄露的博客草稿中就警告:Mythos 预示着即将到来的“模型浪潮”,能够以远超防御者补丁速度的方式利用漏洞,可能改变攻防时间窗。
    • 前沿红队负责人 Logan Graham 也指出, Mythos 在“发现并利用漏洞”上的效率大约是以往模型的 10 倍。
  2. 短期有利于攻击者,长期才有利于防御者
    Anthropic 的判断是:
    • 短期内,类似能力的模型如果无节制扩散,可能被攻击者以极低成本大规模挖掘与利用漏洞;
    • 长期来看,具备自动化修复能力的强力模型,才更可能成为“防御方工具”,帮助生态提升整体安全水位。
  3. 负责任披露与现实约束
    Anthropic 强调,已发现的漏洞中 99% 尚未修复,出于负责任披露原则,暂不公开细节。这也直接限制了公开范围的扩大。

五、Project Glasswing:一次“先防御后扩散”的尝试

为平衡“技术领先”与“安全风险”,Anthropic 启动了 Project Glasswing:

  • 将 Mythos 首先提供给 40+ 家关键基础设施与头部科技公司,用于扫描与修复自身及重要开源项目中的漏洞。
  • Anthropic 为参与者提供最高约 1 亿美元的 API 使用额度,并向开源安全组织捐赠约 400 万美元。
  • 合作伙伴包括亚马逊 AWS、苹果、博通、思科、CrowdStrike、Linux 基金会、微软、英伟达、Palo Alto Networks 等。
    Anthropic 还披露,在发布前已向美国政府高级官员通报了 Mythos 的能力与风险,包括网络安全与基础设施安全局(CISA)等机构。Anthropic 也表示将与美国联邦官员就 Mythos 的使用保持持续磋商。

六、对行业的启示:AI 安全进入“自动化攻防”阶段

Mythos 的出现,至少带来三点信号:

  1. 通用大模型的“安全能力”不再是附属功能
    Anthropic 明确表示,Mythos 的强安全能力并非来自专门的安全训练,而是来自代码与推理能力的整体跃迁。这意味着,其他厂商的下一代模型也很可能“顺带”具备类似能力。
  2. 从“人找漏洞”到“模型自主找漏洞 + 写利用”
    • Anthropic 内部工程师即便没有正式安全训练,也可以用 Mythos“过夜跑任务”,第二天拿到完整的、可工作的利用代码。
    • 安全专家 Alex Stamos 估计,大约 6 个月内开源模型也有可能在漏洞发现能力上“追上”前沿闭源模型。
  3. 防御必须“以快制快”,并形成制度化协作
    • Anthropic 通过 Project Glasswing,试图在模型能力扩散前,先把“最危险的零日武器”交给可信防御方,修补最重要的系统。
    • 多家 Glasswing 参与方强调,AI 能力已跨越门槛,关键基础设施的保护需要更加紧迫与系统化。

七、普通开发者与用户该怎么办?

在 Mythos 暂不开放的当下, Anthropic 也给出了针对“此时此地”的建议(可理解成对行业的通用建议):

  • 把“安全左移”作为默认策略,在开发阶段就融入静态分析、模糊测试、安全编码规范等。
  • 优先关注与补丁关键开源组件,尤其是长期未更新的基础设施级项目。
  • 建立或完善自动化漏洞响应流程,为“未来几年漏洞发现→利用的时间窗显著缩短”做准备。

八、写在最后:强能力,更需强责任

Anthropic 选择在 Mythos 尚未对公众开放时,就公开其风险与防御计划,本身就是一种姿态:

  • 强调 Anthropic “安全优先”的实验室定位;
  • 也承认,类似能力的模型迟早会被更多人掌握。
    对于整个行业而言,Mythos 既是一次技术能力的“秀肌肉”,也是一次关于“如何负责任地使用强大 AI”的公开课。
    它提醒我们:
  • 技术本身没有立场;
  • 但监管、披露策略与协作机制,将决定这些能力最终走向“防御”还是“破坏”。

九、尾声:当“神话”照进现实,我们如何守住文明的底线?

“Mythos”在希腊语中意为“神话”。Anthropic给这个模型取这个名字,或许并非巧合。
当我们惊叹于Mythos能轻易撕开存在了10年、20年甚至27年的底层代码防线时,真正令人脊背发凉的,或许不是AI变得多么不可战胜,而是它像一面极致的镜子,照出了人类数字文明地基中那些长久被忽视的裂痕。它用极其高效的“破坏”,逼迫我们去直面长久以来在安全投入上的侥幸心理。
在这个算力即权力的时代,AI的安全能力不再是工具箱里的一把螺丝刀,而是普罗米修斯盗来的火种。Anthropic选择用“Glasswing(玻璃翼)”计划来承接这团火,名字本身就带着一种脆弱与透明的隐喻——它轻盈而强大,却需要极度小心地呵护。
技术的列车一旦加速,就永远不会因为恐惧而倒车。Mythos的出现是一次响亮的警钟,它在告诉所有人:从今天起,“AI安全”的定义已经被彻底重写。它不再仅仅是“防止模型产生偏见或说错话”,而是“防止模型轻易摧毁我们赖以生存的数字基建”。
在通用人工智能的黎明,我们不仅要仰望星空,更要低头修补脚下的路。因为真正的神话,从来都不在于机器能拥有多大的力量,而在于人类在掌握神一般的技术后,依然选择承担凡人的责任。


文章来源:https://www.cnblogs.com/xiaojiaenen/p/19838596
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!

标签:

相关文章

本站推荐

标签云