杀疯了!Claude发布4.5和Claude Code2.0,可连续编程30小时,碾压Codex

Claude前段时间因bug问题被Codex压制,今天一口气发布了多个新版本,誓要夺回「地表最强模型」称号!

废话少说,马上来划重点:

  • 性能屠榜:在SWE-bench Verified测试中,Sonnet 4.5登顶业界第一!
  • 30小时连肝不倦:能连续专注工作超30小时,AI取代人类的优势又+1!
  • Claude Code2.0全家桶升级:新增检查点回滚功能、原生VS Code插件、更强的Agent SDK。
  • 加量不加价:性能暴涨但价格维持Sonnet4水平,性价比爆表!
  • Imagine with Claude:实时生成软件,未来感拉满!

性能屠榜,新一代编程王者降临

先看成绩单:

在衡量真实世界编程能力的权威基准SWE-bench Verified上,Sonnet 4.5取得82.0%准确率,甩开Opus4.1(79.4%)、GPT-5(72.8%)和Gemini2.5Pro(67.2%)。 Image

更恐怖的是它的耐力。官方称Sonnet 4.5能连续执行复杂任务超30小时,写类似Slack的聊天应用能敲出约1.1万行代码!相比之下,Claude Opus4和Codex最多只能独立工作7小时。


Claude Code2.0生态全家桶,这才是大杀器!

Anthropic这次端上了一套全家桶:

Image

  1. 检查点(Checkpoints):一键回滚到任意状态。
  2. 原生VS Code插件:实时侧边栏、行内diff,审阅代码更丝滑。
  3. Claude Agent SDK:开放底层基础设施,解决长时任务记忆、自主性与协同问题。

安全与“评估意识”:一个更聪明的AI?

Sonnet4.5是迄今对齐度最高的模型,在减少阿谀奉承等行为上显著提升。 Image

更有意思的是,模型演化出了“评估意识”。在极端场景中,它会明确指出可疑之处并推测自己“正在被评估”。


Imagine with Claude:未来软件开发新范式

Anthropic推出临时研究预览功能「Imagine with Claude」。 Image

所有代码和功能实时生成,不再是“需求-代码”模式,而是“意图-界面”的实时交互。


Claude for Chrome插件

此前内测的Chrome插件已全面开放给付费会员。 侧边栏可读取DOM,总结、提炼要点、草拟回复都稳;最骚的是能理解上下文,复杂报告直接讲人话。


社区炸锅,是真神还是营销?

赞誉派:

  • Dan Shipper:新版Sonnet4.5响应更快,更稳定。
  • 网友@vasumanmoza:重构整个代码库,新增3000多行代码,结果跑不通但很优雅。

质疑派:

  • Reddit热门评论:“能自动编码30小时,但每次添加新功能都要丢弃项目”,可维护性存疑。
  • 担心模型发布初期是性能巅峰,之后因安全调整而“变笨”。

最后提醒

想加入「AI编程交流群」?添加微信:dszb199,后台回复「开发者」即可!