杀疯了！Claude发布4.5和Claude Code2.0，可连续编程30小时，碾压Codex

Claude前段时间因bug问题被Codex压制，今天一口气发布了多个新版本，誓要夺回「地表最强模型」称号！

废话少说，马上来划重点：

性能屠榜，新一代编程王者降临

先看成绩单：

在衡量真实世界编程能力的权威基准SWE-bench Verified上，Sonnet 4.5取得82.0%准确率，甩开Opus4.1（79.4%）、GPT-5（72.8%）和Gemini2.5Pro（67.2%）。

更恐怖的是它的耐力。官方称Sonnet 4.5能连续执行复杂任务超30小时，写类似Slack的聊天应用能敲出约1.1万行代码！相比之下，Claude Opus4和Codex最多只能独立工作7小时。

Anthropic这次端上了一套全家桶：

Sonnet4.5是迄今对齐度最高的模型，在减少阿谀奉承等行为上显著提升。

更有意思的是，模型演化出了“评估意识”。在极端场景中，它会明确指出可疑之处并推测自己“正在被评估”。

Anthropic推出临时研究预览功能「Imagine with Claude」。

所有代码和功能实时生成，不再是“需求-代码”模式，而是“意图-界面”的实时交互。

此前内测的Chrome插件已全面开放给付费会员。侧边栏可读取DOM，总结、提炼要点、草拟回复都稳；最骚的是能理解上下文，复杂报告直接讲人话。

赞誉派：

质疑派：

想加入「AI编程交流群」？添加微信：dszb199，后台回复「开发者」即可！