Anthropic的Claude Opus 4.7:靠谱的AI助手
Anthropic公司推出的Claude Opus 4.7在AI圈子里引起了极大的关注。这款产品不仅热度居高不下,口碑也持续攀升,稳坐AI圈「顶流」的交椅。它的出现解决了一个比聪明更重要的痛点:靠谱。不是那种你说什么它就做什么的靠谱,而是当你提出一个愚蠢的方案时,它敢于反驳你,并自己把坑填上的靠谱。
一、Opus 4.7的性能提升
在业界公认最硬核的SWE-bench Pro上,Opus 4.7从前代的53.4%直接拉到64.3%,单代升级涨了近11个百分点,把GPT-5.4(57.7%)和Gemini 3.1 Pro(54.2%)都甩在了身后。更高的分辨率直接带动了输出质量的连锁提升:生成界面、制作幻灯片、排版文档,细节精度也全面提升。
在工具调用规模化评测MCP-Atlas上,Opus 4.7跑出77.3%,超过GPT-5.4的68.1%和Gemini的73.9%。在法律AI平台Harvey测试中,Opus 4.7在BigLaw基准上拿下90.9%,正确区分了历来是前沿模型死穴的转让条款与控制权变更条款。
二、Opus 4.7的靠谱表现
Opus 4.7在真实工作里展现出了截然不同的气质。它不再一味地唯命是从,也不再为了交差而胡编乱造。在数据科学平台Hex的测试里,Opus 4.7遇到缺失数据时会直接报错,而不是像前代那样塞一个看似合理但完全错误的备选值。
它的另一个大的亮点是任务韧性。以往大模型在多步任务中遇到工具调用失败,往往直接停机报错。Notion团队测试发现,Opus 4.7的工具错误率降到了原来的三分之一,更关键的是,它能在工具链崩溃时自己绕过障碍,继续把任务跑完。
三、Opus 4.7的细节处理能力
为了验证它在细节上的处理能力,我们设定了三个交互场景,评判标准只有一个:细节是否敷衍,一眼便知。
第一个场景,是让它做一个俯视视角的黑胶唱片机界面,其难点在于「金属光泽」与「呼吸光晕」的呈现。 Opus 4.7并没有用廉价的色彩渐变敷衍了事,而是通过复杂的CSS样式叠加,逼真地还原了金属质感。
第二个场景是只用CSS,不用Java做了一个老式电风扇。 面对这个限制严格的题目,一些模型会悄悄违规使用JS,但Opus 4.7遵守了规则。它用纯CSS做出了风扇的立体结构,低中高三档过渡流畅,底座透视和阴影的处理也真有一点实物感,它在规则允许的范围内找到了很好的解决办法。
第三个场景是做一个复古磁带随身听,带有录像带那种老旧的噪点效果。磁带转动的细节也是有的。
四、Opus 4.7的代价
当然,变聪明是有代价的。Opus 4.7 现已在所有 Claude 产品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平台上推出。基础定价维持在每百万 token 输入 5 美元、输出 25 美元不变。但 Opus 4.7引入了全新分词器,同样的文本会拆分出比原来多 1.0 到 1.35 倍的 Token。叠加上它在高强度任务中本身就倾向于「多想一会儿」,实际消耗几乎必然上升。
此外,Anthropic 在原有的难度选项之上, 加入了全新的 xhigh(超高)级别。在这个级别下,面对复杂难题,Claude Opus 4.7会消耗更多的 Token,花更多的时间去「思考」。Claude Code 已经把所有套餐的默认 effort level 直接拉到了 xhigh。
五、Opus 4.7的杀手级功能
为了防止这个「太能思考」的 AI 把账户余额刷爆, API 端还推出了「任务预算」(Task Budgets)功能公测版,让开发者可以显式规划 Claude 在长任务中的 Token 支出优先级。
Claude Opus 4.7的出现,为我们的工作和生活带来了极大的便利。它的靠谱表现和细节处理能力,让我们看到了AI技术的巨大潜力。虽然它的使用代价相对较高,但对于那些渴望将 AI 深度嵌入实际工作流的团队而言,这种稳定、高频且可预期的更新节奏,才是最让人感到踏实的定心丸。