114阅读
3回复

[数码讨论]刚刚，Claude Opus 4.7突然发布：不是最强，但奥特曼又得失眠 [复制链接]

上一主题下一主题查看指定楼层

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 246207

金币: 896902

道行: 2006

原创: 2465

奖券: 3580

斑龄: 45

道券: 1580

获奖: 0

座驾

设备

摄影级

在线时间: 52323(小时)
注册时间: 2008-10-01
最后登录: 2026-05-03

只看楼主倒序阅读楼主发表于: 04-17

— 本帖被兵马大元帅执行加亮操作(2026-04-19) —

今年 Anthropic 的势头异常凶猛。
不仅热度居高不下，口碑也持续攀升，稳坐 AI 圈「顶流」的交椅。现在几乎每天醒来，都能看到他们准点推送的新产品或新功能。久而久之，大家也从兴奋变成了「是你，果然又是你」的默契感。

而就在刚刚，万众期待的 Claude Opus 4.7 也正式发布，依旧是熟悉的配方，熟悉的高分选手。
有趣的是，Anthropic 在公告里非常坦诚，甚至带着点骄傲：「这并非我们最强大的模型。」那个传说因强到不敢发布的 Claude Mythos Preview 依然还在藏。
但就是这个并非最强的 Opus 4.7，却依旧引发了极大的关注。因为它解决了一个比聪明更重要的痛点：靠谱。不是那种你说什么它就做什么的靠谱，而是当你提出一个愚蠢的方案时，它敢于反驳你，并自己把坑填上的靠谱。

当靠谱成为比聪明更稀缺的品质
基准测试结果显示，在业界公认最硬核的 SWE-bench Pro 上，Opus 4.7从前代的 53.4% 直接拉到 64.3%，单代升级涨了近 11 个百分点，把 GPT-5.4（57.7%）和 Gemini 3.1 Pro（54.2%）都甩在了身后。
这不只是「看」得更清楚这么简单。更高的分辨率直接带动了输出质量的连锁提升：生成界面、制作幻灯片、排版文档，细节精度也全面提升。

工具调用规模化评测 MCP-Atlas 上，Opus 4.7跑出 77.3%，超过 GPT-5.4 的 68.1% 和 Gemini 的 73.9%。法律 AI 平台 Harvey 测试中，Opus 4.7在 BigLaw 基准上拿下 90.9%，正确区分了历来是前沿模型死穴的转让条款与控制权变更条款。
不过，Opus 4.7也并非全然遥遥领先，在 Agentic search 评测 BrowseComp 上，Opus 4.7反而从前代的 83.7% 下降到了 79.3%，被 GPT-5.4（89.3%）和 Gemini（85.9%）超越。
这个退步并非偶然。一个遇到缺失信息会直接报错、不肯乱编答案的 Agent，在以「是否给出答案」为评判标准的基准上，天然会吃亏。

向左更多「成绩单」
而数据之外，更值得关注的问题是：这种「靠谱」，在真实工作里到底意味着什么？过去一年，业界对代码大模型的期待，普遍还停留在写个函数、找个 Bug 的层面，但 Claude Opus 4.7在早期测试里，展现出了一种截然不同的气质。
知名云端开发平台 Replit 这样描述：「它在技术讨论中会反驳我，帮我做出更好的决定。它真的感觉像一个更好的同事。」

它不再一味地唯命是从，也不再为了交差而胡编乱造。在数据科学平台 Hex 的测试里，Opus 4.7遇到缺失数据时会直接报错，而不是像前代那样塞一个看似合理但完全错误的备选值。
这种拒绝顺从的特质，恰恰是高级软件工程里最稀缺的东西。
当然，凡事有两面。为旧模型写的 prompt，到了 Opus 4.7 手里可能会产生意想不到的结果。那些过去被模型「意会」的模糊指令，Opus 4.7会一字一字地字面执行。这也意味着越懂得清楚表达需求的人，越能从 Opus 4.7这里拿到好结果。
光会「顶嘴」还不够，遇到挫折就罢工的 AI 同样不是好同事。Opus 4.7的另一个大的亮点，是任务韧性。

以往大模型在多步任务中遇到工具调用失败，往往直接停机报错。Notion 团队测试发现，Opus 4.7的工具错误率降到了原来的三分之一，更关键的是，它能在工具链崩溃时自己绕过障碍，继续把任务跑完。
当 AI 停止谄媚，真正的生产力才开始爆发。
前端框架巨头 Vercel 还发现了一个过去从未有过的行为：Opus 4.7 会在开始写系统级代码之前，先自己进行数学证明。这已经超出了写代码的范畴，进入了严谨工程设计的领域。
雇佣 AI「资深专家」的代价
为了验证它在细节上的处理能力，我设定了三个交互场景，评判标准只有一个：细节是否敷衍，一眼便知。
第一个场景，是让它做一个俯视视角的黑胶唱片机界面，其难点在于「金属光泽」与「呼吸光晕」的呈现。 Opus 4.7并没有用廉价的色彩渐变敷衍了事，而是通过复杂的 CSS 样式叠加，逼真地还原了金属质感。

第二个场景是只用 CSS，不用 Java 做一个老式电风扇。面对这个限制严格的题目，一些模型会悄悄违规使用 JS，但 Opus 4.7遵守了规则。

它用纯 CSS 做出了风扇的立体结构，低中高三档过渡流畅，底座透视和阴影的处理也真有一点实物感，它在规则允许的范围内找到了很好的解决办法。
第三个场景是做一个复古磁带随身听，带有录像带那种老旧的噪点效果。磁带转动的细节也是有的。

当然，变聪明是有代价的。Opus 4.7 现已在所有 Claude 产品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平台上推出。
基础定价维持在每百万 token 输入 5 美元、输出 25 美元不变。但 Opus 4.7引入了全新分词器，同样的文本会拆分出比原来多 1.0 到 1.35 倍的 Token。

叠加上它在高强度任务中本身就倾向于「多想一会儿」，实际消耗几乎必然上升。
此外，Anthropic 在原有的难度选项之上，加入了全新的 xhigh（超高）级别。在这个级别下，面对复杂难题，Claude Opus 4.7会消耗更多的 Token，花更多的时间去「思考」。Claude Code 已经把所有套餐的默认 effort level 直接拉到了 xhigh。
Anthropic 用行动告诉所有人，对于真正的编码任务，省着用不如想清楚。为了匹配这种工作流，Claude Code 顺势推出了两个杀手级功能：
/ultrareview（深度审查）：开启一个专门的审查会话，像一个极其挑剔的资深 Reviewer 一样，通读所有代码更改，精准标记出深层的架构设计缺陷和 Bug。Pro 和 Max 用户可以免费试用三次。
Auto Mode（自动模式）扩展到 Max 用户：一种介于逐项授权和跳过所有权限之间的权限模式。Claude 会在你授权的范围内自主做决策，既能跑完漫长无聊的任务，又比完全放权更安全。

为了防止这个「太能思考」的 AI 把账户余额刷爆， API 端还推出了「任务预算」（Task Budgets）功能公测版，让开发者可以显式规划 Claude 在长任务中的 Token 支出优先级。
当然，Opus 4.7并不是 Anthropic 手里最强的牌。那个更强的 Claude Mythos Preview，本月刚以「Project Glasswing」的名义，小范围开放给了一批企业用于网络安全研究。
Mythos 没有公开发布，原因则是因为它的网络攻防能力太强， Anthropic 觉得还没想清楚怎么安全地推给所有人。

Opus 4.7 本身也做了主动取舍，训练阶段就压低了网络攻防能力，内置自动拦截机制，碰到高风险请求直接挡掉。有合规需求的安全研究人员，可以通过官方渠道单独申请。
不急着把最强的牌打出去，和不停地往桌上加新牌，背后是同一套逻辑。实际上，Anthropic 真正的护城河，是交付节奏本身。
在今年 2 月 1 日至 3 月 24 日，短短 52 天里，Anthropic 就一共更新了 74 款产品，平均不到两天一个。Cowork、插件……这些动作扎扎实实地击中了职场办公的痛点，这种频率，够让奥特曼睡不着了。
如今的 Claude 生态，早就超越了单纯的聊天机器人。对于那些渴望将 AI 深度嵌入实际工作流的团队而言，这种稳定、高频且可预期的更新节奏，才是最让人感到踏实的定心丸。
今天发布的 Claude Opus 4.7，是这条链条上最新的一块压舱石。而那个 Mythos Preview，迟早也会亮相。到那时候，我们现在觉得已经很能打的 Opus 4.7，可能只是个开端。

山庄提示：道行不够，道券不够？---☆点此充值☆

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 246207

金币: 896902

道行: 2006

原创: 2465

奖券: 3580

斑龄: 45

道券: 1580

获奖: 0

座驾

设备

摄影级

在线时间: 52323(小时)
注册时间: 2008-10-01
最后登录: 2026-05-03

只看该作者沙发发表于: 04-17

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

Anthropic的Claude Opus 4.7：靠谱的AI助手
Anthropic公司推出的Claude Opus 4.7在AI圈子里引起了极大的关注。这款产品不仅热度居高不下，口碑也持续攀升，稳坐AI圈「顶流」的交椅。它的出现解决了一个比聪明更重要的痛点：靠谱。不是那种你说什么它就做什么的靠谱，而是当你提出一个愚蠢的方案时，它敢于反驳你，并自己把坑填上的靠谱。
一、Opus 4.7的性能提升
在业界公认最硬核的SWE-bench Pro上，Opus 4.7从前代的53.4%直接拉到64.3%，单代升级涨了近11个百分点，把GPT-5.4（57.7%）和Gemini 3.1 Pro（54.2%）都甩在了身后。更高的分辨率直接带动了输出质量的连锁提升：生成界面、制作幻灯片、排版文档，细节精度也全面提升。

在工具调用规模化评测MCP-Atlas上，Opus 4.7跑出77.3%，超过GPT-5.4的68.1%和Gemini的73.9%。在法律AI平台Harvey测试中，Opus 4.7在BigLaw基准上拿下90.9%，正确区分了历来是前沿模型死穴的转让条款与控制权变更条款。
二、Opus 4.7的靠谱表现
Opus 4.7在真实工作里展现出了截然不同的气质。它不再一味地唯命是从，也不再为了交差而胡编乱造。在数据科学平台Hex的测试里，Opus 4.7遇到缺失数据时会直接报错，而不是像前代那样塞一个看似合理但完全错误的备选值。

它的另一个大的亮点是任务韧性。以往大模型在多步任务中遇到工具调用失败，往往直接停机报错。Notion团队测试发现，Opus 4.7的工具错误率降到了原来的三分之一，更关键的是，它能在工具链崩溃时自己绕过障碍，继续把任务跑完。
三、Opus 4.7的细节处理能力
为了验证它在细节上的处理能力，我们设定了三个交互场景，评判标准只有一个：细节是否敷衍，一眼便知。

第一个场景，是让它做一个俯视视角的黑胶唱片机界面，其难点在于「金属光泽」与「呼吸光晕」的呈现。 Opus 4.7并没有用廉价的色彩渐变敷衍了事，而是通过复杂的CSS样式叠加，逼真地还原了金属质感。

第二个场景是只用CSS，不用Java做了一个老式电风扇。面对这个限制严格的题目，一些模型会悄悄违规使用JS，但Opus 4.7遵守了规则。它用纯CSS做出了风扇的立体结构，低中高三档过渡流畅，底座透视和阴影的处理也真有一点实物感，它在规则允许的范围内找到了很好的解决办法。

第三个场景是做一个复古磁带随身听，带有录像带那种老旧的噪点效果。磁带转动的细节也是有的。
四、Opus 4.7的代价
当然，变聪明是有代价的。Opus 4.7 现已在所有 Claude 产品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平台上推出。基础定价维持在每百万 token 输入 5 美元、输出 25 美元不变。但 Opus 4.7引入了全新分词器，同样的文本会拆分出比原来多 1.0 到 1.35 倍的 Token。叠加上它在高强度任务中本身就倾向于「多想一会儿」，实际消耗几乎必然上升。

此外，Anthropic 在原有的难度选项之上，加入了全新的 xhigh（超高）级别。在这个级别下，面对复杂难题，Claude Opus 4.7会消耗更多的 Token，花更多的时间去「思考」。Claude Code 已经把所有套餐的默认 effort level 直接拉到了 xhigh。
五、Opus 4.7的杀手级功能
为了防止这个「太能思考」的 AI 把账户余额刷爆， API 端还推出了「任务预算」（Task Budgets）功能公测版，让开发者可以显式规划 Claude 在长任务中的 Token 支出优先级。

Claude Opus 4.7的出现，为我们的工作和生活带来了极大的便利。它的靠谱表现和细节处理能力，让我们看到了AI技术的巨大潜力。虽然它的使用代价相对较高，但对于那些渴望将 AI 深度嵌入实际工作流的团队而言，这种稳定、高频且可预期的更新节奏，才是最让人感到踏实的定心丸。

如何不发帖就快速得到金币和道行

在线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君

发帖: 181914

金币: 629274

道行: 20030

原创: 769

奖券: 480

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 22966(小时)
注册时间: 2012-06-21
最后登录: 2026-05-03

只看该作者板凳发表于: 04-17

用户被禁言,该主题自动屏蔽!

如何不发帖就快速得到金币和道行

离线中宜宜九磷宜

UID: 2158359

精华: 0
级别: 武当真人

发帖: 1840

金币: 403

道行: 100

原创: 2

奖券: 20

斑龄: 0

道券: 0

获奖: 0

座驾: 无

设备

摄影级

在线时间: 626(小时)
注册时间: 2023-03-04
最后登录: 2026-05-02

只看该作者地板发表于: 04-17

‌Claude Opus 4.7 已于2026年4月17日正式发布，虽非最强模型，但在可靠性、工程能力与视觉精度上实现关键跃升‌，成为当前最强大的通用可用AI之一。

这款新模型在多个核心维度展现出显著进步：

‌更强的软件工程能力‌
在业界公认的高难度编码基准 SWE-bench Pro 上，Opus 4.7 的表现从上一代的 ‌53.4% 提升至 64.3%‌，单代跃升近11个百分点，超越 GPT-5.4（57.7%）和 Gemini 3.1 Pro（54.2%），能独立处理复杂、需长期运行的编程任务。

‌高分辨率视觉理解能力翻倍‌
支持输入高达 ‌2576像素长边的图像‌，是前代的三倍以上，使AI能精准识别UI截图、复杂图表中的微小元素。在 ScreenSpot-Pro 等测试中，定位精度从57.7%提升至 ‌79.5%（无工具）‌，叠加工具调用后达87.6%。

‌更“靠谱”的行为模式‌
不再盲目顺从指令，而是具备“顶嘴”能力：当用户提出不合理请求时，会主动反驳并修正方案。在数据缺失时选择报错，而非伪造填补，显著提升在金融、法律等高风险场景下的可信度。

‌任务韧性与自我修复能力增强‌
在多步工具调用中，工具错误率降至原来的三分之一，并能在链路崩溃时自主绕过障碍继续执行。Anthropic 展示了其在无人干预下从零构建完整 Rust 文本转语音引擎的案例。

‌新增网络安全防护机制‌
首次集成 Project Glasswing 框架的防护功能，可自动检测并阻止高风险的网络攻击请求，为通用模型注入安全基因。

尽管其在 Agentic search 基准（BrowseComp）上略有退步（从83.7%降至79.3%），但这源于其“不编造答案”的严谨性，反而体现了对事实完整性的坚守。

定价维持不变：‌每百万输入 tokens 5美元，输出 tokens 25美元‌。但因新分词器导致相同内容消耗更多 tokens（约1-1.35倍），实际成本略有上升。

如何不发帖就快速得到金币和道行

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[数码讨论]刚刚，Claude Opus 4.7突然发布：不是最强，但奥特曼又得失眠 [复制链接]