12阅读
2回复

[智能应用]ChatGPT-5.4发布：和OpenClaw完美兼容，AI第一次比人类更会操作电脑[4P] [复制链接]

上一主题下一主题查看指定楼层

在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君

发帖: 119363

金币: 2392

道行: 19524

原创: 29681

奖券: 18442

斑龄: 205

道券: 10971

获奖: 0

座驾

设备: EOS—7D

摄影级: 专家级认证

在线时间: 26265(小时)
注册时间: 2007-11-29
最后登录: 2026-03-10

只看楼主倒序阅读楼主发表于: 03-06

— 本帖被兵马大元帅执行提前操作(2026-03-08) —

自从各大模型厂商开始以 0.1 的小版本更新模型后，模型更新的频率越来越快了，3 月 5 日，就在 GPT-5.3 Instant 刚更新完毕后两天，GPT-5.4 也来了。
这款模型被 OpenAI 定位为“面向专业工作的最强前沿模型”。它以 GPT-5.4 Thinking 的形式进入 ChatGPT，同时上线 API 和代码开发平台 Codex。此外还有一个 GPT-5.4 Pro 版本，面向需要极致复杂任务性能的用户，仅对 ChatGPT Pro（月费 200 美元）和 Enterprise 订阅者开放。Plus 用户可以使用 GPT-5.4 Thinking，免费用户则只能在系统自动路由时偶尔被分配到该模型。

（来源：OpenAI）
GPT-5.4 在 API 和 Codex 中支持最高 100 万 token（标记）的上下文窗口（Context Window，即模型单次处理文本的长度上限），这是目前 OpenAI 提供的最大上下文窗口。不过超过 272,000 token 的请求，输入价格翻倍、输出加收 50%。标准输入单价从 GPT-5.2 时代的每百万 token 1.75 美元涨到了 2.50 美元，涨幅 43%。
OpenAI 给出的解释是，模型能力更强，研究投入更大，同时推理效率更高——用更少的 token 解决同样的问题，所以总成本未必上升。作为参考，Anthropic 的 Claude Opus 4.6 输入价格是每百万 token 5 美元，输出 25 美元，GPT-5.4 Pro 的定价实际上还要更贵。

（来源：OpenAI）
跑分方面，在 OSWorld-Verified 基准测试中，GPT-5.4 的成功率达到 75.0%，远超 GPT-5.2 的 47.3%，也超过了该测试报告的人类表现 72.4%。在 OpenAI 的官方演示中，通过 Playwright Interactive（一种浏览器自动化工具）与图像生成结合，仅凭单条提示词就构建出了一个主题乐园模拟游戏，涵盖瓦片路径布置、游乐设施建造、游客路径寻路和实时公园指标。
在 BrowseComp（衡量 AI 代理在网页上持续检索难以定位信息的能力）上，GPT-5.4 比 GPT-5.2 提升了 17 个百分点，Pro 版本达到 89.3%。OpenAI 自己的 GDPval 测试（覆盖美国 GDP 贡献最大的 9 个行业、44 种职业的知识工作任务）给出了 83% 的得分，意味着在这些任务上模型的表现达到或超过了行业从业者水平。
在电子表格建模任务中，得分从 GPT-5.2 的 68.4% 跳到了 87.3%；人类评审者在 68% 的情况下更偏好 GPT-5.4 生成的演示文稿。

（来源：OpenAI）
这些数字背后有一个关键能力：原生计算机使用（Native Computer Use）。GPT-5.4 是 OpenAI 发布的第一个内置原生计算机操控能力的通用模型，可以通过编写代码（比如使用 Playwright 库）来操控计算机，也可以直接根据屏幕截图发出鼠标和键盘指令。这让它能够在软件环境中执行“构建 - 运行 - 验证 - 修复”的循环，完成需要跨多个应用的多步骤工作流。
另一个对开发者影响较大的新特性是 Tool Search（工具搜索）。过去，在 API 中使用工具时，所有工具的定义需要一次性塞进提示词里，随着工具越来越多，这造成了巨大的 token 开销和上下文污染。GPT-5.4 引入了一个结构性的优化：模型只接收一个轻量级工具列表，需要用到某个工具时再动态检索其完整定义。
在 Scale 公司的 MCP Atlas 基准测试中，使用 36 个 MCP 服务器执行 250 项任务，工具搜索将 token 消耗降低了 47%，同时保持了准确率。对于构建大型智能体（Agent）系统的开发者来说，这直接意味着更低的成本和更快的响应。
幻觉（Hallucination，即模型编造事实）的改善也被重点提及。OpenAI 表示，GPT-5.4 在单条声明中出错的概率比 GPT-5.2 降低了 33%，整体回复包含错误的概率降低了 18%。
不过需要注意的是，在 HealthBench 医疗健康评测中，GPT-5.4 的得分是 62.6%，反而略低于 GPT-5.2 的 63.3%。模型回复的平均长度也更长了，从 GPT-5.2 的 2,676 字符增加到 3,311 字符。更长的回复有时候意味着更全面，也有时候意味着更啰嗦，用户体验如何还有待观察。
在抽象推理方面，进步幅度较为显著。ARC-AGI-2 从 52.9% 跃升至 73.3%，Pro 版本达到 83.3%。FrontierMath Tier 4（最高难度的数学推理测试）从 18.8% 提升至 27.1%，Pro 版本为 38.0%。
一些拿到早期测试权限的用户已经在 X 上密集发布体验报告。AI 创业者 Matt Shumer 称自己测试 GPT-5.4 长达一周，认为其标准版配合深度思考模式的表现已经超过了此前其他模型的 Pro 版本，以至于他几乎不再需要切换到 Pro 模式。

（来源：X）
其编码能力尤其突出，Shumer 称在 Codex 中使用 GPT-5.4 的可靠性极高，编码问题“基本上已经被解决了”。Pro 版本则能攻克其他模型完全无法处理的难题，但对日常任务来说属于“过剩火力”。而且的确和 OpenAI 官方宣称的一样，其标准思考版本使用的推理 token 比以前更少，响应速度明显加快。
不过 Shumer 也指出了几个短板：前端设计品味远不如 Claude Opus 4.6 和 Gemini 3.1 Pro；模型有时候会忽略显而易见的现实世界语境，比如为他规划旅行行程时选了一堆春假期间会被游客挤爆的地点。在 OpenClaw 中测试 GPT-5.4 时，模型经常在任务完成之前就停下来。
OpenAI 同时宣布了一套面向金融行业的企业产品，核心是 ChatGPT for Excel 和 Google Sheets（测试版）。OpenAI 将其描述为 ChatGPT 直接嵌入电子表格，用于构建、分析和更新复杂的财务模型。
配套的还有与 FactSet、MSCI、Moody's 等金融数据提供商的集成，以及可复用的“Skills”（技能模板），用于盈利预览、可比公司分析、DCF（折现现金流）分析等标准化金融工作。
在 OpenAI 内部的投资银行基准测试中，GPT-5.4 Thinking 的表现从 GPT-5 时代的 43.7% 提升到了 88.0%。这组产品的对手毫无疑问是 Anthropic 刚推出的 Cowork 桌面工具和 Claude 的文件管理能力，以及 Google 在 Workspace 中持续深入的 AI 集成。
综合来看，GPT-5.4 称得上是一种在多个维度上的整合性进步。原生计算机操控、工具搜索、更大的上下文窗口、更强的推理能力，这些合在一起构成了一个更完整的“AI 工作助手”，也为 OpenClaw 这类智能体框架提供了更强的底层引擎。
日常聊天和写邮件的改进可能体现在细节上，真正能感受到跨代差异的，是那些用 AI 做 PPT、建财务模型、在 Codex 里跑自动化流程的重度用户，以及正在把 OpenClaw 当成个人数字助手的那批早期采纳者。

山庄提示：道行不够，道券不够？---☆点此充值☆

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 175237

金币: 565840

道行: 20030

原创: 769

奖券: 432

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 21858(小时)
注册时间: 2012-06-21
最后登录: 2026-03-11

只看该作者沙发发表于: 03-06

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

ChatGPT-5.4发布：原生操控电脑能力超越人类，与OpenClaw完美适配

2026年3月，OpenAI正式推出GPT-5.4，这是其首个整合推理、编码、智能体工作流的通用模型，定位为“面向专业工作的最强前沿模型”，核心目标是将AI从聊天助手推向真正能交付专业成果的系统（如表格建模、文档生成、演示文稿设计等）。

核心突破：原生电脑使用能力，首次超越人类
GPT-5.4的最大亮点是原生计算机使用能力（Computer Use）——它不需要借助外部框架或适配层，就能像人类一样通过截图识别屏幕内容，发出鼠标点击和键盘输入指令，在桌面环境中操作软件。例如，它可以自动打开浏览器查找资料并复制到Excel、读取邮件附件并记录成绩、操作计算器APP完成计算，甚至在高分辨率图像中定位极小按钮。

在衡量AI桌面操作能力的OSWorld-Verified基准测试中，GPT-5.4的任务成功率达到75.0%，不仅远超前代模型（如GPT-5.2的47.3%），更超过人类基准线（72.4%）。这是首次有通用AI模型在真实桌面环境导航能力上超越人类，标志着AI从“理解指令”迈向“自主执行”的关键一步。

与OpenClaw完美兼容：解决核心痛点
GPT-5.4被视为OpenClaw（开源个人AI助手）的“天选模型”，精准命中了OpenClaw的核心需求——模型能力直接决定产品体验。OpenClaw之父Peter评价，GPT-5.4的推理能力、工具调用准确度、长程任务上下文保持能力均实现了质的飞跃，编程能力“近乎完美无瑕”，在Codex中的可靠性达到极致，甚至标准模式下的表现超越了以往专业版模型。

对于OpenClaw而言，GPT-5.4的原生电脑操作能力与OpenClaw“让AI真正干活”的理念高度契合，无需额外适配即可直接运行，大幅提升了OpenClaw的任务执行效率（如终端命令、脚本编写、邮件管理等）。

其他关键升级
超长上下文窗口：支持100万token，可处理长周期任务（如复杂报告、多步骤工作流），避免“断片”。
编程与调试能力：整合了GPT-5.3-Codex的编码优势，支持**/fast模式**（token输出速度提升1.5倍），新增“Playwright(Interactive)”实验功能，可实时可视化调试Web/Electron应用，边写代码边测试，接近人类高级全栈工程师的工作流。
知识工作能力：在衡量44种职业知识工作的GDPval基准测试中，综合得分83.0%，覆盖美国GDP贡献最高的9个行业，能高效完成报告、财务模型、演示文稿等专业任务。
总结
GPT-5.4的发布，不仅让AI首次在电脑操作能力上超越人类，更通过与OpenClaw的完美兼容，将AI从“聊天工具”推向“数字员工”。其原生电脑操作、超长上下文、高级编程等能力，有望彻底改变专业工作流程，推动AI进入“人人可用、万物可AI”的新阶段。

如何不发帖就快速得到金币和道行

我有我可以

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 233146

金币: 787902

道行: 2006

原创: 2457

奖券: 3420

斑龄: 43

道券: 1518

获奖: 0

座驾

设备

摄影级

在线时间: 49633(小时)
注册时间: 2008-10-01
最后登录: 2026-03-11

只看该作者板凳发表于: 03-06

GPT-5.4：AI 工作助手的跨代升级
发布背景与版本定位
在各大模型厂商以 0.1 的小版本频繁更新模型的趋势下，模型更新节奏加快。3 月 5 日，OpenAI 紧随 GPT - 5.3 Instant 更新仅两天后，推出了 GPT - 5.4。这款模型被定位为“面向专业工作的最强前沿模型”，以 GPT - 5.4 Thinking 的形式融入 ChatGPT，同时上线 API 和代码开发平台 Codex，还设有面向极致复杂任务性能用户的 GPT - 5.4 Pro 版本，仅对 ChatGPT Pro（月费 200 美元）和 Enterprise 订阅者开放，Plus 用户可使用 GPT - 5.4 Thinking，免费用户则偶尔能在系统自动路由时体验该模型。
核心特性与优势
超大上下文窗口与费用调整
GPT - 5.4 在 API 和 Codex 中支持最高 100 万 token 的上下文窗口，是目前 OpenAI 提供的最大规格。不过，超过 272,000 token 的请求，输入价格翻倍、输出加收 50%。标准输入单价从 GPT - 5.2 时代的每百万 token 1.75 美元涨至 2.50 美元，涨幅 43%。OpenAI 解释称，模型能力增强、研究投入增大，且推理效率提高，用更少 token 解决同样问题，总成本未必上升。与 Anthropic 的 Claude Opus 4.6 相比，GPT - 5.4 Pro 定价更贵。
卓越的跑分表现
1. OSWorld - Verified 基准测试：GPT - 5.4 成功率达 75.0%，远超 GPT - 5.2 的 47.3%，也超过了人类表现的 72.4%。在官方演示中，通过 Playwright Interactive 与图像生成结合，仅凭单条提示词就构建出主题乐园模拟游戏，涵盖多方面功能。
2. BrowseComp 测试：GPT - 5.4 比 GPT - 5.2 提升 17 个百分点，Pro 版本达到 89.3%，展现出强大的网页信息检索能力。
3. GDPval 测试：在覆盖美国 GDP 贡献最大的 9 个行业、44 种职业的知识工作任务测试中，GPT - 5.4 获得 83%的得分，表明在这些任务上表现达到或超过行业从业者水平。
4. 电子表格建模任务：得分从 GPT - 5.2 的 68.4%跃至 87.3%，人类评审者在 68%的情况下更偏好 GPT - 5.4 生成的演示文稿。
原生计算机使用能力
GPT - 5.4 是 OpenAI 发布的第一个内置原生计算机操控能力的通用模型。它可通过编写代码（如使用 Playwright 库）操控计算机，也能直接根据屏幕截图发出鼠标和键盘指令，在软件环境中执行“构建 - 运行 - 验证 - 修复”循环，完成跨多个应用的多步骤工作流。
工具搜索优化
过去在 API 中使用工具，所有工具定义需一次性塞进提示词，工具增多会导致巨大 token 开销和上下文污染。GPT - 5.4 引入结构性优化，模型只接收轻量级工具列表，需用某个工具时再动态检索其完整定义。在 Scale 公司的 MCP Atlas 基准测试中，使用 36 个 MCP 服务器执行 250 项任务，工具搜索将 token 消耗降低 47%，同时保持准确率，降低了构建大型智能体系统开发者的成本，加快了响应速度。
幻觉问题改善
OpenAI 表示，GPT - 5.4 在单条声明中出错的概率比 GPT - 5.2 降低 33%，整体回复包含错误的概率降低 18%，提高了模型输出信息的准确性。
抽象推理能力提升
1. ARC - AGI - 2 测试：从 52.9%跃升至 73.3%，Pro 版本达到 83.3%。
2. FrontierMath Tier 4 测试：从 18.8%提升至 27.1%，Pro 版本为 38.0%，在数学推理等抽象思维方面取得显著进步。
早期测试反馈
优点突出
AI 创业者 Matt Shumer 测试 GPT - 5.4 长达一周，认为其标准版配合深度思考模式的表现已超过此前其他模型的 Pro 版本，几乎无需切换到 Pro 模式。其编码能力尤其突出，在 Codex 中使用可靠性极高，编码问题“基本上已被解决”。Pro 版本能攻克其他模型无法处理的难题，且标准思考版本使用的推理 token 比以前更少，响应速度明显加快。
存在短板
1. 前端设计品味：远不如 Claude Opus 4.6 和 Gemini 3.1 Pro。
2. 现实世界语境理解：有时会忽略显而易见的现实世界语境，如规划旅行行程时选了一堆春假期间会被游客挤爆的地点。
3. 任务完成完整性：在 OpenClaw 中测试时，模型经常在任务完成之前就停下来。
金融行业企业产品
OpenAI 同时宣布了一套面向金融行业的企业产品，核心是 ChatGPT for Excel 和 Google Sheets（测试版），可让 ChatGPT 直接嵌入电子表格，用于构建、分析和更新复杂的财务模型。还配套与 FactSet、MSCI、Moody's 等金融数据提供商的集成，以及可复用的“Skills”（技能模板），用于盈利预览、可比公司分析、DCF（折现现金流）分析等标准化金融工作。在 OpenAI 内部的投资银行基准测试中，GPT - 5.4 Thinking 的表现从 GPT - 5 时代的 43.7%提升到了 88.0%，该组产品的竞争对手包括 Anthropic 刚推出的 Cowork 桌面工具和 Claude 的文件管理能力，以及 Google 在 Workspace 中持续深入的 AI 集成。
综合评价与展望
GPT - 5.4 在多个维度实现了整合性进步，原生计算机操控、工具搜索、更大的上下文窗口、更强的推理能力等特性，使其成为一个更完整的“AI 工作助手”，也为 OpenClaw 这类智能体框架提供了更强的底层引擎。虽然在日常聊天和写邮件方面的改进可能体现在细节上，但对于用 AI 做 PPT、建财务模型、在 Codex 里跑自动化流程的重度用户，以及将 OpenClaw 当成个人数字助手的早期采纳者来说，能明显感受到跨代差异。未来，随着技术的不断完善和优化，GPT - 5.4 有望在更多领域发挥重要作用，推动 AI 技术在专业工作领域的广泛应用和发展。

如何不发帖就快速得到金币和道行

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[智能应用]ChatGPT-5.4发布：和OpenClaw完美兼容，AI第一次比人类更会操作电脑[4P] [复制链接]