查看完整版本: [-- 世界还在为“龙虾”狂欢,“AI操作系统”战争已悄然打响[7P] --]

武当休闲山庄 -> 数码讨论 -> 世界还在为“龙虾”狂欢,“AI操作系统”战争已悄然打响[7P] [打印本页] 登录 -> 注册 -> 回复主题 -> 发表主题

huozm32831 2026-03-09 20:23


OpenAI明里暗里预热了很久的GPT-5.4,终于在上周五正式亮相了。它的能力提升自不必说,但有意思的是,这次发布的新版本,和当下爆火的应用“龙虾”(OpenClaw),有着剪不断的关联。而这一切的核心,就藏在OpenAI官方介绍中反复强调的一个关键能力上:“Computer-Use”(计算机使用)。
在展开之前,我们先亮出核心观点,也是本文想要传达的主旨:透过GPT-5.4,我们可以看到,OpenAI正在打造的,早已不是一个更聪明的聊天模型,而是一个全新的“AI操作系统”(AI OS)。
从长上下文、工具调用到原生操控电脑,这一切都是在为这个“操作系统”铺路。当世界还在为OpenClaw的爆火而欢呼,为Agent的概念而兴奋时,OpenAI已经将Agent的核心能力(Computer-Use)内建于模型底层。
世界或许还浑然不知,但我们正站在一个新时代的起点:AI即将从“产品应用”蜕变为“操作平台”。
01 操作系统”的内核:推理+编码+工作流
相比Google的Gemini 精通于世界知识,OpenAI 的ChatGPT系列经常会被定义为“理科生”。
虽然自升级到 GPT-5 以后,它给人提供情绪价值的能力略有减弱,但编程和数学能力仍然极为出色。
这一次,为了让能力溢出的 AI 能够在 Agent 时代顺利落地到具体应用上,GPT-5.4 实现了一项核心技术突破:
将推理、编码、智能体工作流三方面能力整合至单一模型架构之中 。
简单来说,GPT-5.4 更全能了,而且在特定领域的能力也更强了,它不再是一个单一功能的工具,而是一个具备通用能力的“操作系统内核”。
在推理层面,为了更好地落实到应用层面、让模型具备执行复杂任务的能力,OpenAI 特意强化了 GPT-5.4 的上下文理解能力。
面对 100万 token 量级的复杂任务(相当于可以一次性处理整套项目文档或长时财务记录),模型能够整合海量的数据并正确进行信息去重 。对于单条事实声称的错误率相比 GPT-5.2 降低了 33%,在高专业度场景下的输出更加可信。
除此之外,GPT-5.4 已经可以在 CodeX 中设置支持 1M 的上下文窗口,不过需要用户在 config.toml 中手动设置,否则默认仍为 256k。

具体到知识工作,在面向 44 种职业的 GDPval 基准测试中,GPT-5.4 能够在 83% 以上的场景中达到甚至超越行业专家水平 。
相比于 GPT-5.2 的 70.9% 水平,这一提升幅度已经十分显著。不过令人有些疑惑的是,GPT-5.4 的 Pro 版本模型反而表现略逊于 GPT-5.4。(官方解释为 Pro 版本更侧重于极端复杂任务的稳定性,而非通用场景的平均分)
为了更好地让 GPT-5.4 融入人们的实际工作场景,OpenAI 在官方介绍中直观展现了新版本模型在电子表格、文档和幻灯片三个场景的专业级表现:



除此之外,GPT-5.4 取得的显著进步,在金融和法律等高专业度领域也发挥了至关重要的作用。
多家国际机构的反馈显示,新模型在财务建模、合同分析、长周期任务执行中准确率提升的同时,用户与 AI 的交互频次也减少了很多,显著缩短了任务完成时间。

针对最受开发者关注的编码场景,GPT-5.4 保持了与 GPT-5.3-Codex 生成同等质量代码的能力,没有显著的提升。不过,新增加的“/fast”模式能够实现约 1.5倍 的 token 生成速度 。
智能体方面,工具调用能力是智能体完成任务的核心,新引入的“工具搜索 (Tool Search)”机制让模型能够在数万个工具的大型生态中按需调用能力,在准确率保持不变的情况下token消耗量惊人地下降了47% 。
这正是“操作系统”调度底层资源的方式,高效且精准。
02 原生计算机操作:从理解到执行,这就是“操作系统”的界面
AI 的形态已经从大语言模型演进到了智能体,想要实现产品的商业化就必须让 AI 能真正帮人们做事。
于是,全球的AI企业不约而同地将目光放到了用户PC的控制权上。
但是,各种桌面端代理发布一段时间后,下载率和留存率其实都不理想。哪怕是对于 ChatGPT 的 9.56 亿月活用户而言,也有很多人不愿意单独下载一个桌面端代理软件 。
大家早已习惯和 AI(大语言模型)聊天,却还没适应让 AI(智能体代理)接管电脑。
于是,OpenAI想出了一个天才般的点子:让用户每天都在用的大模型操控电脑,不用专门下载安装。
于是,GPT-5.4 顺理成章地成为了第一个具备原生计算机操作能力的通用模型 。
原理其实并不复杂,它能够根据屏幕截图发出鼠标键盘指令,也可以通过 Playwright 等库编写代码来直接操作软件系统 。
相比于需要专门训练才能使用的 PC 端代理助手不同,GPT-5.4 选择将操控电脑的能力直接内建于通用架构之中,开发者在同一模型中即可无缝切换推理、编码或执行任务。正如“操作系统”天然拥有底层硬件(键鼠、屏幕)的驱动一样。
一提到操控电脑,那安全问题就不可回避。
GPT-5.4 的行为可通过开发者的输入进行精细化调节,以此适应不同应用场景的需求 。
为了确保安全,开发者可以配置自定义的安全确认策略,根据任务风险等级设置不同的操作确认机制。
数据查询、代码编写等低风险任务设置成自动执行,资金操作、文件删改则必须人工确认,既能保证系统安全,又能提升工作流的执行效率。

在 OSWorld-Verified 基准测试中,GPT-5.4 实现了 75% 的成功率,超越人类基准(72.4%) 的同时,大幅领先于前代 GPT-5.2 的 47.3% 水平,足以证明新模型在 PC 端任务场景中的实用和可靠 。
而在浏览器自动化方面,GPT-5.4 在 WebArena-Verified 和 Online-Mind2Web 测试中,依靠截图为主的方法分别得到 67.3% 和 92.8% 的成功率。
这就意味着,模型即便不访问网页底层架构,仅凭视觉信息即可完成复杂的网页交互任务,这主要归功于底层视觉感知能力的系统性提升。
传统多模态领域的提升相对较小,MMMU-Pro 视觉理解与推理测试中,模型的准确率从 79.5% 提升至 81.2%;但对于结构化信息的识别能力则显著提升,模型在 OmniDocBench 文档解析基准测试中的平均错误率从 0.140 降至 0.109 。
也就是说,模型更善于处理复杂的 PDF、扫描文档等工作环境中常见的文件类型,不会像以前一样一遇到表格和插图就束手无策。
针对高密度的界面和精细操作的需求,GPT-5.4 新增的“original”图像输入级别支持最高 1024 万像素的全保真感知。
根据用户反馈,模型在处理企业级 ERP 系统、财务报表或工程设计软件等复杂界面时,高分辨率模式下的界面元素定位准确率和点击操作成功率都有显著提升。
03 实际测试:操作系统之战,从一张昂贵入场券开始
在这份官方介绍中,OpenAI 试图用大量基准测试的跑分结果和知名机构的专业评价来证明模型能力之强大。
尽管人们普遍不太信任基准测试的分数,但几项实际测试的结果却证明了 OpenAI 所言非虚。
首先是 Artificial Analysis 的评测榜单,如预想一般,智能程度、编码能力、代理能力同时登顶:



如果这还不足够具有说服力,那还可以看看 X 平台上的一项综合性测试:

原视频链接:https://x.com/angaisb_/status/2029635731585372598?s=46&t=E5aK_KpbsE6EAIfDJWZvzQ
这是 X 平台上用户 @Angaisb_ 用 GPT-5.4 编写的 Minecraft 游戏,无论是主视角的行动逻辑(奔跑、跳跃、搭建),还是游戏中方块的材质和美观程度,几乎都无可挑剔。
一个 demo 中展示出的内容,已经与 Minecraft 初期版本的质量相差无几。
由此可见,GPT-5.4 的功能是实打实的强大,也确实具备相当高的实际价值。
但俗话说得好,一分钱一分货,如此强大的功能自然意味着极其高昂的费用。

相比 GPT-5.2,价格涨幅相当惊人,甚至有用户在模型刚发布后的几个小时内表示,仅仅是打了个招呼问了个问题,几百美元就不翼而飞了 。
如此强大的能力和高昂的定价,似乎与 OpenAI 官方定义的“能力溢出”有些自相矛盾。
如今,OpenClaw 带动了 token 成本极其低廉的国产大模型爆火,GPT 系列产品已经跌出使用量排行榜的前十,为何 OpenAI 还敢给 GPT-5.4 定下如此高的价格?
算力资源的紧张自然不必多说,但更深层的答案或许藏在 OpenAI 近期商业化策略的微妙转向之中。
据悉,OpenAI 正在缩减 ChatGPT 应用内的直接购买方案,不再将聊天界面作为闭环交易的核心场景,而是优先支持外部应用处理购买行为 。
这表明,OpenAI 正在从“直接面向消费者变现”转向“通过生态环境间接获利”。
OpenAI 将 GPT-5.4 定位为专业的基础设施,通过能力溢价筛选出高价值的客户;而普通用户的变现需求,则交给 Notion、Cursor 等集成 ChatGPT 能力的第三方生态来承接,无需直接承担高昂的 API 成本即可通过合作伙伴的产品间接体验模型能力 。
而熟悉桌面智能代理的朋友可能会注意到,GPT-5.4 的原生计算机操作能力其实与 OpenClaw 的思路高度相似:AI 需要看懂界面、操作软件、完成任务。
不过,GPT-5.4 更进一步,让用户跳过下载安装和配置底层大模型等无法省略的步骤,直接体验“开箱即用”,试图取代当下这款最潮流的智能代理产品 。
但这并非易事。若要取代 OpenClaw,OpenAI 要么解决 Agent 代理快速消耗 token 的问题,要么降低 token 成本。而目前看来,前者的希望会更大一些。
总体来看,OpenAI 的选择已经十分清晰:用高定价筛选高价值客户,用生态合作和无门槛产品覆盖大众市场,用效率优化证明“贵有贵的道理”。
但对于普通用户来说,最好的策略仍然是:保持关注、理性评估、按需选择。不必急于直接购买高价 API,极致的性价比才是 Agent 时代的方向。
然而,我们最不能忽视那个正在发生的、静悄悄的革命:OpenAI正在打造的,是一个以“Computer-Use”为核心,整合了长上下文、工具调用、推理与编码能力的“AI操作系统”。
当这个“操作系统”逐渐成熟,今天关于价格和OpenClaw的讨论,都将只是历史的注脚。世界还在为某一款应用的爆火而狂欢,但真正的操作系统之战,已经打响了。

jjybzxw 2026-03-09 20:42
GPT - 5.4 核心能力与定位
核心能力:具备“Computer - Use”(计算机使用)能力,将推理、编码、智能体工作流整合至单一模型架构,实现原生计算机操作,能根据屏幕截图发指令或通过代码操作软件系统。
定位:OpenAI 打造的并非更聪明的聊天模型,而是全新的“AI 操作系统”(AI OS),为从“产品应用”到“操作平台”的蜕变铺路。
各能力具体表现与优势
推理、编码、工作流整合
推理层面
强化上下文理解能力,能处理 100 万 token 量级复杂任务,整合海量数据并去重,单条事实声称错误率降低 33%,高专业度场景输出更可信。
可在 CodeX 中设置支持 1M 的上下文窗口(需手动设置,默认 256k)。
知识工作:在面向 44 种职业的 GDPval 基准测试中,83%以上场景达或超行业专家水平,较 GPT - 5.2 的 70.9%提升显著,Pro 版本侧重极端复杂任务稳定性。
编码场景:保持与 GPT - 5.3 - Codex 生成同等质量代码能力,新增“/fast”模式,token 生成速度约提升 1.5 倍。
智能体方面:新引入“工具搜索 (Tool Search)”机制,在大型工具生态中按需调用能力,准确率不变情况下 token 消耗量下降 47%。
原生计算机操作
操作方式:能根据屏幕截图发鼠标键盘指令,也可通过 Playwright 等库编写代码操作软件系统,操控电脑能力内建于通用架构,开发者可无缝切换任务。
安全问题:行为可通过开发者输入精细调节,可配置自定义安全确认策略,根据任务风险等级设置操作确认机制,保证安全与效率。
操作成功率
在 OSWorld - Verified 基准测试中成功率 75%,超越人类基准(72.4%)和前代 GPT - 5.2(47.3%)。
浏览器自动化方面,WebArena - Verified 和 Online - Mind2Web 测试中成功率分别为 67.3%和 92.8%。
传统多模态领域,MMMU - Pro 视觉理解与推理测试准确率从 79.5%提升至 81.2%;结构化信息识别能力显著提升,OmniDocBench 文档解析基准测试平均错误率从 0.140 降至 0.109。
新增“original”图像输入级别支持最高 1024 万像素全保真感知,处理复杂界面时元素定位准确率和点击操作成功率提升。
实际测试与定价策略
实际测试
Artificial Analysis 评测榜单中,智能程度、编码能力、代理能力同时登顶。
X 平台用户用 GPT - 5.4 编写的 Minecraft 游戏,主视角行动逻辑和方块材质美观程度几乎无可挑剔,与初期版本质量相差无几。
定价策略
价格涨幅惊人,与“能力溢出”看似矛盾。
原因在于 OpenAI 商业化策略转向,缩减 ChatGPT 应用内直接购买方案,优先支持外部应用处理购买行为,从“直接面向消费者变现”转向“通过生态环境间接获利”。
将 GPT - 5.4 定位为专业基础设施,筛选高价值客户;普通用户变现需求交给第三方生态承接。
发展前景与挑战
发展前景:OpenAI 打造以“Computer - Use”为核心的“AI 操作系统”,若逐渐成熟,当前关于价格和 OpenClaw 的讨论将成为历史注脚,真正的操作系统之战已打响。
挑战:若要取代 OpenClaw,需解决 Agent 代理快速消耗 token 的问题或降低 token 成本,目前解决前者希望更大。

姜谷粉丝 2026-03-10 08:41
“龙虾”狂欢:OpenClaw的爆火与AI智能体的普及
近期,开源AI智能体OpenClaw(俗称“龙虾”)持续爆火,成为GitHub历史上增速最快的开源项目之一。其核心特点是本地私有化部署与主动执行能力:用户可通过通信工具下达指令,OpenClaw能拆解任务、联网搜索、调用本地软件、自我纠正错误,并通过云端大模型API完成任务。此外,用户可从社区获取“技能包”(Skill),扩展其特定能力(如文档处理、数据分析等)。

OpenClaw的爆火源于技术突破与社会情绪的叠加:一方面,AI智能体能力已逼近“接管”现实任务的水平(如自动处理邮件、生成内容、控制设备);另一方面,社会对AI的焦虑与学习热潮推动了其普及——用户希望通过“养龙虾”掌握AI工具,提升工作效率。目前,腾讯云、阿里云、火山引擎等国内云厂商已推出OpenClaw云端极速部署服务,降低了使用门槛,甚至出现“上门代装”服务。

但需注意,OpenClaw存在安全风险(如默认配置下的网络攻击隐患),官方建议部署在无重要文件的备用设备上。

“AI操作系统”战争:GPT-5.4的核心突破与趋势
当世界为OpenClaw的爆火欢呼时,AI操作系统(AIOS)的战争已悄然打响。OpenAI最新发布的GPT-5.4大模型,被视为AI操作系统的雏形,其核心突破在于:

内核能力整合:将推理、编码、智能体工作流三方面能力整合至单一模型架构,具备处理100万token量级复杂任务的能力(如整套项目文档、长时财务记录),单条事实错误率较GPT-5.2降低33%,在金融、法律等专业领域的输出更可信。
原生计算机操作:首次实现原生电脑操控能力,无需额外下载代理软件,可通过屏幕截图发出鼠标键盘指令,或通过Playwright等库直接操作软件系统(如Excel、PPT、浏览器)。这种“大模型+本地执行”的模式,打破了传统AI“被动响应”的局限,真正实现“帮人做事”。
安全与效率平衡:GPT-5.4支持自定义安全策略(如低风险任务自动执行、高风险任务(资金操作、文件删改)人工确认),在OSWorld-Verified基准测试中成功率达75%(超越人类基准72.4%),浏览器自动化测试(WebArena-Verified、Online-Mind2Web)成功率分别达67.3%和92.8%。
两者的关联:GPT-5.4与OpenClaw的协同
OpenClaw的爆火与GPT-5.4的发布形成“互补”:

GPT-5.4的原生计算机操作能力使其成为“最适合跑OpenClaw的模型”,支持OpenClaw在本地设备上自主执行任务(如文件处理、网络搜索);
OpenClaw的开源框架与社区生态,则为GPT-5.4提供了“落地场景”,推动AI从“产品应用”向“操作平台”演进。
总结
“龙虾”狂欢是AI智能体普及的缩影,而GPT-5.4的发布则标志着AI操作系统的雏形出现。未来,AI将从“被动响应”转向“主动执行”,成为连接数字世界与物理世界的“操作平台”,而OpenClaw与GPT-5.4的协同,正是这一趋势的具体体现。


查看完整版本: [-- 世界还在为“龙虾”狂欢,“AI操作系统”战争已悄然打响[7P] --] [-- top --]


Powered by www.wdsz.net v8.7.1 Code ©2005-2018www.wdsz.net
Gzip enabled


沪ICP备:05041533号