| jjybzxw |
2026-03-09 20:42 |
GPT - 5.4 核心能力与定位 核心能力:具备“Computer - Use”(计算机使用)能力,将推理、编码、智能体工作流整合至单一模型架构,实现原生计算机操作,能根据屏幕截图发指令或通过代码操作软件系统。 定位:OpenAI 打造的并非更聪明的聊天模型,而是全新的“AI 操作系统”(AI OS),为从“产品应用”到“操作平台”的蜕变铺路。 各能力具体表现与优势 推理、编码、工作流整合 推理层面 强化上下文理解能力,能处理 100 万 token 量级复杂任务,整合海量数据并去重,单条事实声称错误率降低 33%,高专业度场景输出更可信。 可在 CodeX 中设置支持 1M 的上下文窗口(需手动设置,默认 256k)。 知识工作:在面向 44 种职业的 GDPval 基准测试中,83%以上场景达或超行业专家水平,较 GPT - 5.2 的 70.9%提升显著,Pro 版本侧重极端复杂任务稳定性。 编码场景:保持与 GPT - 5.3 - Codex 生成同等质量代码能力,新增“/fast”模式,token 生成速度约提升 1.5 倍。 智能体方面:新引入“工具搜索 (Tool Search)”机制,在大型工具生态中按需调用能力,准确率不变情况下 token 消耗量下降 47%。 原生计算机操作 操作方式:能根据屏幕截图发鼠标键盘指令,也可通过 Playwright 等库编写代码操作软件系统,操控电脑能力内建于通用架构,开发者可无缝切换任务。 安全问题:行为可通过开发者输入精细调节,可配置自定义安全确认策略,根据任务风险等级设置操作确认机制,保证安全与效率。 操作成功率 在 OSWorld - Verified 基准测试中成功率 75%,超越人类基准(72.4%)和前代 GPT - 5.2(47.3%)。 浏览器自动化方面,WebArena - Verified 和 Online - Mind2Web 测试中成功率分别为 67.3%和 92.8%。 传统多模态领域,MMMU - Pro 视觉理解与推理测试准确率从 79.5%提升至 81.2%;结构化信息识别能力显著提升,OmniDocBench 文档解析基准测试平均错误率从 0.140 降至 0.109。 新增“original”图像输入级别支持最高 1024 万像素全保真感知,处理复杂界面时元素定位准确率和点击操作成功率提升。 实际测试与定价策略 实际测试 Artificial Analysis 评测榜单中,智能程度、编码能力、代理能力同时登顶。 X 平台用户用 GPT - 5.4 编写的 Minecraft 游戏,主视角行动逻辑和方块材质美观程度几乎无可挑剔,与初期版本质量相差无几。 定价策略 价格涨幅惊人,与“能力溢出”看似矛盾。 原因在于 OpenAI 商业化策略转向,缩减 ChatGPT 应用内直接购买方案,优先支持外部应用处理购买行为,从“直接面向消费者变现”转向“通过生态环境间接获利”。 将 GPT - 5.4 定位为专业基础设施,筛选高价值客户;普通用户变现需求交给第三方生态承接。 发展前景与挑战 发展前景:OpenAI 打造以“Computer - Use”为核心的“AI 操作系统”,若逐渐成熟,当前关于价格和 OpenClaw 的讨论将成为历史注脚,真正的操作系统之战已打响。 挑战:若要取代 OpenClaw,需解决 Agent 代理快速消耗 token 的问题或降低 token 成本,目前解决前者希望更大。
|
|