切换到宽版
  • 14阅读
  • 2回复

[智能应用]智能体新时代来了?GPT-5.4发布,会直接使用电脑,但被指出仍存三大问题[4P] [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
119366
金币
2437
道行
19524
原创
29681
奖券
18442
斑龄
205
道券
10971
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 26267(小时)
注册时间: 2007-11-29
最后登录: 2026-03-11
只看楼主 正序阅读 楼主  发表于: 03-06
— 本帖被 兵马大元帅 执行加亮操作(2026-03-07) —

GPT-5.4发布,还能使用电脑了。
当地时间3月5日,OpenAI正式推出GPT-5.4,在ChatGPT中提供GPT‑5.4 Thinking,并上线API和Codex。同时,也推出了GPT-5.4 Pro供需要处理复杂任务的用户使用。
据介绍,在ChatGPT中,GPT-5.4 Thinking 现在可以提供其思考过程的初步计划,这样用户就可以在它工作时中途调整,最终获得更符合需求的输出,而无需额外的对话轮次。GPT-5.4 Thinking还改进了深度网络研究,特别是针对高度具体的查询,同时更好地保持了需要长时间思考的问题的上下文。
同时,GPT-5.4还支持100万token的上下文窗口,允许代理规划、执行和验证长周期的任务;还通过工具搜索改进了模型在大型工具和连接器生态系统中的工作方式,帮助代理更高效地找到并使用正确的工具,而不牺牲智能。与GPT-5.2相比,GPT-5.4解决问题所需的token显著减少。
在GDPval测试中(评估智能体在44种职业中产生明确规范的知识工作的能力),GPT-5.4取得新的最高得分,在83%的比较中与行业专业人士持平或超越,GPT-5.2为70.9%。

随着OpenClaw创始人彼得·斯坦伯格(Peter Steinberger)的加入,GPT-5.4具备了原生计算机使用能力,目前可供开发者构建能够跨网站和软件系统完成实际任务的智能体。
OpenAI表示,GPT-5.4擅长编写代码以通过Playwright等库操作计算机,也能根据屏幕截图发出鼠标和键盘命令。模型还可以通过开发者消息进行引导,开发者可以调整行为以适应特定用例,还能配置模型的安全行为,通过指定自定义确认策略来适应不同级别的风险承受能力。
在OSWorld-Verified(衡量模型通过屏幕截图和键盘/鼠标操作导航桌面环境的能力)中,GPT-5.4 达到了75.0%的成功率,远超GPT-5.2的47.3%,甚至超过了人类72.4%的表现。而在WebArena-Verified(测试浏览器使用)、 Online-Mind2Web(测试浏览器使用)、MMMU-Pro(测试模型的视觉理解和推理)测试中,GPT-5.4均取得新的最高分,在OmniDocBench上,GPT-5.4(无推理努力)的平均误差为也要优于 GPT-5.2。

GPT-5.4可以操作电脑处理邮件和日程。
据介绍,GPT-5.4结合了GPT-5.3-Codex的编码优势与领先的知识工作和计算机使用能力,使得模型可以使用工具、迭代并以更少的人工干预推进工作的长周期任务。在SWE-Bench Pro上,GPT-5.4与GPT-5.3-Codex持平或表现更佳,同时在各种推理努力下具有更低的延迟。
OpenAI还发布了一个名为 “Playwright (Interactive)” 的实验性Codex技能,允许Codex可视化调试Web和Electron应用程序;它甚至可以在构建应用程序的同时对其进行测试。
当在Codex中开启/fast模式时,GPT-5.4的token生成速度可提高多达1.5倍。开发者也可以通过API 使用优先处理 (priority processing) 以同样快的速度访问GPT-5.4。
同时,在API中,GPT-5.4引入了工具搜索,模型在给定许多工具时(所有工具定义都预先包含在提示中)所需的token数量更少,并保留了缓存,请求更快、更便宜。
在ChatGPT中,GPT-5.4 Thinking今日起向Plus、团队和Pro用户开放,代替GPT-5.2 Thinking。GPT-5.2 Thinking将在付费用户的模型选择器的“遗留模型”中保留三个月,6月5日正式退役。企业和教育计划用户可以通过管理员设置启用早期访问。而GPT-5.4 Pro则供Pro和企业计划使用。
费用方面,API中,GPT-5.4每token价格高于GPT-5.2,批量和灵活定价为标准API费率的一半,而优先处理为标准API费率的两倍。输入价格为2.5美元/百万Token、输出价格15美元/百万Token,Pro版输入价格则高达30美元/百万Token,输出价格180美元/百万Token。
在Codex中,超过标准272K上下文窗口的请求也将按正常费率的2倍计入使用限制。

GPT5.4发布后,AI写作助手公司HyperWrite CEO马特·舒默 (Matt Shumer)第一时间分享了试用感受,表示模型仍存在3方面的问题:前端界面远逊于Opus 4.6和Gemini 3.1 Pro;模型仍然会忽略一些显而易见的现实世界背景,例如让它规划一次旅行的行程,乍一看行程安排完美无缺,但它却忽略了选择一些春假期间人潮拥挤的地点,所以不得不重新运行提示,并添加更多背景信息;此外,在OpenClaw中测试时,它经常在完成任务前突然停止。
OpenAI CEO山姆·奥特曼(Sam Altman)也随即回应称将尽快解决这三个问题。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
233212
金币
788229
道行
2006
原创
2457
奖券
3420
斑龄
43
道券
1518
获奖
0
座驾
设备
摄影级
在线时间: 49637(小时)
注册时间: 2008-10-01
最后登录: 2026-03-11
只看该作者 板凳  发表于: 03-06
GPT-5.4 发布:AI 领域的重大突破与挑战并存
发布概况
当地时间 3 月 5 日,OpenAI 正式推出 GPT-5.4,这一举措在 AI 领域引起了广泛关注。此次发布不仅在 ChatGPT 中提供了 GPT - 5.4 Thinking,还上线了 API 和 Codex,同时推出 GPT - 5.4 Pro 以满足需要处理复杂任务的用户需求。这一系列动作展示了 OpenAI 在 AI 技术研发上的持续投入和创新能力,也为不同需求的用户提供了更多选择。
GPT-5.4 的显著优势
思考过程可视化与优化
在 ChatGPT 中,GPT - 5.4 Thinking 实现了重大突破,它可以提供思考过程的初步计划。这一特性使用户能够在模型工作时中途调整,无需额外的对话轮次就能获得更符合需求的输出。例如,在撰写文章时,用户可以根据模型提供的初步思路,实时提出修改意见,使文章内容更精准地满足特定要求。此外,GPT - 5.4 Thinking 改进了深度网络研究,针对高度具体的查询能给出更精准的回答,同时更好地保持了需要长时间思考的问题的上下文,提高了回答的连贯性和准确性。
强大的上下文处理能力
GPT-5.4 支持 100 万 token 的上下文窗口,这一特性使其能够处理长周期的任务。在代理规划、执行和验证任务过程中,它可以全面理解任务的前因后果,确保任务的顺利完成。例如,在处理复杂的项目策划时,模型可以综合考虑项目的各个环节和相关信息,制定出更完善的计划。同时,通过工具搜索改进,模型在大型工具和连接器生态系统中能够更高效地找到并使用正确的工具,而不牺牲智能,大大提高了工作效率。与 GPT - 5.2 相比,GPT - 5.4 解决问题所需的 token 显著减少,进一步体现了其在处理复杂任务时的优势。
卓越的测试表现
在 GDPval 测试中,GPT-5.4 取得了新的最高得分,在 83%的比较中与行业专业人士持平或超越,而 GPT - 5.2 仅为 70.9%。这一数据充分证明了 GPT-5.4 在知识工作能力方面的巨大提升。在 OSWorld - Verified 测试中,GPT-5.4 达到了 75.0%的成功率,远超 GPT - 5.2 的 47.3%,甚至超过了人类 72.4%的表现。在 WebArena - Verified、Online - Mind2Web、MMMU - Pro 等测试中,GPT-5.4 均取得新的最高分,在 OmniDocBench 上,GPT-5.4(无推理努力)的平均误差也优于 GPT - 5.2。这些测试结果表明,GPT-5.4 在多个领域都具备出色的性能,能够为用户提供更优质的服务。
原生计算机使用能力
随着 OpenClaw 创始人彼得·斯坦伯格的加入,GPT-5.4 具备了原生计算机使用能力。这使得开发者能够构建能够跨网站和软件系统完成实际任务的智能体。GPT-5.4 擅长编写代码以通过 Playwright 等库操作计算机,也能根据屏幕截图发出鼠标和键盘命令。例如,它可以自动处理邮件和日程安排,根据用户的指令完成邮件的发送、回复以及日程的添加、修改等操作。模型还可以通过开发者消息进行引导,开发者可以调整行为以适应特定用例,还能配置模型的安全行为,通过指定自定义确认策略来适应不同级别的风险承受能力,为模型的应用提供了更多的灵活性和安全性。
发布后的相关动态
版本更新与用户权限
在 ChatGPT 中,GPT - 5.4 Thinking 今日起向 Plus、团队和 Pro 用户开放,代替 GPT - 5.2 Thinking。GPT - 5.2 Thinking 将在付费用户的模型选择器的“遗留模型”中保留三个月,6 月 5 日正式退役。企业和教育计划用户可以通过管理员设置启用早期访问,而 GPT - 5.4 Pro 则供 Pro 和企业计划使用。这种版本更新和用户权限设置,既保证了新版本的及时推广,又为老用户提供了一定的过渡时间,同时也满足了不同用户群体的需求。
费用情况
在 API 中,GPT-5.4 每 token 价格高于 GPT - 5.2,批量和灵活定价为标准 API 费率的一半,而优先处理为标准 API 费率的两倍。输入价格为 2.5 美元/百万 Token、输出价格 15 美元/百万 Token,Pro 版输入价格则高达 30 美元/百万 Token,输出价格 180 美元/百万 Token。在 Codex 中,超过标准 272K 上下文窗口的请求也将按正常费率的 2 倍计入使用限制。费用的差异反映了不同版本和功能的使用成本,用户可以根据自己的需求和预算选择合适的版本。
实验性技能发布
OpenAI 还发布了一个名为“Playwright (Interactive)”的实验性 Codex 技能,允许 Codex 可视化调试 Web 和 Electron 应用程序,甚至可以在构建应用程序的同时对其进行测试。这一技能的发布为开发者提供了更便捷的开发工具,有助于提高开发效率和质量,进一步推动了 AI 技术在应用程序开发领域的应用。
性能提升模式
当在 Codex 中开启/fast 模式时,GPT-5.4 的 token 生成速度可提高多达 1.5 倍。开发者也可以通过 API 使用优先处理以同样快的速度访问 GPT-5.4。这一性能提升模式满足了用户对高效处理的需求,尤其是在处理大规模数据或紧急任务时,能够大大缩短处理时间,提高工作效率。
存在的问题与回应
试用反馈的问题
GPT5.4 发布后,AI 写作助手公司 HyperWrite CEO 马特·舒默第一时间分享了试用感受,指出模型仍存在三方面的问题。一是前端界面远逊于 Opus 4.6 和 Gemini 3.1 Pro,这可能影响用户的使用体验,尤其是在对界面美观和易用性有较高要求的场景下。二是模型仍然会忽略一些显而易见的现实世界背景,例如在规划旅行行程时,会忽略春假期间人潮拥挤的地点,需要重新运行提示并添加更多背景信息,这增加了用户的使用成本和操作复杂度。三是在 OpenClaw 中测试时,它经常在完成任务前突然停止,影响了任务的完整性和可靠性。
OpenAI 的回应
OpenAI CEO 山姆·奥特曼随即回应称将尽快解决这三个问题。这一回应体现了 OpenAI 对用户反馈的重视和积极解决问题的态度。及时解决这些问题将有助于提高 GPT-5.4 的性能和用户体验,进一步增强其在市场上的竞争力。
总结与展望
GPT-5.4 的发布是 AI 领域的一次重大突破,它在思考过程可视化、上下文处理、测试表现、原生计算机使用能力等方面都取得了显著的优势。同时,相关的版本更新、费用设置、实验性技能发布和性能提升模式等动态,为用户提供了更多的选择和便利。然而,模型也存在一些问题,如前端界面、现实世界背景理解和任务完成稳定性等方面有待改进。但 OpenAI 积极回应并承诺解决问题,让我们对 GPT-5.4 的未来发展充满期待。随着技术的不断进步和完善,GPT-5.4 有望在更多领域得到广泛应用,为人们的生活和工作带来更多的便利和创新。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
175307
金币
566165
道行
20030
原创
769
奖券
432
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 21862(小时)
注册时间: 2012-06-21
最后登录: 2026-03-11
只看该作者 沙发  发表于: 03-06
GPT-5.4的发布标志着智能体技术迈入新阶段,其核心突破在于原生计算机操作能力(Computer Use Ability,CUA),模型可基于屏幕画面自主执行键盘、鼠标指令,直接操控电脑完成跨应用任务,例如:

自动化工作流

操作邮件客户端发送邮件、管理日历日程;
调用计算器、微信读书等应用执行具体功能;
通过终端指令部署开发环境(如ClaudeCode)。
长周期任务规划
支持100万token上下文窗口,可处理复杂任务链(如多年代码库分析、跨年度财务数据校验),减少信息切片需求。

工具协同优化
新增工具搜索(Tool Search)功能,动态检索工具定义而非全量载入,显著降低token消耗,任务执行效率提升47%。

当前存在的三大缺陷
尽管能力跃升,实测中仍暴露以下问题:

交互体验不足
前端界面设计落后于竞品Opus 4.6和Gemini 3.1 Pro,影响用户操作流畅性。
现实场景忽略
在规划旅行等任务时,可能遗漏节假日人流量等现实因素,需用户反复补充背景信息。
任务中断频发
执行OpenClaw测试时,模型常在完成任务前意外停止,需人工干预续接流程。
技术临界点与挑战
智能体生态重构:原生CUA能力可能替代OpenClaw等外部框架,推动AI直接接管操作系统级交互。
成本与效率博弈:Pro版API价格达30美元/百万token(输入),中小企业需权衡长上下文收益与部署成本。
安全边界待定:开发者需自定义风险策略(如操作确认机制),防范自动化指令引发的误操作风险。
尽管存在短板,GPT-5.4在OSWorld测试中以75%成功率超越人类表现(72.4%),其融合编码、推理与执行的一体化能力,已触及自主智能体的临界点。
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个