348阅读
2回复

[智能应用]智源研究院王仲远：世界模型的关键是真正预测下一个状态 [复制链接]

上一主题下一主题查看指定楼层

在线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君

发帖: 165308

金币: 471496

道行: 20030

原创: 766

奖券: 350

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 20228(小时)
注册时间: 2012-06-21
最后登录: 2025-12-23

只看楼主正序阅读使用道具楼主发表于: 11-01

— 本帖被兵马大元帅执行加亮操作(2025-11-25) —

用户被禁言,该主题自动屏蔽!

山庄提示：道行不够，道券不够？---☆点此充值☆

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 213411

金币: 622095

道行: 2006

原创: 2441

奖券: 3260

斑龄: 41

道券: 1197

获奖: 0

座驾

设备

摄影级

在线时间: 46600(小时)
注册时间: 2008-10-01
最后登录: 2025-12-24

只看该作者板凳发表于: 11-01

世界模型：AI从“理解语言”到“理解世界”的革命性突破

2025年，人工智能领域正经历一场深刻的范式转移，“世界模型”（World Model）成为引领行业发展的核心关键词。这一概念不再局限于传统的语言识别或内容生成，而是致力于让AI真正理解世界运作的底层规律，具备想象、预测和参与世界变化的能力。随着大语言模型（LLM）的红利逐渐减弱，各大科技巨头和研究机构纷纷将目光投向这一前沿方向，试图通过世界模型突破现有AI的认知边界。

世界模型：超越生成，走向理解与预测

世界模型的核心目标是让AI从被动“看懂”或“生成”内容，转向主动“理解”世界的物理规则、因果关系和动态演化。正如智源研究院院长王仲远所言：“世界模型的核心并非视频生成，而是对因果与物理规律的理解。”例如，一个具备世界模型的AI机器人在抓取桌边咖啡杯时，能够预测不同动作可能导致的后果（如杯子掉落），并选择安全的操作方式——这种对物理直觉和因果推理的掌握，才是世界模型的本质。

行业竞逐：多路径探索世界模型的实现

随着大语言模型的增长进入相对缓慢阶段，各家公司正积极寻找新的增长点，世界模型成为兵家必争之地：

- DeepMind：推出可生成交互式3D世界的Genie 3，聚焦于构建高保真虚拟环境，让AI在其中学习物理交互和空间理解。
- OpenAI：持续强化Sora的物理一致性，Sora作为视频生成与世界模拟的代表，正努力提升对现实物理规律的模拟精度。
- 英伟达、华为、百度：从机器人与自动驾驶场景切入，将世界模型技术应用于实际物理环境交互，推动AI从“看懂”迈向“参与”。

智源研究院悟界·Emu3.5：中国原创的世界模型里程碑

10月30日，北京智源人工智能研究院发布悟界·Emu3.5多模态世界大模型，标志着中国在世界模型领域取得了突破性进展。该模型被王仲远称为“很可能开启第三个规模定律范式（Scaling）”，继语言预训练和推理优化之后，证明多模态模型同样具备可规模化成长的潜力。

Emu3.5的核心创新与突破

1. 统一自回归架构：多模态融合的新范式
   Emu3.5的最大贡献在于用自回归架构统一了图像、文本与视频的生成和理解。不同于主流的Diffusion Transformer（DiT）架构，智源团队从“第一性原理”出发，构建原生多模态大模型。在Emu架构下，模型能在同一系统中完成感知、理解、推理与生成，形成一个可持续进化的世界模型。这种架构使得模型能够预测“下一个状态”（Next-State），这非常接近人类大脑对世界的理解方式。

2. 海量数据与高效推理：性能与速度的双重飞跃
   - 数据规模：基于超过10万亿token的多模态数据训练，其中视频数据累计时长达790年，参数规模达340亿。
   - 推理优化：提出“离散扩散自适应（DiDA）”推理方法，使图像生成速度提升近20倍，同时保持高质量输出。这一突破解决了传统自回归模型生成速度慢的痛点，使其在实际应用中更具可行性。

3. 三大核心能力维度
   Emu3.5在三个关键维度实现突破：
   - 从意图到规划：能够理解更高层级人类意图，例如“如何制作一艘宇宙飞船”，并生成连贯的多步骤行动路径。
   - 动态世界模拟：在统一框架内预测物理动态、时空演化与因果关系，例如模拟物体碰撞、流体运动等复杂物理现象。
   - 泛化交互能力：为AI与人类及物理环境之间的协作提供认知基础，支持跨场景、跨任务的灵活交互。

与前代Emu3的区别与进化

2024年10月发布的Emu3是全球首个原生多模态世界模型，仅基于“下一个token预测”机制。Emu3.5在此基础上进一步完善，重点增强了AI的物理直觉与跨场景规划能力。通过更深度的视频数据训练和架构优化，Emu3.5对物理规律的理解更加精细，能够处理更复杂的动态场景和因果推理任务。

世界模型的意义：迈向通用人工智能的关键一步

王仲远强调：“未来的AI，不只是理解指令，而要理解世界本身，并在其中行动。”世界模型的价值在于：

- 具身智能的基础：为机器人、自动驾驶等需要与物理世界交互的应用提供核心认知能力。例如，服务机器人需要理解厨房环境中的物体属性和操作逻辑，自动驾驶汽车需要预测其他车辆和行人的行为。
- 多模态训练数据生成：Emu3.5可生成高质量的多模态数据（图像、视频、文本），为其他AI模型的训练提供数据支持。
- 科学发现与工程设计：通过模拟复杂系统（如气候、材料、生物），辅助科学家进行研究和工程师进行产品设计。

展望：中国AI原创路线的崛起

悟界·Emu3.5的发布展示了中国科研团队在世界模型这一尚未收敛的领域中提出的原创解决方案。王仲远表示：“这不仅是一次架构创新，也展示了中国科研团队的原创路线。”在全球AI竞争中，中国正从跟随者向引领者转变，在多模态大模型和世界模型等前沿方向上发出独特的声音。

随着Emu3.5等世界模型的不断发展和完善，AI将逐步具备更接近人类的认知能力，在理解物理世界、规划复杂任务和与环境交互方面实现质的飞跃。这不仅是技术的进步，更是人类探索智能本质的重要一步，或将深刻改变未来社会的生产生活方式。