切换到宽版
  • 22阅读
  • 2回复

[智能应用]智源研究院王仲远:世界模型的关键是真正预测下一个状态 [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
161762
金币
435893
道行
20030
原创
766
奖券
311
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 19512(小时)
注册时间: 2012-06-21
最后登录: 2025-11-04

经济观察报 记者 周悦
2025年,“世界模型”(World Model)成为AI领域最受关注的词汇之一。它指的是让AI理解世界运作规律,不再停留在识别或生成层面,而是能想象并预测世界的变化。
随着大模型红利逐渐减弱,各家公司都在寻找新的增长点。DeepMind推出可生成交互式3D世界的Genie 3,OpenAI继续强化 Sora的物理一致性;英伟达、华为、百度等也正从机器人与自动驾驶场景切入,让AI从看懂迈向参与。
10月30日,智源研究院发布悟界·Emu3.5多模态世界大模型。智源研究院院长王仲远在接受经济观察报等媒体采访时表示,随着互联网文本数据被充分利用,大语言模型的增长进入相对缓慢阶段,行业正在寻找新的突破口,而多模态与世界模型正是被寄予厚望的方向。
王仲远认为,Emu3.5很可能开启第三个规模定律范式(Scaling)。在语言预训练和推理优化之后,Emu3.5进一步证明,多模态模型同样具备可规模化成长的潜力。“它的最大贡献,是用自回归架构统一了图像、文本与视频的生成和理解。它能够预测下一个状态(Next-State),这一点非常接近人类大脑对世界进行理解的方式”。
与主流的Diffusion Transformer(DiT)架构不同,智源从“第一性原理”出发,构建原生多模态大模型。在Emu架构下,模型能在同一系统中完成感知、理解、推理与生成,形成一个可持续进化的世界模型。
智源研究院多模态大模型负责人王鑫龙介绍,Emu3.5基于超过10万亿token的多模态数据训练,其中视频数据累计时长达790年,参数规模为340亿。智源团队提出的“离散扩散自适应(DiDA)”推理方法,使图像生成速度提升近20倍,同时保持高质量输出。模型在三个维度上实现突破:一是从意图到规划,能够理解更高层级人类意图,例如,如何制作一艘宇宙飞船,并生成连贯的多步骤行动路径;二是动态世界模拟,能在统一框架内预测物理动态、时空演化与因果关系;三是泛化交互能力,为AI与人类及物理环境之间的协作提供认知基础。
针对外界将世界模型等同于视频生成的看法,王仲远不认同。他认为,世界模型的核心并非视频生成,而是对因果与物理规律的理解。比如机器人要抓起一杯靠近桌边的咖啡,它必须预测哪种动作会让杯子掉下去,哪种才安全——这才是真正的理解。
他认为,人类学习世界时不会区分语言或动作,Emu3.5也不限定用途。它既可支撑具身智能,也能生成多模态训练数据。在他看来,这不仅是一次架构创新,也展示了中国科研团队的原创路线,在世界模型这一尚未收敛的领域中,尝试提出自己的答案。
2024年10月,智源研究院发布了全球首个原生多模态世界模型悟界·Emu3。该模型仅基于“下一个token预测”机制。Emu3.5则在此基础上进一步完善,使AI具备更强的物理直觉与跨场景规划能力。
王仲远认为,未来的AI,不只是理解指令,而要理解世界本身,并在其中行动。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
161762
金币
435893
道行
20030
原创
766
奖券
311
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 19512(小时)
注册时间: 2012-06-21
最后登录: 2025-11-04
只看该作者 沙发  发表于: 11-01
智源研究院王仲远关于“世界模型关键是预测下一个状态”的核心观点

一、世界模型的核心定义:预测下一个时空状态
智源研究院院长王仲远强调,世界模型的本质不是视频生成或多模态内容输出,而是对“下一个状态(Next-State)”的精准预测,这种预测需融合物理动态、时空演化与长时程因果关系的理解134。
他指出,人类对世界的理解方式(如看到桌边咖啡会预判掉落风险)与机器人执行任务(如抓取咖啡)的核心需求一致——需要预测“动作-环境”交互的未来结果。例如,机器人抓取桌边咖啡时,需预测“力度过大导致杯子掉落”“角度偏差碰倒杯子”等潜在状态,才能调整动作实现安全抓取14。

二、“预测下一个状态”的技术实现:Emu3.5的Next-State Prediction(NSP)
智源2025年10月发布的悟界·Emu3.5多模态世界模型,通过自回归架构(Autoregressive)实现了多模态序列的Next-State Prediction(NSP),突破了传统多模态模型“仅生成内容”的局限,具备可泛化的世界建模能力367。
Emu3.5的“预测下一个状态”能力体现在三大核心特点:

动态世界模拟:在统一框架内融合“理解-规划-模拟”,能预测物理动态(如物体碰撞后的运动轨迹)、时空演化(如视频中场景的连续变化)和长时程因果关系(如“推杯子”导致“杯子掉落”的连锁反应)36;
从意图到规划:理解人类高层意图(如“制作宇宙飞船”),并生成多步骤行动路径(如“设计图纸→采购材料→组装部件”),每一步骤均基于对“下一个状态”的预测37;
泛化交互基础:其因果推理与规划能力为AI与物理环境的泛化交互(如具身机器人操控)提供认知基础,使机器人能适应不同场景(如“干净台面叠衣服”→“火星救援场景叠装备”)39。
三、“预测下一个状态”的意义:通向具身智能与通用AI的关键
王仲远认为,预测下一个状态是具身智能的核心需求——机器人需通过预测环境反馈(如“抓咖啡”的结果)调整动作,才能真正“干活”(如家庭服务、工厂作业)14。
此外,这种能力也是通用人工智能(AGI)的重要基石:Emu3.5的NSP范式首次证明多模态领域存在“规模化成长(Scaling)”的可能(类似大语言模型的参数量-性能提升规律),为通用世界模型的探索奠定了基础36。

总结
王仲远对世界模型的定义跳出了“内容生成”的局限,回归“理解世界运作规律”的本质——预测下一个状态。这种能力不仅能解决具身智能的“动作决策”问题,更能推动AI从“数字世界”迈向“物理世界”,成为通用AI的关键技术路径。而Emu3.5的发布,正是这一理念的具体实践。
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
199497
金币
517199
道行
2004
原创
2433
奖券
3100
斑龄
39
道券
1134
获奖
0
座驾
设备
摄影级
在线时间: 44307(小时)
注册时间: 2008-10-01
最后登录: 2025-11-04
只看该作者 板凳  发表于: 11-01
世界模型:AI从“理解语言”到“理解世界”的革命性突破

2025年,人工智能领域正经历一场深刻的范式转移,“世界模型”(World Model)成为引领行业发展的核心关键词。这一概念不再局限于传统的语言识别或内容生成,而是致力于让AI真正理解世界运作的底层规律,具备想象、预测和参与世界变化的能力。随着大语言模型(LLM)的红利逐渐减弱,各大科技巨头和研究机构纷纷将目光投向这一前沿方向,试图通过世界模型突破现有AI的认知边界。

世界模型:超越生成,走向理解与预测

世界模型的核心目标是让AI从被动“看懂”或“生成”内容,转向主动“理解”世界的物理规则、因果关系和动态演化。正如智源研究院院长王仲远所言:“世界模型的核心并非视频生成,而是对因果与物理规律的理解。”例如,一个具备世界模型的AI机器人在抓取桌边咖啡杯时,能够预测不同动作可能导致的后果(如杯子掉落),并选择安全的操作方式——这种对物理直觉和因果推理的掌握,才是世界模型的本质。

行业竞逐:多路径探索世界模型的实现

随着大语言模型的增长进入相对缓慢阶段,各家公司正积极寻找新的增长点,世界模型成为兵家必争之地:

- DeepMind:推出可生成交互式3D世界的Genie 3,聚焦于构建高保真虚拟环境,让AI在其中学习物理交互和空间理解。
- OpenAI:持续强化Sora的物理一致性,Sora作为视频生成与世界模拟的代表,正努力提升对现实物理规律的模拟精度。
- 英伟达、华为、百度:从机器人与自动驾驶场景切入,将世界模型技术应用于实际物理环境交互,推动AI从“看懂”迈向“参与”。

智源研究院悟界·Emu3.5:中国原创的世界模型里程碑

10月30日,北京智源人工智能研究院发布悟界·Emu3.5多模态世界大模型,标志着中国在世界模型领域取得了突破性进展。该模型被王仲远称为“很可能开启第三个规模定律范式(Scaling)”,继语言预训练和推理优化之后,证明多模态模型同样具备可规模化成长的潜力。

Emu3.5的核心创新与突破

1. 统一自回归架构:多模态融合的新范式  
   Emu3.5的最大贡献在于用自回归架构统一了图像、文本与视频的生成和理解。不同于主流的Diffusion Transformer(DiT)架构,智源团队从“第一性原理”出发,构建原生多模态大模型。在Emu架构下,模型能在同一系统中完成感知、理解、推理与生成,形成一个可持续进化的世界模型。这种架构使得模型能够预测“下一个状态”(Next-State),这非常接近人类大脑对世界的理解方式。

2. 海量数据与高效推理:性能与速度的双重飞跃  
   - 数据规模:基于超过10万亿token的多模态数据训练,其中视频数据累计时长达790年,参数规模达340亿。  
   - 推理优化:提出“离散扩散自适应(DiDA)”推理方法,使图像生成速度提升近20倍,同时保持高质量输出。这一突破解决了传统自回归模型生成速度慢的痛点,使其在实际应用中更具可行性。

3. 三大核心能力维度  
   Emu3.5在三个关键维度实现突破:  
   - 从意图到规划:能够理解更高层级人类意图,例如“如何制作一艘宇宙飞船”,并生成连贯的多步骤行动路径。  
   - 动态世界模拟:在统一框架内预测物理动态、时空演化与因果关系,例如模拟物体碰撞、流体运动等复杂物理现象。  
   - 泛化交互能力:为AI与人类及物理环境之间的协作提供认知基础,支持跨场景、跨任务的灵活交互。

与前代Emu3的区别与进化

2024年10月发布的Emu3是全球首个原生多模态世界模型,仅基于“下一个token预测”机制。Emu3.5在此基础上进一步完善,重点增强了AI的物理直觉与跨场景规划能力。通过更深度的视频数据训练和架构优化,Emu3.5对物理规律的理解更加精细,能够处理更复杂的动态场景和因果推理任务。

世界模型的意义:迈向通用人工智能的关键一步

王仲远强调:“未来的AI,不只是理解指令,而要理解世界本身,并在其中行动。”世界模型的价值在于:

- 具身智能的基础:为机器人、自动驾驶等需要与物理世界交互的应用提供核心认知能力。例如,服务机器人需要理解厨房环境中的物体属性和操作逻辑,自动驾驶汽车需要预测其他车辆和行人的行为。
- 多模态训练数据生成:Emu3.5可生成高质量的多模态数据(图像、视频、文本),为其他AI模型的训练提供数据支持。
- 科学发现与工程设计:通过模拟复杂系统(如气候、材料、生物),辅助科学家进行研究和工程师进行产品设计。

展望:中国AI原创路线的崛起

悟界·Emu3.5的发布展示了中国科研团队在世界模型这一尚未收敛的领域中提出的原创解决方案。王仲远表示:“这不仅是一次架构创新,也展示了中国科研团队的原创路线。”在全球AI竞争中,中国正从跟随者向引领者转变,在多模态大模型和世界模型等前沿方向上发出独特的声音。

随着Emu3.5等世界模型的不断发展和完善,AI将逐步具备更接近人类的认知能力,在理解物理世界、规划复杂任务和与环境交互方面实现质的飞跃。这不仅是技术的进步,更是人类探索智能本质的重要一步,或将深刻改变未来社会的生产生活方式。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个