智源研究院王仲远关于“世界模型关键是预测下一个状态”的核心观点
一、世界模型的核心定义:预测下一个时空状态
智源研究院院长王仲远强调,世界模型的本质不是视频生成或多模态内容输出,而是对“下一个状态(Next-State)”的精准预测,这种预测需融合物理动态、时空演化与长时程因果关系的理解134。
他指出,人类对世界的理解方式(如看到桌边咖啡会预判掉落风险)与机器人执行任务(如抓取咖啡)的核心需求一致——需要预测“动作-环境”交互的未来结果。例如,机器人抓取桌边咖啡时,需预测“力度过大导致杯子掉落”“角度偏差碰倒杯子”等潜在状态,才能调整动作实现安全抓取14。
二、“预测下一个状态”的技术实现:Emu3.5的Next-State Prediction(NSP)
智源2025年10月发布的悟界·Emu3.5多模态世界模型,通过自回归架构(Autoregressive)实现了多模态序列的Next-State Prediction(NSP),突破了传统多模态模型“仅生成内容”的局限,具备可泛化的世界建模能力367。
Emu3.5的“预测下一个状态”能力体现在三大核心特点:
动态世界模拟:在统一框架内融合“理解-规划-模拟”,能预测物理动态(如物体碰撞后的运动轨迹)、时空演化(如视频中场景的连续变化)和长时程因果关系(如“推杯子”导致“杯子掉落”的连锁反应)36;
从意图到规划:理解人类高层意图(如“制作宇宙飞船”),并生成多步骤行动路径(如“设计图纸→采购材料→组装部件”),每一步骤均基于对“下一个状态”的预测37;
泛化交互基础:其因果推理与规划能力为AI与物理环境的泛化交互(如具身机器人操控)提供认知基础,使机器人能适应不同场景(如“干净台面叠衣服”→“火星救援场景叠装备”)39。
三、“预测下一个状态”的意义:通向具身智能与通用AI的关键
王仲远认为,预测下一个状态是具身智能的核心需求——机器人需通过预测环境反馈(如“抓咖啡”的结果)调整动作,才能真正“干活”(如家庭服务、工厂作业)14。
此外,这种能力也是通用人工智能(AGI)的重要基石:Emu3.5的NSP范式首次证明多模态领域存在“规模化成长(Scaling)”的可能(类似大语言模型的参数量-性能提升规律),为通用世界模型的探索奠定了基础36。
总结
王仲远对世界模型的定义跳出了“内容生成”的局限,回归“理解世界运作规律”的本质——预测下一个状态。这种能力不仅能解决具身智能的“动作决策”问题,更能推动AI从“数字世界”迈向“物理世界”,成为通用AI的关键技术路径。而Emu3.5的发布,正是这一理念的具体实践。