智元机器人(智元创新公司)近期公布了一项名为“智能体的行为控制方法、电子设备、存储介质以及产品”的新专利(公开号CN121578687A),该专利通过优化多模态交互数据的处理流程,显著提升了智能体行为表达的实时性与协调性。以下是专利的核心技术要点及价值分析:
一、专利核心技术方案
多模态交互信息处理
获取用户的多模态交互信息(如语音、视觉、文本等),提取各模态的交互数据,并整合为统一的多模态交互上下文126。
动态生成回复与行为参数
基于多模态交互上下文,利用预设的大语言模型(LLM)同步生成回复文本及对应的多模态控制参数(如表情、动作、语音语调等)14。
短句流式执行机制
分句处理:在生成回复文本时,将其拆分为短句文本单元。
预执行行为:当任一短句文本单元生成完成后,立即结合其对应的多模态控制参数生成表达单元,并触发多模态行为数据执行(如实时语音播报、动作反馈)169。
优势:通过分段执行替代传统全文本生成后再执行的方式,减少行为反馈延迟,提升交互流畅度。
二、技术突破与价值
实时性提升
传统智能体需等待完整文本生成后再执行行为,导致交互卡顿。本专利通过“短句划分+流式执行”机制,实现行为与语音的同步输出,有效缩短响应时间16。
多模态协调优化
将语言模型生成的控制参数直接映射为行为指令(如手势配合语音),确保表情、动作与语义的一致性,增强交互自然度222。
工业应用潜力
该技术适用于需高实时性的场景(如客服机器人、康养陪护机器人),尤其在智元与龙旗科技合作的产线中,已通过真机强化学习实现快速部署29。
三、专利背景与公司动态
申请主体:智元创新(上海)科技股份有限公司(成立于2023年)6。
技术积累:此前已布局机器人控制精度8、动作重定向11、续航优化18等专利,本次是其多模态交互技术的重要升级。 专利检索服务
智能优选回答
专利检索服务轻松获取,国家专利检索系统登录入口便捷使用
国家专利检索「专利申请中心」,采用全国专利数据库,专利信息实时更新,快速检索专利信息,国家备案专利申请机构,利申请流程及新规定,点击进入.
查看详情
广告
行业关联:结合其2025年发布的具身智能大模型“智元启元大模型”2024,该专利进一步强化了人形机器人的情感表达能力。
四、总结
该专利通过分句流式执行与多模态参数同步生成两大创新,解决了智能体行为反馈滞后的问题,为人形机器人的自然交互提供了关键技术支撑。其工业落地案例(如产线机器人)亦验证了技术的实用性29。智元机器人持续迭代的专利组合,凸显其在具身智能领域的技术领先性。