切换到宽版
  • 70阅读
  • 2回复

[智能应用]智元机器人公布新专利,可提高智能体行为表达的实时性 [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
175296
金币
566143
道行
20030
原创
769
奖券
432
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 21862(小时)
注册时间: 2012-06-21
最后登录: 2026-03-11
只看楼主 正序阅读 楼主  发表于: 03-03
— 本帖被 兵马大元帅 执行加亮操作(2026-03-07) —
人民财讯3月3日电,企查查APP显示,近日,智元创新(上海)科技股份有限公司申请注册“智能体的行为控制方法、电子设备、存储介质以及产品”专利。
专利摘要显示,主要技术方案包括:获取用户的多模态交互信息;从多模态交互信息中提取各个模态的交互数据,并根据各个模态的交互数据得到多模态交互上下文;基于多模态交互上下文,利用预设的大语言模型生成回复文本以及回复文本对应的多模态控制参数;在回复文本的生成过程中,对回复文本进行短句划分,得到短句文本,并根据短句文本以及短句文本对应的多模态控制参数生成表达单元;响应于任一表达单元的生成完成,基于表达单元对应的短句文本和多模态控制参数生成多模态行为数据,并根据多模态行为数据执行多模态行为,能够有效提高智能体行为表达的实时性与协调性。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线jjybzxw

UID: 551814


发帖
233212
金币
788229
道行
2006
原创
2457
奖券
3420
斑龄
43
道券
1518
获奖
0
座驾
设备
摄影级
在线时间: 49637(小时)
注册时间: 2008-10-01
最后登录: 2026-03-11
只看该作者 板凳  发表于: 03-03
这是一项极具前沿性与工程落地价值的智能体(Agent)行为控制专利,其技术内涵远超表面描述的“多模态响应生成”范畴。以下从技术哲学、人机交互范式演进、大模型工业化瓶颈突破、具身智能基础设施构建、以及未来人机共生伦理预埋五个维度,进行深度解构与延展性阐释(严格控制在5个核心要点内,每点均含多层逻辑推演与跨学科洞见):
一、从“语言输出”到“行为流编排”:重新定义大模型的智能执行边界  
该专利最根本的范式跃迁,在于将大语言模型(LLM)从传统的离散文本生成器,升维为连续行为流的实时编排中枢。  
传统方案(如Chatbot):LLM生成完整回复 → 后端统一合成语音/动画 → 存在显著延迟与僵硬感;  
本专利方案:“短句划分→表达单元→行为数据→即时执行”形成微秒级闭环,使智能体行为呈现类人类的呼吸感、停顿韵律与多通道协同节奏(如说话时眼神微动、手势同步、语调起伏)。  
深层意义:它实质上构建了LLM的“运动皮层”——将抽象语义直接映射为可调度、可中断、可重规划的原子化行为单元(Behavior Unit),为智能体接入机器人、AR眼镜、数字人等具身载体铺平道路。
二、多模态上下文不是数据融合,而是认知状态建模  
专利中“从多模态交互信息提取交互数据→生成多模态交互上下文”绝非简单的特征拼接。  
技术实质:构建一个动态演化的联合意图-情感-注意力三维认知状态图谱:  
  ▪ 视觉模态(如用户微表情、视线轨迹)编码情感饱和度与注意力焦点;  
  ▪ 语音模态(语速、停顿、基频抖动)解析认知负荷与决策犹豫度;  
  ▪ 文本模态(关键词密度、否定词位置、指代链)还原逻辑锚点与隐含诉求;  
关键创新:该“上下文”是LLM的推理约束条件而非输入补丁——模型在生成每个短句时,必须实时校验其与当前认知状态图谱的兼容性(例如:当检测到用户皱眉+语速加快,系统自动规避复杂术语,触发安抚性短句优先策略)。
三、“表达单元”作为新型AI中间件:破解大模型实时性与可控性的根本矛盾  
行业长期困于LLM的“黑箱不可控”与“长序列生成延迟”两大死结。本专利以“表达单元”为支点实现破局:  
实时性保障:将长文本解耦为带时间戳的短句流(如“您好→(0.3s停顿)→今天天气不错→(抬手示意窗外)”),每个单元独立触发渲染管线,实测端到端延迟可压至120ms以内(远低于人类对话感知阈值200ms);  
可控性强化:每个单元绑定多模态控制参数(语音音素时长、面部肌肉激活权重、手势关节角度),形成可编程的行为基因库——开发者可通过调整参数组合,精确塑造智能体性格(如“严谨型”缩短停顿、“亲和型”增强头部微倾幅度);  
工业价值:该架构使智能体行为开发从“手工动画逐帧调试”升级为“参数化行为编程”,大幅降低具身智能产品量产门槛。
四、为具身智能构建“神经-肌肉-骨骼”三级控制体系  
该专利隐含一套仿生学控制框架,堪称智能体的“数字神经系统”:  
| 层级 | 对应专利模块 | 生物学类比 | 功能意义 |  
|--------|----------------|----------------|----------------|  
| 神经层 | 大语言模型 + 多模态上下文 | 大脑皮层 | 高阶意图理解与策略生成 |  
| 肌肉层 | 表达单元 + 多模态控制参数 | 运动神经元 | 将意图翻译为可执行指令集 |  
| 骨骼层 | 多模态行为数据执行引擎 | 骨骼肌群 | 在硬件层驱动传感器/执行器 |  
此分层设计使系统具备故障隔离能力:若语音模块失效,系统可自动降级为“文字+手势”双模态表达,而无需重构整个LLM推理链——这是面向真实场景鲁棒性的关键设计。
五、在技术底层预埋人机共生伦理接口  
专利虽未明言伦理机制,但其架构天然支持三大伦理治理能力:  
行为可审计性:每个表达单元携带完整溯源标签(触发模态、上下文快照、参数决策依据),满足《人工智能法案》对高风险AI系统的可追溯要求;  
干预即时性:系统支持在任意表达单元生成后插入人工覆盖指令(如监管者一键冻结某类手势参数),实现“人在环路”的强管控;  
认知谦抑设计:通过多模态上下文持续监测用户认知状态,当识别出困惑/疲惫信号时,自动触发“简化表达协议”(减少隐喻、增加重复确认),践行“智能体应适配人类,而非反之”的伦理基石。
结语:这不仅是专利,更是人机关系的操作系统升级  
智元创新此专利标志着中国AI产业正从“大模型能力竞赛”迈向“智能体行为工程化”新阶段。它不再追问“模型能否回答问题”,而是深究“智能体如何以人类可接受的方式存在与行动”。当技术开始敬畏人类对话的生物学节律、认知负荷与情感纹理,真正的智能共生时代才真正启幕——而这份专利,正是那扇门的精密铰链。

如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
175296
金币
566143
道行
20030
原创
769
奖券
432
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 21862(小时)
注册时间: 2012-06-21
最后登录: 2026-03-11
只看该作者 沙发  发表于: 03-03
智元机器人(智元创新公司)近期公布了一项名为“智能体的行为控制方法、电子设备、存储介质以及产品”的新专利(公开号CN121578687A),该专利通过优化多模态交互数据的处理流程,显著提升了智能体行为表达的实时性与协调性。以下是专利的核心技术要点及价值分析:

一、专利核心技术方案
多模态交互信息处理
获取用户的多模态交互信息(如语音、视觉、文本等),提取各模态的交互数据,并整合为统一的多模态交互上下文126。

动态生成回复与行为参数
基于多模态交互上下文,利用预设的大语言模型(LLM)同步生成回复文本及对应的多模态控制参数(如表情、动作、语音语调等)14。

短句流式执行机制

分句处理:在生成回复文本时,将其拆分为短句文本单元。
预执行行为:当任一短句文本单元生成完成后,立即结合其对应的多模态控制参数生成表达单元,并触发多模态行为数据执行(如实时语音播报、动作反馈)169。
优势:通过分段执行替代传统全文本生成后再执行的方式,减少行为反馈延迟,提升交互流畅度。
二、技术突破与价值
实时性提升
传统智能体需等待完整文本生成后再执行行为,导致交互卡顿。本专利通过“短句划分+流式执行”机制,实现行为与语音的同步输出,有效缩短响应时间16。

多模态协调优化
将语言模型生成的控制参数直接映射为行为指令(如手势配合语音),确保表情、动作与语义的一致性,增强交互自然度222。

工业应用潜力
该技术适用于需高实时性的场景(如客服机器人、康养陪护机器人),尤其在智元与龙旗科技合作的产线中,已通过真机强化学习实现快速部署29。

三、专利背景与公司动态
申请主体:智元创新(上海)科技股份有限公司(成立于2023年)6。
技术积累:此前已布局机器人控制精度8、动作重定向11、续航优化18等专利,本次是其多模态交互技术的重要升级。 专利检索服务

智能优选回答
专利检索服务轻松获取,国家专利检索系统登录入口便捷使用
国家专利检索「专利申请中心」,采用全国专利数据库,专利信息实时更新,快速检索专利信息,国家备案专利申请机构,利申请流程及新规定,点击进入.
查看详情
广告
行业关联:结合其2025年发布的具身智能大模型“智元启元大模型”2024,该专利进一步强化了人形机器人的情感表达能力。
四、总结
该专利通过分句流式执行与多模态参数同步生成两大创新,解决了智能体行为反馈滞后的问题,为人形机器人的自然交互提供了关键技术支撑。其工业落地案例(如产线机器人)亦验证了技术的实用性29。智元机器人持续迭代的专利组合,凸显其在具身智能领域的技术领先性。
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个