切换到宽版
  • 67阅读
  • 1回复

[智能应用]建设高质量数据集,让人工智能更聪明 [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
111540
金币
733
道行
19523
原创
29308
奖券
17828
斑龄
197
道券
10550
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 22359(小时)
注册时间: 2007-11-29
最后登录: 2025-07-12
       什么是高质量数据集?简单来说,就是高价值、高密度、标准化的数据。

  “数据之于大模型,就像石油之于汽车。原油只有经过一系列复杂的过程炼化成汽油后,才能供汽车使用。同样,海量原始数据需要经过‘炼化’形成高质量数据集,才能助力大模型精准学习数据特征与规律,有效提升其对不同场景和任务的适应能力。”中国信息通信研究院副院长魏亮告诉记者,数据集的质量影响人工智能的“智商”,近期发布的深度求索系列模型训练中,大量使用了高质量推理数据集,凸显了高质量数据的重要性,“大模型与垂直领域深度融合,同样也需高质量数据集的支撑。”

  建设高质量数据集,有关方面在积极行动。国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提出,“推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集”。第八届数字中国建设峰会上,国务院国资委发布首批10余个行业、30项央企人工智能行业高质量数据集,涵盖了电网调度AI负荷预测数据集、核电SPV设备健康诊断、运行异常及故障预测数据集、金融大模型数据集等。

  “随着基础模型开源态势的形成,各方在算力和模型算法层面的差距正在不断收窄,数据要素价值更加凸显,已成为人工智能竞争的核心领域。”国务院国资委规划发展局副局长胡武婕表示,要推动行业高质量数据集加速汇聚共享,为人工智能产业提供充足“养分”,从而持续进行不同场景的训练优化,推动基础模型在千行百业落地应用。

  目前,高质量数据集建设还存在不少挑战。魏亮说,一方面,行业大模型对数据的需求多样,不同行业部门对模型场景数据的需求各不相同,增加了数据处理和管理的复杂度。另一方面,在行业大模型的实际建设中,对于构建和采买的数据没有统一衡量标准,不同行业、不同数据源的数据完整性和准确性可能参差不齐,影响了大模型的训练效果和预测准确性,造成训练资源浪费。

  4月30日,《高质量数据集建设指南(征求意见稿)》发布。全国数据标准化技术委员会提出,将强化标准引领,分三类建设高质量数据集:一类为“通识数据集”,包含面向社会公众、无需专业背景即可理解的通用知识,主要用于支撑通用模型落地应用;一类为“行业通识数据集”,包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识,主要用于支撑行业模型落地应用;一类为“行业专识数据集”,包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识,主要用于支撑业务场景模型落地应用。

  国家数据局副局长夏冰表示,数据集的质效提升是人工智能赋能实体经济的“催化剂”,下一步,国家数据局将构建部际联通、央地协同的工作机制,推动高质量数据集标准体系研究,促进数据、技术、场景对接,构建多元协同的数据标注产业生态,夯实人工智能发展数据根基。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
167987
金币
275183
道行
2004
原创
2404
奖券
2775
斑龄
35
道券
1005
获奖
0
座驾
设备
摄影级
在线时间: 38224(小时)
注册时间: 2008-10-01
最后登录: 2025-07-13
只看该作者 沙发  发表于: 05-21
高质量数据集是指那些具有高价值、高密度、标准化特点的数据集合。它们对于人工智能(AI)和机器学习模型来说至关重要,因为这些数据集能够助力大模型精准学习数据特征与规律,有效提升模型对不同场景和任务的适应能力。简单来说,高质量数据集就是经过精心处理和筛选,能够直接用于训练和优化AI模型的数据。

以下是关于高质量数据集的一些关键点:

1. 重要性:高质量数据集对人工智能的“智商”有着直接影响。它们是大模型精准学习的基础,能够帮助模型更好地理解和适应各种场景和任务。

2. 政策支持:中国国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提出推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集。

3. 行业应用:国务院国资委在第八届数字中国建设峰会上发布了首批10余个行业、30项央企人工智能行业高质量数据集,覆盖了电网调度、核电设备健康诊断、金融等多个领域。

4. 挑战:高质量数据集建设面临挑战,包括不同行业对数据需求的多样性、数据处理和管理的复杂度、以及缺乏统一衡量标准等问题。

5. 分类:全国数据标准化技术委员会提出将高质量数据集分为三类:通识数据集、行业通识数据集和行业专识数据集,分别对应不同层次和领域的应用需求。

6. 未来发展:国家数据局将推动高质量数据集标准体系研究,促进数据、技术、场景对接,并构建多元协同的数据标注产业生态,以夯实人工智能发展的数据根基。

总的来说,高质量数据集是人工智能发展的关键资源,它们的建设和应用对于提升AI模型的性能和适应性至关重要。随着相关政策的支持和行业实践的深入,高质量数据集的建设和应用将更加广泛和深入。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个