
东说念主民网记者 马晓波
11月3日,由寰宇数据标准化技艺委员会(以下简称“寰宇数标委”)专揽,寰宇数标委文牍处(中国电子技艺标准化野心院)和江苏省数据局经办的寰宇数标委2025年第二次“标准周”行动在江苏省南京市举行。
行动时候,北京海天瑞声科技股份有限公司副总裁、寰宇数标委委员崔向雨就“东说念主工智能数据产业发展与高质料数据集构建旅途”议题进行了共享。

崔向雨在WG2数据照应标准责任组会议上发言。东说念主民网记者 马晓波摄
崔向雨先容,东说念主工智能大模子发展对高质料数据集条件是“更高更新”,环球有关野心情构数据露出,以前15年间东说念主工智能模子教师数据集需求量每年以250%的速率增长。中国高度有趣数据产业发展和高质料数据集的竖立责任,发布了一系列支抓数据产业和高质料数据集竖立的计谋文献。据不透顶统计,寰宇有20多个省市积极栽种和发展数据标注产业,为处所数字经济发展提供新动能。“高质料数据集已是‘ 数据身分×’和‘东说念主工智能+’步履的‘焊合点’。”
崔向雨以为,算作“东说念主工智能+”步履落地的基础复古才调之一,高质料数据集竖立应罢职总体计较、分要领行、先易后难、先简后繁的原则,要以工程化念念维鼓动高质料数据集竖立的智能化和平台化,坐褥经由上应包括结构瞎想、数据鸠集、存储传输、加工标注、质检审核、运营奇迹等6个法子。从供给侧挖掘数据价值、需求侧复古东说念主工智能更动发展同期发力,锚定高质料数据集竖立助推东说念主工智能+步履落地。
“跟着数据身分商场栽种加速,数据标注产业迟缓受到温雅和有趣。”崔向雨说,狭义上看,数据标注是指对未经处理的原始数据通过分类、标志、能干等技艺技能,对未经处理的文本、语音、图像、视频等数据进行添加证实、施展分类或编码并改革为机器可识别信息的过程,为机器学习提供教师数据集。全体上看,数据标注是一项工程化的惩办决议。涵盖数据坐褥的通盘这个词经由包括数据瞎想、数据鸠集、数据清洗、数据标注、数据质检、数据验收等通盘要道。
证据《对于促进数据标注产业高质料发展的践诺见识》尊龙凯时体育,数据标注产业已成为对数据进行鸠集、筛选、清洗、分类、能干、标志和质料覆按等加工处理的一大新兴产业。