构建多元化的人工智能训练数据供给体系
发表时间: 2025-03-28 08:33:36 作者: 智能通风系统

  作者:赵精武(北京航空航天大学法学院副教授、北京科技创新中心研究基地副主任)

  数据作为数字时代的“新石油”,不仅是传统产业、新兴起的产业发展的重要支撑,同时也是人工智能科技创新的关键创新资源。

  现阶段,人工智能产业高质量发展面临的最突出、最迫切的困境,便是训练数据供给不足。随着网络空间已公开数据资源趋于“消耗殆尽”,AI产业愈发需要专业化程度高、领域属性强的高质量数据来提升算法模型性能。因此,建构我国人工智能法治保障体系的一项核心目标,便是形成多元化的训练数据供给体系,以满足不同规模企业的训练数据使用需求,推动算法模型性能朝着专业化方向升级。而构建多元化的人工智能训练数据供给体系是一项系统性工程,只有通过持续拓宽数据采集渠道、扩大数据流动范围、提高数据质量要求,才能为人工智能产业注入源源不断的创新动力,实现高质量发展。

  健全多源头数据采集机制,拓展数据广度。在实践中,人工智能企业获取训练数据的方式主要包括网络爬虫抓取已公开数据、使用开源数据集、购买数据产品等。整体而言,数据采集方式较为单一,难以满足相关产业对训练数据质量的基本需求。若想扩展训练数据获取广度,需要在以下两个层面实现数据采集机制的延伸:一是在数据采集行为合法性方面,以类型化列举、监管实践指南等方式明确训练数据来源合法性的常见类型,以消除企业业务合规担忧;二是在数据市场供给形式方面,深入探索公共数据的开放利用模式,降低中小企业获取高质量训练数据的市场门槛,整合数据交易基础制度,拓展可交易数据产品的质量和类型。具体而言,公共服务部门在长期社会公共服务过程中积累了海量高质量数据,但由于数据安全和数据使用收益归属不明等现实因素,此类公共数据面向人工智能产业的开放使用制度还需进一步深入探索。以交通部门为例,实时路况数据不仅可以提供实时交通拥堵情况报告,在人工智能技术加持下,还可以预测性地分析未来时间段交通流量情况、交通事故发生概率等。科研机构也积累了大量专业性较强的科学数据,如医学研究机构的临床病例数据,经由科学化整理和标准化处理,能够在医疗影像诊断、传染病防控等领域发挥重要作用。这些潜在的数据“富矿”,仍有待配套的法律制度予以松绑和深挖,进而形成层次化的数据采集渠道。

  建构高质量数据标注机制,挖掘数据深度。对于训练数据,既有数量上的要求,更有质量上的要求。训练数据的精确性、一致性、时效性等技术指标,直接影响着人工智能性能能否提升。以医疗影像识别为例,若是存在训练数据将正常细胞标识为癌变细胞、同一细胞多次标注为不同信息内容等情况,那么这些质量堪忧的训练数据只会“污染”人工智能性能,进而严重危害患者生命健康。国家网信办等七部门2023年发布的《生成式人工智能服务管理暂行办法》也专门要求在人工智能技术研发过程中,服务提供者应当制定符合本法要求的“清晰、具体、可操作的标注规则”。因此,合理科学的数据标注规则是保障训练数据质量和避免算法歧视的重要环节。在数据标注方式上,应当以“人机协作标注”为主要方式。技术研发者和服务提供者虽然可以通过批量自动化处理系统对各类数据资源进行高效批注,但潜在误差标注风险难以有效控制。相对地,采用人工批注模式,除了成本高昂之外,还可能在不经意间渗透标注人员的个人伦理观,产生潜在科技伦理风险。因此,理想的数据标注方式应是人机协作,以此填补上述数据标注方式的短板,提升数据标注结果的准确性、完整性和中立性。

  完善数据跨境传输机制,丰富数据类型。人工智能训练数据的高质量供给,离不开数据跨境传输制度的支撑。不同国家、不同地区的数据资源具有多元化的本地特征,这类数据资源能够优化人工智能算法模型,提升人工智能产品和服务的通用性。近年来,我国数据跨境传输的法律法规相继出台,确立了以“安全评估、个人信息出境标准合同、个人信息保护认证以及特殊机制”为内容的数据跨境传输治理框架。同时,《促进和规范数据跨境流动规定》进一步解绑了基于学术合作、跨国生产制造、市场营销等活动进行数据跨境传输的限制条件。为了更好推动训练数据的跨境流动,需要遵循发展与安全并重的治理逻辑。从长远来看,数据资源本地化不利于人工智能产业的创新发展,也不利于数据要素的市场化配置。数据跨境传输制度的建构是为了实现又好又快的跨境传输数据,在数据资源的“一进一出”中,充分获取全球范围内的高质量训练数据资源。在促进产业高质量发展的同时,还需要确保数据出境安全,积极探索多边、双边数据跨境合作机制,提升我国在数据跨境传输国际规则制定中的话语权,以构建互联网空间命运共同体为导向,实现训练数据安全有序流动。

  出台数据供给配套政策,畅通数据流动。在财政支持政策方面,不同规模的科技企业获取训练数据的能力并不相同,为了降低AI产业的市场门槛,有必要通过设立专项资金、实施税收优惠政策等手段降低中小企业获取高质量训练数据的实际难度。针对在特定领域具有卓越表现的中小企业、科研机构予以专项扶持,特别是涉及先进标注算法、数据整合技术等事项,可以通过专项资金助力企业购置更先进的设备、扩充专业人才队伍。在技术标准体系方面,统一的技术标准是确保训练数据质量、规范数据供给的重要工具。在训练数据采集、标注环节,设置统一的技术标准体系能够有效降低后续数据分析、数据挖掘等环节的研发成本。同时,科学客观的技术标准也能针对科技伦理事项辅助确立更为统一的标注规则。在基础设施平台建设方面,为了缓解各行业、各领域数据流动范围狭窄、流动类型有限等“数据孤岛”现象,需要政府部门推动建设面向训练数据供给的数字基础设施以及公共算法训练平台。通过这些基础设施和公共平台,将涵盖经济、地理、交通等各个领域的数据资源进行汇总,从而有效提高训练数据的总体数量和质量。

  【科学报国正当时】逢山开路 遇水搭桥——走近西南交通大学桥梁与隧道工程专业

  记者日前获悉,自去年10月全球洲际间断分布的5种崖柏属植物全部落户重庆市开州区崖柏国家林木种质资源库以来,科研团队已成功繁育崖柏实生苗30万株,崖柏扦插苗20万株,

  职业技能培训对劳动者提技增收、缓解就业矛盾意义重大。党中央、国务院高度重视职业技能培训工作,2024年印发《关于实施就业优先战略促进高质量充分就业的意见》,要求健全终身职业技能培训制度。

  长期以来,天气预报主要依赖于传统的数值天气预报模型。随着AI技术的突破,气象领域开始应用AI技术提高天气预报以及气候预测水平。2023年,《科学》杂志将“AI辅助天气预报的发展”评为世界科学十大进展,同年我国主导的AI大模型在精细化天气预报中的应用,更被评为中国科学十大进展之首。这些里程碑既展现了大气科学与AI融合的潜力,也为应对极端天气和防灾减灾创造了新机遇。

  当前,人工智能技术快速迭代并被应用到各行各业,从根本上改变着人类的生产生活。人工智能的发展越快,公众的期待与担忧越是急剧上升。如何平衡推进人工智能应用与治理,如何缩小科技发展带来的数字鸿沟,成为今年论坛上嘉宾热议的焦点之一。

  近日,国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局联合发布《人工智能生成合成内容标识办法》(以下简称《办法》)。《办法》聚焦人工智能“生成合成内容标识”关键点,通过标识提醒用户辨别虚假信息,明确相关服务主体的标识责任义务,规范内容制作、传播各环节标识行为,将于2025年9月1日起施行。如何让人工智能生成合成内容“亮明身份”,不再“真假难辨”?如何破解人工智能安全治理难题?记者就此进行了采访。

  当前,人口老龄化问题正在全球范围内加速蔓延,已经成为世界各国必须面对的共同挑战。世界卫生组织数据显示,预计2050年全球60岁以上人口数量将达21亿,其中包括4.26亿80岁以上的老年人。在养老领域,养老机器人不但可以减轻社会和家庭照料老年人的负担,还可支持老年人享受高质量的居家生活,因此智能养老机器人正逐渐成为世界各国应对人口老龄化挑战的重要技术手段。

  目前,中国电信积极探索中央企业和国家科研院所的深度合作范式,打通基础研究和成果转化通道,推动量子技术产业化发展。

  至此,中国空间站舱外航天服已经圆满保障空间站任务以来的19次出舱活动,使用年数的限制次数超出“3年15次”的寿命设计指标。

  中国人工智能大模型加速“出海”“出圈”,让更多澳大利亚华商和杨东东一样,开始将目光瞄准中国AI领域,积极寻找投资机会。

  随着生活水平的提高,人们的文旅需求正从“看山看水看风景”向“品文品魂品生活”转变。比如,逛博物馆,青铜器的精美纹饰固然能够吸引人的兴趣,但观众更希望了解青铜器纹饰背后的礼制密码;去故宫旅游,飞檐斗拱彰显的传统建筑之美固然让人欣喜,但榫卯结构背后的“天人合一”哲学更引人深思。山水器物背后的文化密码,具有一定的隐匿性,不易被直接观察和理解,而数智技术为游客了解这些文化密码提供了一把钥匙。

  记者从25日召开的中央企业“人工智能+”媒体通气会上获悉,近年来,国务院国资委持续深化中央企业“人工智能+”专项行动,着力提升中央企业在人工智能领域的竞争力。截至目前,中央企业在工业制造、能源电力、智能网联汽车等重点行业布局应用人工智能,科研、生产、客服等方面降本增效明显。

  25日,人类细胞谱系大科学研究设施(以下简称“细胞谱系设施”)在广东广州国际生物岛真正开始启动建设。这一设施是国家“十四五”重大科学技术基础设施,

  1956年,27岁的林皋带领年轻教师和同学们从零开始,通过自行设计制作的激振和测振仪器设施,在我国率先开展大坝抗震试验。

  2024年财政收入恢复性增长,比上年增长1.3%。在深入实施创新驱动发展的策略,促进现代化产业体系加快建设方面,《报告》指出,推动加快实现高水平科技自立自强。

  在应用数学中心,来自东南大学通信、网络安全、电子、医学、制药等约10个学科的科研团队经常汇聚一堂,寻找交叉融合的合作点。

  日前,在总医院第五医学中心(以下简称“第五医学中心”)感染病医学部感染性疾病科主任医师张敏的诊室里,4岁小患者洋洋(化名)的父母激动地向医生连声致谢,

  在蛋白质设计领域,传统方法面临着诸多难题,如需要丰富的专家经验,且要经过数以万计的实验试错,时间长、成本高,这样一些问题长期制约着行业发展。

  国家海洋环境预报中心联合海洋出版社有限公司和三六零数字安全科技集团有限公司,成功开发了海洋垂直领域大语言模型——“瀚海智语”。该大模型已顺利通过专家评审,

  可上九天揽月,可下五洋捉鳖,人类探索地球的征程离不开载人潜水器的技术创新。海底两万里,书写新传奇。

  3月20日至23日在海南三亚举办的2025种子大会暨南繁硅谷论坛上,智慧育种成为焦点议题,业内人士期待智慧育种破译“基因密码”,开启种业创新的新赛道。