贵州日报报刊社 贵州日报当代融媒体集团 出版 国内统一刊号:CN52-0013 代号65-1






中国工程院院士吴世忠

数据集建设的质量和安全是大模型发展的生命线

贵州日报天眼新闻记者 何欣

8月28日下午,2025数博会高质量数据集主题交流活动在贵阳国际生态会议中心举行,吴世忠研究员在发表主旨演讲时表示,数据集建设的质量和安全是大模型发展的生命线,对技术进步、社会稳定、国家战略实施和全球治理进程至关重要。大数据从业者既是数据集的建设者,也是数据质量的把关者,更是安全防线的守门人,唯有以敬畏之心审慎对待每一组数据,才能让大模型既有硬实力,又有安全感,更好服务社会进步和国家发展。

当前,人工智能正从感知智能向认知智能跃迁,大模型作为这一变革的核心驱动,其能力边界很大程度上是由数据的规模、质量和安全性来定义。高质量数据集既是模型训练的基础和性能提升的关键,更是适配专业领域和拓展智能边界的支撑。

“我们应直面现实挑战,坚持统筹发展与安全,不断提升数据集建设全生命周期的治理能力,构建覆盖制度、技术、管理和生态的协同治理体系。”吴世忠建议,以《数据安全法》等法律法规为依据,制定面向大模型训练数据的安全指南,对数据集实行分级分类管理。例如,对涉及国家安全、个人隐私、商业秘密的数据,以及政府文件、金融交易等公共数据,实行严格准入、授权使用;对需脱敏的公开数据,如新闻报道、学术论文等,应确保来源可追溯、内容预先审核;对开源和跨境数据,则应建立安全评估机制。同时,推动构建大模型数据资源目录,明确各领域数据集清单,为开发者提供合规、安全的数据资源支撑。

此外,吴世忠还建议加强全流程技术防护,筑牢数据防篡改的底层技术能力;创新多方协同治理机制,打通政府、企业、科研机构之间的责任链条;培育安全向善的行业生态,推动技术发展与价值引领同步推进,使安全意识成为全行业共识,最终实现技术向善的产业目标。

--> 2025-08-29 中国工程院院士吴世忠 1 1 贵州日报 content_160095.html 1 数据集建设的质量和安全是大模型发展的生命线 /enpproperty-->