中国工程院院士、清华大学计算机系教授郑纬民:
人工智能大模型训练 硬件软件都面临挑战
在2023中国国际大数据产业博览会“人工智能大模型高端对话”活动上,中国工程院院士、清华大学计算机系教授郑纬民围绕“整体系统工程化在大模型系统中的应用”主题演讲。
郑纬民说,ChatGPT出来以后,技术层次有三方面进展:第一,数据清洗;第二,人工标注反馈;第三,整体系统工程化。
谈到整体系统工程化,郑纬民说,整体系统工程化实际上是软硬件协同的系统设计与优化。
近年来,新型硬件层出不穷,做人工智能大模型训练的机器类型也有很多。在郑纬民看来,新型硬件的使用,对软件系统的设计提出了更大的挑战。因此,大模型必须和硬件匹配。新的应用软件出来了,也需要对新型硬件系统进行设计和优化。
郑纬民认为,当前整体系统工程化的主要挑战在两方面:一是硬件层面,新型异构高性能计算机的体系结构在计算、网络、存储等方面存在硬件限制;二是软件层面,不规则应用程序导致节点间负载不均衡、并行扩展难。
演讲中,郑纬民以大模型“八卦炉”为例进行了讲解,认为对新一代神威超级计算机来说,大规模算力给了扩展预训练模型绝佳的机会。他介绍了三种典型的大模型并行训练方式,即数据并行、模型并行和专家并行,并认为分布式训练可通过不同并行模式扩展模型规模与吞吐量。
郑纬民还对拓扑感知的混合并行模式、体系结构感知的访存性能优化、大规模检查点存储性能优化等三种优化模式进行了介绍。在大规模检查点存储性能优化方面,他认为硬件可靠性与检查点的优化重点是存储效率。在新一代神威平台,存储性能同样受网络拓扑影响。而最大化存储带宽,需要满足足够的进程数和进程在超节点间均匀分布两个条件。
上海交通大学人工智能研究院常务副院长杨小康:
生成式人工智能是新型生产力创造力
在“人工智能大模型高端对话”活动上,上海交通大学人工智能研究院常务副院长杨小康围绕“生成式人工智能”主题做了主旨演讲。
杨小康说,人工智能发展60余年后,有了ChatGPT,某种程度上已经达到了通用人工智能(生成式人工智能)。这种通用语言大模型跟人类的大脑可以高度类比,是新型的生产力,是一个技术演进。生成式人工智能不仅生成语言、语音、图像、代码,也能生成科学假设和科学现象。
“在元宇宙当中,我觉得两个东西非常重要,一是人的虚拟化。二是物的虚拟化。生成式人工智能,可以是元宇宙当中内容的生成器,也可以比较好地构建虚拟数字人以及虚拟世界。未来十年,生成式人工智能对算力要求、数据要求更高。贵阳可以起到很大的作用。”杨小康说。
杨小康说,生成式人工智能从视觉角度来讲有以下趋势:大模型多,模态更通用,物理世界的模拟更逼真,数字人更丰富更立体,虚拟人跟虚拟世界可以交互。
杨小康最后总结说:“生成式人工智能是新型生产力和新型创造力,不仅可以是AI机器工具,也有望成为科学研究的工具。当然,生成式人工智能基础理论还不是很完善,不可解释不可控,未来,我们要发展基础理论,把生成式人工智能用好,以加速元宇宙构建,促进行业数字化转型,做到虚实结合。”
美国国家工程院院士、东方理工高等研究院常务副院长兼教务长张东晓:
知识嵌入和知识发现在人工智能中同样重要
在“人工智能大模型高端对话”活动上,美国国家工程院院士、东方理工高等研究院常务副院长兼教务长张东晓围绕“科学机器学习中的知识嵌入与知识发现”主题发表了主旨演讲。
张东晓从数据驱动模型、理论指导的数据驱动模型(知识嵌入)、数据驱动的模型挖掘(知识发现)三个维度进行了分享。
张东晓说,机器学习模型预测原理是利用大量历史数据,寻找并确定输入多元变量与目标变量的复杂映射关系,构造模型并基于该模型对未来的目标变量进行预测。常用机器学习模型有人工神经网络、支持向量机、卷积神经网络、循环神经网络等。
“机器学习算法可以有效解决具有复杂非线性映射关系的问题,数据是基础,通过信息化、物联网,实现从数据到大数据的转变。同时,通过引入行业知识,可以有效提升机器学习模型的效果,即可以在数据预处理、机器学习模型结构以及模型效果评估环节嵌入领域知识,提升精度和鲁棒性,在一定程度上降低数据需求。总而言之,知识的嵌入和知识的发现,在科学机器学习、人工智能技术发展当中同样重要。”张东晓认为。
贵州日报天眼新闻记者 高艳飞 整理



