作者: 耿鹏飞 来源:中国工业新闻网
“九省通衢达天下,超算之光耀楚天”,9月24日至26日,第20届CCF全国高性能计算学术年会(CCFHPCChina2024)在武汉市中国光谷科技会展中心盛大举行。大会由中国计算机学会主办,中国计算机学会高性能计算专业委员会、华中科技大学、上海交通大学承办,中国地质大学(武汉)、北京并行科技股份有限公司协办。
以“华章廿载新质未来”为主题,本届大会由12位院士领衔,携手来自算力领域的400多位顶尖学者,进行学术交流和专题分享。
进入AIGC新时代,人工智能应用需要不断夯实算力底座。作为引领未来发展的关键力量,算力也是构成新质生产力的重要部分。面对新的科技革命与产业变革,新质生产力是一种更高效、更先进的生产发展模式。它关注的不仅仅是“新”,更重要的是实现“生产力”的跃升与结构的优化。高性能计算为人工智能、云计算、大数据、物联网等提供了强大的计算能力,为新质生产力的打造铺就了一条“高速路”。本次CCFHPCChina是一场为新质生产力赋能,并加速其价值释放的大会,通过汇聚和展示前沿学术成果、创新技术应用、拓展业务场景、发展壮大生态,推动我国高性能计算产业迈上新台阶。
2023年,湖北省人工智能核心产业规模超过700亿元,同比增长30%以上。“AI+”进一步催生了算力多元化供给。以《武汉市推进算力基础设施及应用产业高质量发展行动方案(2024—2025年)》为指引,武汉正通过汇聚本地乃至全国的通算、智算、超算,打通算力上下游供需链,推进算力服务产业高质量发展。本届CCFHPCChina落户武汉,对于推动武汉构建“国家中部算力基地”将起到积极作用。
CCFHPCChina创办于2005年,今年已经是第20届。它已成为与美国SC超算大会、德国ISC超算大会并驾齐驱的高性能计算领域全球最具影响力的三大超算盛会之一。2024年,中国高性能计算迎来深研人工智能与新质生产力和算力产业间紧密关系的重要契机。作为一届继往开来的行业顶级盛会,CCFHPCChina致力于通过广泛交流与合作,为行业开疆拓土增添新势能。
继往开来互联世界
图注:中国计算机学会(CCF)副理事长金海教授
9月24日上午,CCFHPCChina2024隆重开幕,中国计算机学会(CCF)副理事长金海教授主持了大会开幕式。
CCF理事长、中国科学院计算技术研究所学术委员会主任、中国工程院孙凝晖院士代表主办方在大会上致辞。他表示,20年弹指一挥间,中国高性能计算产业取得了长足进步,已经达到世界一流水平。展望未来,高性能计算要继续发挥“火车头”的作用,通过不断加强学术与产业交流,持续提升技术水平,促进对外合作与交流,引领智算时代未来技术的发展。
图注:中国科协副主席、华中科技大学校长、中国工程院尤政院士
高性能计算被誉为计算机科学工程的皇冠,是国家实力的重要象征。作为承办方代表,中国科协副主席、华中科技大学校长、中国工程院尤政院士在致辞中表示:“本届大会深入贯彻落实习近平总书记关于发展新质生产力是推动高质量发展的内在要求和重要着力点的重要论述,大力推进科技创新,汇聚前沿学术成果,展现最新的应用技术,促进超算技术应用生态和科技产业的转型升级。近20年来,我国在高性能计算领域取得的进展,鼓舞了我们的士气,使我们对未来高性能计算的发展充满自信。”
图注:中国计算机学会秘书长唐卫清
回忆起CCFHPCChina过去20年的发展历程,中国计算机学会秘书长唐卫清感慨万千。如今,CCFHPCChina已经是高专委所有会议活动中参与人数最多、展览规模最大、参与厂商数量最多、影响力最大的会议。近几年,中国计算机学会的发展也很快,今年会员有望超过12万,这其中也有高专委的重要贡献。除了服务会员,在沈阳、成都、西安、珠海等地设立更多办事机构以外,中国计算机学会还设置了大量服务机构、项目机构,总数达到283个,服务能力得到大幅提升。未来,中国计算机学会还将重点提升学术会议的质量,做好服务工作,实现国际化发展。
图注:高通量以太网联盟主席,阿里云智能集团研发副总裁、基础设施网络负责人蔡德忠
随着人工智能应用的深入发展,大系统互连网络所连通的重心逐渐从CPU向GPU转移。如何设计网络协议,如何营造产业生态,以应对这样的战略重心转移,这便是高通量以太网(ETH+)联盟成立的初衷与未来工作的目标。在大会上,联盟隆重发布了高通量以太网协议1.0。今后,联盟将按照年度大版本、半年度小版本的演进规则,持续推动高通量以太网协议不断完善。高通量以太网联盟主席,阿里云智能集团研发副总裁、基础设施网络负责人蔡德忠展示了高通量以太网协议未来的发展路线图,同时表示,AI智算将重新定义网络架构,而基于以太网的互连方案将成为行业主流。
抓核心关键问题从基础层面突破
图注:中国工程院院士,国家数字交换系统工程技术研究中心主任,复旦大学大数据研究院院长,教授、博士生导师邬江兴
中国工程院院士,国家数字交换系统工程技术研究中心主任,复旦大学大数据研究院院长,教授、博士生导师邬江兴在《开辟先进计算新路径》的报告中深入分析了当前先进计算面临的主要挑战,尤其是在数据处理、存储、搬移等方面的瓶颈,以及计算系统整体效率低下、能耗不可持续和计算安全问题日益突出的现状。面对全球数据量的指数级增长和对计算性能的需求,传统单一架构已经很难满足多样化的需求,而用电力拼算力的范式也具有不可持续性。为有效解决上述问题,邬江兴院士提出了基于“必要多样性定律”的变革性策略,强调“通过多样性应对多样性”,同时提升系统的适应能力。具体来说,就是通过引入领域专用软硬件协同计算(拟态计算)和软件定义晶上系统(SDSoW)的创新路径,同时兼顾高效能、高灵活性和高性能的计算需求;通过软硬件协同与资源池化的动态聚合,实现对多任务、多算法、多资源的动态响应,最终提供一种能够应对未来智能时代需求的绿色、智能和安全的计算新范式。这一创新路径为智能计算时代的系统优化、资源利用和计算安全提供了新的思路与方向。
图注:中国工程院院士、华中科技大学李培根教授
当前,制造业企业对于人工智能、深度学习以及大模型都十分关注。但是,制造业企业面临的最大挑战是缺少对基础性问题的深入探究和认知。中国工程院院士、华中科技大学李培根教授在主题为《“AI+制造”的几个基础问题》的报告中明确指出,下一代智能制造需要关注以下五个重要问题:第一,明确数据是基础,打造以数据为中心的人工智能,并且企业要增强从海量数据中获取有价值信息的能力;第二,从历史数据中挖掘洞见,不要忽视那些看似影响不大的特征数据,只有这样才能根据各种微弱信号,更好地理解制造的高维空间;第三,在数字智能时代,制造的“匠心”体现在数据上面,即对数据的敏感、对数据背后本质问题的体悟等;第四,物理空间(车间)需要实现IT与OT的融合;第五,大模型应用的关键之一就是需要智能代理,它有可能颠覆软件开发和应用的模式,从为工程师、管理者建立个人智能代理,到实现工业元宇宙,基于智能代理建立人机协同模式至关重要。李培根教授表示,为解决上述问题,需要IT各个领域的学者专家提供易于操作的方法和平台。
图注:华为鲲鹏高性能计算首席架构师丁肇辉
随着高性能计算应用的快速发展,出现了多样性应用负载融合、处理器架构加速融合与多样化等新趋势。在《协同产业创新,发展高性能计算新生态》的主题演讲中,华为鲲鹏高性能计算首席架构师丁肇辉介绍了华为针对高性能计算的易用性、实用性和开放性的思考和实践。华为的理念是面向行业,协同产业创新,共建新生态,为客户提供开放、易用、实用的高性能计算系统。在过去这些年中,华为一直坚持自主创新关键根技术;完善高性能计算基础软件、调度软件和工具链;同时与伙伴联合创新,带动产业汇聚和发展,共建生态、赋能行业创新,已完成5000多款高性能计算软件适配及优化,并在气象、生命科学、先进制造、教育科研等关键行业大规模应用。为此,华为打造了一套端到端的从软件到硬件的解决方案:软件主要包括面向应用加速的科学计算套件、作业调度及集群管理软件多瑙套件、欧拉操作系统、开发迁移工具DevKit等;硬件主要是围绕着鲲鹏处理器提供多种形态的服务器,以及OceanStorPacific存储、网络等。
跨界融合创新应用
图注:中国科学院院士、广东省智能科学与技术研究院院长张旭
“类脑智能算力作为智能时代的新生产力,将给智能技术乃至人类社会带来巨大变革。”中国科学院院士、广东省智能科学与技术研究院院长张旭如是说。他在题为《智能时代的类脑智能研究》的报告中解析了大脑这一最为复杂的信息和智能系统,它将启迪类脑智能理论和类脑智能技术,即脑科学/神经科学启发的智能理论和技术。在智能时代,脑科学研究的多学科交叉研究范式,促使类脑智能计算等类脑智能研究领域加入脑科学。张旭院士表示,类脑计算正成为脑科学研究的一种新范式,借鉴脑处理信息和学习的基本原理发展高能效、高速和智能的新型类脑计算系统,利用发展的类脑计算系统可以加速发展脑模拟和数字大脑,促进理解大脑运行机制和治疗脑疾病,发展数字脑科学和脑医学。新近出现的脉冲神经网络智能处理器为构建大规模类脑智能计算系统奠定了基础。展望未来,类脑超级算力极可能超过人类大脑算力,影响智能科技变革和人类社会发展。
图注:中国科学院院士、大连理工大学教授、工业装备结构分析优化与CAE软件全国重点实验副主任、中国力学学会副理事长郭旭
计算力学是力学当中比较古老的一门分支学科,在数智化时代,它也面临着转型升级的挑战。中国科学院院士、大连理工大学教授、工业装备结构分析优化与CAE软件全国重点实验副主任、中国力学学会副理事长郭旭在《智算力学-数智时代的计算力学》的报告中谈到,现在所说的现代力学,将电子计算机与力学工作结合起来,这就与高性能计算产生了非常密切的联系,因为只有进行高性能计算,才能获得高性能计算力学的方法,才能产生高性能相关算法的效能。面对力学建模的复杂性以及建模的主观性导致的计算难以进行等情况,必须对研究范式进行创新。以数理为基石,再加上人工智能的增强,就可以突破CAE软件计算能力的维数灾难。在数智时代,计算力学也需要提升,升级为智算力学。“如果不与人工智能、大数据等先进的计算范式相结合,计算力学就不能称之为现代力学。”郭旭院士表示,“在这样的指导思想下,我们提出了智算力学的概念,即以力学数据智能科学为基础,利用先进算力解决科学、技术和工程中力学问题的理论方法和工具体系。智算力学是计算力学在数智时代的升级和演进。”
图注:中国科学院院士、国防科技大学教授、中国计算机学会(CCF)会士王怀民
图注:国防科技大学副研究员冯大为
中国科学院院士、国防科技大学教授、中国计算机学会(CCF)会士王怀民与国防科技大学副研究员冯大为联袂奉献了主题为《从计算到智能:以材料科学为案例》的报告。在智能计算时代,AIforScience不仅推动了基础科学研究的进步,也为高性能计算与人工智能技术的发展带来了新的机遇与挑战。如何结合科学研究的具体应用场景,充分发挥高性能计算与人工智能在大数据分析、仿真计算、智能预测、实验辅助方面的潜力,是当前AIforScience落地应用关注的重点。王怀民院士表示,超算与智算既有联系,也有区别。两者的互补性意味着,超算与智算融合,支持未来的科学研究,前景十分广阔。冯大为从人工智能对高性能科学计算的赋能案例入手,围绕材料科学研究应用场景,详细地介绍了基于中国算力网所开展的算力、模型、实验等方面的探索,并以大模型赋能材料科学研究为案例,剖析了相关研究实践与未来的挑战。
“过去40年,世界高性能计算技术取得了惊人的发展。令人欣慰的是,我国高性能计算事业‘跟上了’世界的步伐,成为国际高性能计算领域不容忽视的重要一极。”王怀民院士表示,“但在今天十分复杂的国际科技竞争背景下,支撑中国高质量发展,我们不能仅仅满足于‘跟上了、咬住了’。在高性能计算内涵日益丰富的今天,我们要把握时代机遇,从跟随者变为引领者,这是新一代高性能计算创业者的使命。”
澎湃算力“算”出新质生产力
24日下午,多位院士出席的大会报告环节。
图注:中国工程院院士、中国科学院计算技术研究所研究员李国杰
算力网要发挥智能时代基础设施的作用,所以它应该像浏览器、微信一样实现全民普及应用。一项新技术要普及,一定要有“杀手级”应用。从现在来看,AIPC和AI手机可能会成为在全民中普及的智能化的个人助理,将来也许就会形成算力网络真实的需求。让算力通过网络服务更多的人,让广大用户从算力网中得到实际的好处,才能让算力网快速发展起来。现在不同的单位都在算力网方面做了不同的努力,关键是如何将这些研究与实践形成合力。
在报告环节,中国工程院院士、中国科学院计算技术研究所研究员李国杰发表了主题为《关于算力网的元思考》的报告。他表示,大模型预训练是目前对算力的主要需求,但广域分布式计算并不适合做大模型的训练,依靠多个小的智算中心,通过分布式计算来训练大模型未必是出路。算力网研究需要有与网页类似的核心抽象,将“超链接”发展为“超任务”。理论上的抽象不是性能的渐进式改善或SOTA刷榜,而是首先要取得定性研究的突破。
图注:华为网络技术实验室首席科学家徐小飞
在主题为《AI集群通信技术体系设计》的演讲中,华为网络技术实验室首席科学家徐小飞指出,当前,AI集群中对于通信性能的优化往往集中在单点技术上,未能形成合力。徐小飞从充分发挥算效的角度,详细分享了系统性设计AI集群通信技术体系的实践,以及涵盖控制面和数据面各分层的关键技术和演进路线。在实践中,应根据AI流量的特征,多措并举,比如通过网络均衡技术、链路层的创新算法以及原端的映射控制算法等,尽可能地缩短通信时间,让计算少等待。华为创新了非均匀布鲁克算法,有效减少了通信的步长。这一方法应用于客户的实际项目中,在8000卡集群中,实测性能相比传统算法提升了70%。针对分层通信不对称的问题,华为创新性地基于虚拟卡号实现不同域算法的拼接,可以将性能提升30%至66%。模型的快速发展,需要更加灵活的连接去适配。但是传统的物理连接通常是很难改变的。为此,华为在持续探索基于OXC物理器件,再配合TP算法,实现动态的拓扑调整。
图注:阿里云智能集团副总裁、弹性计算负责人和存储负责人吴结生
今天,众多产业龙头企业以及科学研究项目通过云计算来满足业务对计算和存储规模扩展的需求,未来每一家公司都将成为数据+AI的公司,云计算一直在践行ScalingLaw。阿里云智能集团副总裁、弹性计算负责人和存储负责人吴结生在题为《AI驱动,阿里云高性能计算的创新和发展》的演讲中表示,目前超过50%的国内大模型创业公司、超过80%的科技公司在使用阿里云。面对多样化的高性能计算负载,阿里云建设了一个完整的高性能计算的产品矩阵,通过灵骏智算集群满足极致紧耦合的负载需求,通过弹性高性能计算EHPC满足紧耦合应用负载需求,通过EHPCInstant来满足松耦合的负载需求。目前这些方案已产生生成式AI、自动驾驶、生命科学、能源、制造、科学计算等领域的落地案例,这背后也离不开阿里云持续的技术创新,包括磐久AI计算服务器、高性能存储CPFS、云基础设施服务器芯片CIPU、高性能网络HPN7.0、弹性RDMA的连接能力、网络拓扑感知等等。
图注:北京并行科技股份有限公司董事长陈健
毋庸置疑,人工智能将引领新一轮工业革命,而大模型技术是驱动本轮人工智能浪潮的关键支撑。在《基于大模型【应用运行特征】的算力产品选型分析和性能优化》的演讲中,北京并行科技股份有限公司董事长陈健表示,大模型训练是超算应用,而超算系统设计需要考虑计算、访存、高速互连等协同设计,避免出现“木桶”短板,这样才能更好地为大模型训练提供高效的算力支撑。同时,受参数规模、并行方法等多种因素影响,不同的算力模型训练应用运行特征不尽相同,这就要求基于具体的应用运行特征进行设计,选择与之相适应的超算架构算力产品平台,从而更精确、更高效地提升大模型的训练性能。陈健从超算架构算力平台出发,围绕如何提升大模型训练和推理性能,抽丝剥茧,介绍了具体的方法与实施方案。并行科技将推出“算海计划二期”,与内蒙古算力基地合作建设10万卡单一大集群,计划于2025年10月开始对外运营。
AI+向“新”而行
图注:联想中国基础设施业务群战略管理总监黄山
下午后半场的大会报告环节上,联想对于大模型未来的应用前景持乐观态度。为满足人工智能应用需求,我国正持续大力投入智算算力建设。截至2024年5月,我国已建成运营的算力规模达到104EFLOPS。在主题为《“筑基新质算力纵横数字未来”——联想异构智算平台介绍》的演讲中,联想中国基础设施业务群战略管理总监黄山谈到,我国新型算力建设正走向规模化和多元异构,在此过程中面临的最大挑战主要表现在软硬件兼容性、互操作性设计复杂,智算算力利用率低,故障诊断与恢复是提升SLA的制约因素,制冷技术还需要持续升级等。联想通过打造万全异构智算平台,构建支持AI全场景、高性能的存力,提供多架构、低延迟的运力,以及建设异构智算产业生态联盟等方式和手段,推动新质算力发展,加速算力价值的跃迁。
图注:中国工程院院士、华中科技大学教授、国家数字建造技术创新中心首席科学家丁烈云
中国工程院院士、华中科技大学教授、国家数字建造技术创新中心首席科学家丁烈云做了主题为《AI重塑建筑未来》的报告。他表示,Al将为建筑产业的转型升级带来革命性的变化。建筑设计并不是靠画出来的,而是由模型算出来的,这就要求必须实现数理逻辑与形式逻辑的统一。未来,建筑生产不再是粗放式的建筑施工,而是可以像造汽车那样造房子,即通过模块化、一体化、自动化、智能化,在工厂实现提前预装。在实践过程中,丁烈云院士不仅仅将智能技术用于建筑设计领域,还在医疗健康甚至体育等领域进行广泛尝试,并且都取得了非常好的效果。AI将改变未来,建筑产品不只是钢筋混凝土形成的物质产品,也是可以改变人们生活方式的建筑智能终端。
图注:清华大学计算机系陈文光教授
清华大学计算机系陈文光教授在主题为《在国产超算和智算平台上进行大模型训练》的报告中谈到,以GPT为代表的大规模预训练模型正展现出丰富的生成能力,并且在各行各业中实现了重要的应用。当前,国内外的大部分预训练模型都是在英伟达的平台上开展的。陈文光教授有的放矢,分析了国产超算和智能算力平台面临的挑战,以及相关计算机系统技术的进展,并且介绍了在两个国产平台上训练千亿参数稠密模型和百万亿参数稀疏模型的经历。实践证明,国产超算和智能算力平台可以支持大模型的训练,但也存在局限性,最大瓶颈在于单芯片的峰值算力,虽然通过软件优化可以在一定程度得到缓解,但并不能完全弥补差距。国产平台还需要再接再厉,更上一层楼。