近期,一条线个智算中心项目”的消息在计算圈内不断流传,引起行业关注,并引发学者对其潜在的“算力闲置”等担忧。
在9月24日的中国高性能计算学术年会(HPC China 2024)上,计算领域专家也不约而同地关注到这样的一个问题。《中国科学报》了解到,大家担忧的问题主要集中于一点:中国智算该怎么样健康发展,从而更高效支撑人工智能(AI)应用大潮?
“其实我更担心的是,一些地方以攀比心态上马的智算中心项目,能否保障为真实用户更好的提供优质可靠的智能计算服务?”中国计算机学会(CCF)副理事长、北京并行科技股份有限公司董事长陈健在接受《中国科学报》专访时说,若只有资源盲目扩张却不能发挥其应有效能、让需求端便捷获取优质算力服务,无疑意味着资源和资金的无谓浪费。
《中国科学报》了解到,该消息最早出自IT行业媒体“数智前线”。报道显示,数智前线通过对中国政府采购网、中国招投标公共服务平台、天眼查、企查查、寻标宝等渠道的梳理和不完全统计,仅2024年前7个月,围绕土建基础设施和IT基础架构等方方面面的建设内容,智算中心相关项目中标公告已发布超140个。
记者随即取得了与“数智前线”的联系,并获得了其梳理编制的《2024年前7个月智算中心项目》详细信息。
信息显示,这140多个项目中,分布于至少23个省市的诸多市、区、县内,其中尤以安徽、江苏、北京、山东、浙江等省市出单最多。这些项目的中标金额从数万元到超亿元不等,其中尤以数百万元、数千万元的项目居多;超过1亿元的项目有25个,占比约18%。有分析认为,智算中心单个项目过亿元,或代表着一些单体智算中心建设正在逐渐向更大规模演进。
而据赛迪顾问AI与大数据研究中心高级分析师白润轩提供的多个方面数据显示:截至2024年上半年,国内已经建设和正在建设的智算中心已超过250个。参照当前市场算力服务器价格,一个千卡规模(约须128台算力服务器)的智算中心仅硬件设备的投资额就达约4亿元。
看到上述智算中心建设数量的数字,上海交通大学网络信息中心副主任林新华不无担忧地发问:“现有的和许多正在规划中的智算中心,将会对电网产生多大的压力?如果未来5年生成式人工智能或大模型不能维持高热度,这数百亿的投资该怎么样处理?”
顾名思义,智算中心以处理AI计算任务为主,目前主要承接人工智能(AI)大模型的训练和推理任务。一般而言,大模型训练要求单体算力集群规模越大越好,而推理任务则正常情况下不会有此要求。现阶段在生成式AI热潮之下,市场上呈现出对智能计算(尤其是大规模训练集群)较高的需求态势,但能否长期维持这种高需求状态,市场态度并不完全一致。
“这可能是个谜。”林新华说:“这也许是商业机密,但如果是政府投资,就应该信息公开。”他表示,他所负责的上海交通大学校级计算公共服务平台“交我算”,在国内高校中第一个践行开放运维理念,坚持把实时利用率公开到网上,“接受用户和社会监督”。
“如果市场对智算中心的需求是300、500个,那么现在建设250个,一点都不多;问题是需求量真的有这么大吗?大家喊的‘缺算力’到底是缺哪一类算力?这需要弄清楚。”陈健从他在一线观察向《中国科学报》分析说,其实市场上真正稀缺的是单集群规模超2000卡的训练算力;当然,“万卡以上集群更加珍稀”。
他言下之意,除了相对稀缺的单体大规模算力集群之外,其他诸如用于AI推理的算力供应相对而言是能满足需求或够用的,问题是如何开发好、利用好;投建新的智算中心也要算好“供需账”,因为一旦算力供过于求,新建乃至一些已建智算中心恐有可能从“全村希望”变成“闲棋冷子”。
事实上,要建好一个智算集群并非易事。中国工程院资深院士倪光南指出,智算集群不是简单的软硬件的堆砌,它是一个复杂工程系统,要求“3+1”算力体系(即算、存、运和服务)的紧密协同。
“就好比构建一个足球冠军团队,不仅需要有各个优秀球员,还需要球员之间的协同和配合以达到最高效能。”倪光南说,也正是基于复杂工程系统思维,智算集群在算力规模、算力利用率、集群可靠性等关键指标上,能持续“挑战”和“对抗”源于单模块、单机、单系统的各种物理极限和失效问题。
但是复杂系统有其脆弱性。陈健和记者说,智算集群和超算类似,本质上都是并行计算程序,其特点是所有计算单元要同步运行,如果其中一个计算节点或通信模块发生故障,整个程序就会失灵,训练任务就中断了。
“这就要求在系统搭建之初不能有任何软件或技术上的问题。换句话说,必须把每一件事都做到极致,才有机会做到尽可能高的系统稳定性。”陈健说。
林新华告诉《中国科学报》,字节跳动和DeepSeek近期都发表了介绍关于万卡GPU集群如何建设与运维的论文,就主要从性能优化和可靠性两方面展开。
“如果没解决甚至没意识到这样一些问题,那么这些智算中心中的一部分有很大的可能性是在非常低效运转。”林新华说,而且规模越大,问题越多:“我相信在实际运维和管理中遇到的问题会远比字节跳动论文中指出的要多得多。”
这些技术细节决定了,算力集群的建设、运维和应用等环节,都非常依赖专业运维和技术队伍。然而,热火朝天部署智算中心的另一面,恰是专业人才的短缺。
“如果数字准确的话,国内已建和在建的智算中心超250座,但我不认为国内有250支专业的队伍来维护它们。”陈健直言不讳。在他看来,全国范围内能称得上顶尖的一站式计算服务团队的数量,“两只手数得过来”。
林新华也提出,算力服务器等软硬件可以“说买就买”,但好的技术人员不是能马上就批量培养出来的,“这么多智算中心,真的都能找到那么多专业的算力技术人员吗?”
记者了解到,国外的智算中心更偏向于公有云部署或在已有超算中心建设AI算力提供服务,因为有现成的专业运维团队和技术人员保障。比如美国国家科学基金会就在德州大学高级计算中心的基础上,建设了相应的智算集群。
“无论是质疑超建还是担忧水平,大家本质关心的,是一个面向需求、如何最优匹配供给的问题。”陈健对《中国科学报》表示,厘清这一点至关重要。
与水电不同,算力并不均质化,各行各业所需的算力模式亦不完全一样,各类用户会根据其需求寻找市场上最匹配的算力。“如果市场上有当然好,没有,那就新建。”陈健说,其实新建算力中心并不可怕,关键要看是否有“真金白银的需求”。
陈健认为,面对需求,寄望于国家沿用“计划经济”方式、统筹各地方建设规划的做法,显然已经过时且难度极大,非常有可能由于规划周期太长造成“建完发现需求变了”的尴尬。他建议,国家可适度调控政策这只“有形的手”,让市场这只“无形的手”发挥作用。
“比如,地方上如果有建设智算中心的计划,初期能够最终靠调研粗略估计需求规模,之后能够准确的通过需求变化来决定是不是继续‘加码’和决定‘加码’力度的大小,需求量开始上涨快就多加、增长慢就不加或少加。”他说,这种“动态持续增长式建设”方法,并行科技已有具体实践,OpenAI训练GPT系列大模型的算力规模也是慢慢加上去的,事实上,随着需求变化来调整算力资源建设规模“基本上不会出大问题”。
另外,陈健也想到,从顶层设计的角度,政策上还可优先考虑从补贴需求侧入手、驱动供给侧以自我进化的方式打造智算产业。例如,国家政策层面能要求地方政府拿出规划智算中心建设所需财政支出的30%或50%(非指定具体数字,仅为参考),贴补给大模型企业等需求方,监督他们在市场上自由购买算力服务。他认为,市场会“用脚投票”遴选出存在竞争力的算力供给者,优胜劣汰,让“盲目上马智算中心”没有生存土壤。
“但这样做的话,其中也会涉及许多具体问题,比如怎么样才能做到公平分配、相关决策要做到合理合法合规等。”陈健说,如何破题,对于还处在智能时代初期的我们,未来还需要更加多的研究和探索。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的全部作品,网站转载,请在正文上面注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:。
成都中医药大学研究团队:人工智能加速G蛋白偶联受体配体的发现 Engineering
FoAR 概念建筑中的人工智能:对文本到文本、文本到图像以及图像到图像生成器设计的思考