开放推动AI生态创新发展:国内首个开放算力模组规范启动
2024-08-12 21:48:49
  • 0
  • 0
  • 0

“开放计算,对于智算时代有着重要意义。既要通过开放应对多元算力挑战,也要通过开放促进算力的规模化发展和创新。”浪潮信息服务器产品线总经理赵帅日前在2024开放计算中国峰会上表示。

(来源:资料图)

2024开放计算中国峰会由开放计算社区OCP及开放标准组织OCTC(中国电子工业标准化技术协会开放计算标准工作委员会)联合主办,以“开放协同:协作、智慧、创新”为主题,聚焦数据中心基础设施、人工智能创新、开放计算生态、绿色计算发展、开放系统&CXL等议题。

会上,开放算力模组(OCM,Open Compute Module)规范启动立项,首批成员包括联合中国电子技术标准化研究院、浪潮信息、Intel、AMD、百度、小红书、联想、超聚变等。值得关注的是,这也是国内首个服务器计算模组设计标准,将通过建立标准化的算力模组单元,推动AI生态创新发展。

从“未来一切计算皆AI”谈起

当下,无论是手机、电脑,还是边缘设备、中央处理器(CPU),都已经具备AI计算的能力,也在承载着多样化的AI应用。可以说,AI算力已经深入到千行百业,并渗透进每一个计算设备里。因而,面向AI的算力范式也在不断发生革新。赵帅表示:“未来一切计算皆AI。CPU算力单元应用越来越丰富,除了大数据、关键计算、科学计算外,也要承担AI应用的重要任务,这也是CPU算力单元的重大机遇”

(来源:资料图)

但目前,x86、ARM、RISC-V等不同架构的CPU处理器可谓是百花齐放。仅在中国就有10多种CPU处理器,不同CPU的协议标准不统一,系统功耗、总线速率、电流密度不断提升,导致硬件开发、固件适配、部件测试资源等时间激增,给算力系统设计带来了巨大挑战。

所以,如何快速完成从芯片到计算系统的创新,已经成为推动AI产业发展的关键环节。

而面对算力平台多元化、以及通用算力迭代加速的情况,要想给用户提供更快、更好的算力支撑,CPU端亟需制定统一的标准,以实现对不同芯片厂商和多代产品的兼容。这也正是产业上下游希望共同构建开放计算模组(OCM)规范的根本原因。

据介绍,该规范旨在建立基于处理器的标准化算力模组单元。其通过统一不同处理器算力单元的对外高速互连、管理协议、供电接口等,来实现不同架构处理器芯片之间的兼容,借此构建CPU的统一算力底座,进而解决CPU生态挑战的问题。

总的来说,该规范致力于帮助客户根据AI、云计算、大数据等多样化场景,灵活、快速地匹配最合适的算力平台。

(来源:资料图)

如上所说,开放算力模组(OCM)规范启动的首批成员包括中国电子技术标准化研究院、浪潮信息、Intel、AMD、百度、小红书、联想、超聚变等。

对此,赵帅指出,要产业链上下游共同携手,才能建立标准化的算力模组单元,推动人工智能技术创新发展。

首先,做一个通用算力模组一定离不开芯片,因此需要和Intel、AMD等芯片厂商开展合作。

其次,要形成一个开放的产业规范,就要联合产业中主导技术规范和政策研究的单位。

最重要的是,这样的规范离不开用户的使用,而百度和小红书是对该规范感兴趣的第一批初始用户。

“我估计再过两个月,大家就能看到有更多成员加入项目中。”赵帅表示。

用“硬件开放”完善AI算力生态

那么,在推动规范启动的过程中,浪潮信息扮演了怎样的角色?

对此,浪潮信息服务器产品线产品规划经理罗剑表示:“我们更多地是把上游厂商、系统集成商和终端用户之间的核心痛点连接在一起。”

罗剑进一步指出:

对于上游厂商而言,该规范可以帮助它们在开发处理器的同时就做出相应的算力模块,让新平台能够快速地集成到系统上;

对于系统集成厂商而言,则可以通过统一技术规范,实现在一个系统中支持多元的处理器平台;

对于终端用户而言,该规范能够助力实现统一的运维和管理,从而降低用户的管理复杂性。

在如今的AI领域,大模型毫无疑问是“当红炸子鸡”般的存在。算力、算法和数据,是推动AI发展的三驾马车。尤其在大模型领域,这三者的协同作用尤为显著。自Transformer架构出现以来,大模型性能与其参数量、计算当量、数据量密切相关,这种现象被称为Scaling law。

要想对大模型进行高效训练,通常要有千卡以上高算力AI芯片构成的AI服务器系统提供支撑。而实现数千颗芯片互联,并让它们高效协同工作的前提,则是要解决单个服务器内部芯片的高速直联。

因此,在构建CPU的统一算力底座,以解决CPU计算效率问题之前,作为全球最大开放硬件社区,‌开放计算项目(OCP,Open Compute Project)社区早在2019年就发布了开放加速规范(OAM,OCP Accelerator Module)。

该规范的出现,解决了单个服务器内多元AI加速卡形态和接口不统一、高速互连效率低,以及研发周期长等问题,并得到了包括NVIDIA、Intel、AMD、微软、阿里巴巴、谷歌、浪潮信息等AI芯片企业、互联网企业和系统厂商在内的多家企业的支持与参与。

在此过程中,以浪潮信息为代表的系统厂商,基于开放加速规范(OAM)打造了多款AI服务器,定义了业界第一个符合该规范的8卡互连硬件系统,首次达到该规范下芯片互连的最高速率56Gbps。并且,该公司的AI服务器NF5698G7,支持多种基于开放加速规范(OAM)的芯片。同时,其还为用户构建了一个千卡液冷集群,支持超千亿参数量的AI大模型训练。

(来源:资料图)

那么,从产业布局的角度来看,开放加速规范(OAM)究竟在其中发挥了怎样的作用呢?

浪潮信息AI&HPC产品线高级产品经理张政表示:“它能够加速上游AI芯片的迭代速度。”

之前,不管是CPU还是图形处理器(GPU),都是两到三年迭代一次。现在GPU已经变成一年一迭代,甚至有些半年就迭代一次。而开发全新系统动辄需要12至14个月的时间,不能很好地配合当下的芯片迭代。

“我们通过这样一个标准化的平台,不但有利于促进芯片迭代,而且也能够不断地推进应用升级。”张政说。

张政补充称:“其实浪潮信息在开放社区里默默做了很多年工作。刚开始合作伙伴较少,这个事情也不能盈利。但现在我们发现,它对整个产业链的收益是巨大的。现在基本上国内外芯片厂商,最高端的产品全都采用了开放标准。”

据了解,目前开放加速规范(OAM)已经发展成为全球最多高端AI加速芯片遵循的统一设计标准,并得到了全世界20多家芯片企业的支持。该规范为AI芯片企业节省6个月以上的研发时间,为整个产业节省数十亿元的研发投入,极大地降低了AI算力产业创新的难度。

以开放拥抱AI,以开放加速AI

在浪潮信息看来,正是开源开放带动了AI产业的发展和繁荣。

以大模型为例,有关开源和闭源之间的争论一直在该领域存在。但不可否认的是,近两年来得益于业内公司在各种大模型上的投入,开源大模型的能力迎来持续且快速的提升。

在2023年全球新发布的基础模型中,有三分之二的模型都是开源类型,超过80%以上的AI项目使用开源框架进行开发,开源大模型的总下载量超过3亿次,并已经衍生出超过3万个新模型。

需要注意的是,开放一定会带来标准化,而标准化又容易导致同质化的问题。

对此,赵帅表示:“对于产品竞争力的这个问题大家一直都很关注,但浪潮信息还是要坚定地走开放道路?原因在于,开放带来的问题,远远小于它所带来的优势。”

具体来说:

第一,开放既能帮助公司更早地接触新技术,又能推动新技术快速迭代和落地。

“开放能让公司始终能比别人快半拍、甚至快一拍,这是它最大的一个优势。比如在设计基于OAM规范的AI服务器时,浪潮信息因为最早参与,解决了大量从标准到工程化的问题,这也是浪潮信息基于OAM产品能够做到最好的一个很重要的原因”赵帅说。

第二,开放会让公司和客户之间的连接更紧密,并且能实现公平和对等的沟通,不会给某一种单方面的绑定。

换言之,公司希望给客户带来新技术,而客户希望改进自己的生产效率。

“大家一拍即合,就很容易走向一种比较好的商业合作模式。”赵帅表示。

第三,开放可以帮助新技术实现更快的产业化,进而降低创新技术的产业化落地难度,降低公司和客户的生产成本和采购成本,这对公司和客户来说也是双赢。

活跃的产业创新,是算力产业健康发展的基础,开放可以激发产业创新的活力,让产业链上下游伙伴,创造更多价值。

(来源:资料图)

张政也补充说,在智算时代,算力迭代是Scale up(单系统性能提升)与Scale out(集群规模扩展)并存迭代快速发展的过程。目前一些传统的8卡AI服务器,其高速互联Domain无法满足万亿参数规模的MoE模型的训练或者推理需求。面对AI服务器的互联瓶颈,浪潮信息早在多年前就开始布局,OAM的下一代规范将支持更高算力规格的加速卡、可以实现更大的OAM domain互联,未来可以支持8k+ GPU卡Scale up,突破大模型all to all通信过程中的互联瓶颈。

另外,大模型的发展需要更大规模的集群,浪潮信息开放网络交换机可以实现16k个计算节点10万+GPU scale out组网,满足GPU之间的互联通信需求,带宽利用率高达95%+。

(来源:资料图)

我们可以看到,开放计算为数据中心的算力Scale,提供了一个可以迅速传递到整个产业链的“通道”。在演讲的最后,赵帅总结道,目前开放加速模组和开放网络实现了算力的Scale,开放固件解决方案实现了管理的Scale,开放标准和开放生态实现了基础设施的Scale。未来,浪潮信息会继续坚持“以开放拥抱AI、以开放加速AI”的初心,以开放创新加速算力系统全向scale,推动算力产业高质量快速发展。

来源: DeepTech深科技 

 
最新文章
相关阅读