浪潮信息趙帥:開(kāi)放計算創(chuàng )新 應對Scaling Law挑戰

2024-08-19 11:34 來(lái)源:美通社 作者:電源網(wǎng)

北京2024年8月15日 /美通社/ -- 日前在2024開(kāi)放計算中國峰會(huì )上,浪潮信息服務(wù)器產(chǎn)品線(xiàn)總經(jīng)理趙帥表示,智能時(shí)代,開(kāi)源模型和開(kāi)放計算激發(fā)了人工智能產(chǎn)業(yè)生態(tài)的創(chuàng )新活力,面對大模型Scaling Law帶來(lái)的AI基礎設施Scale up和Scale out的挑戰,數據中心需要以開(kāi)放創(chuàng )新加速算力系統、管理和基礎設施的全向Scale進(jìn)程,推動(dòng)AI產(chǎn)業(yè)的創(chuàng )新發(fā)展。


開(kāi)源開(kāi)放推動(dòng)人工智能創(chuàng )新與算力生態(tài)的全面發(fā)展

生成式人工智能的飛躍式進(jìn)步正在加速智能時(shí)代的到來(lái),數據中心基礎設施面臨全方位創(chuàng )新,將越來(lái)越依賴(lài)更加廣泛的全球化開(kāi)放協(xié)作,加速AI技術(shù)創(chuàng )新與應用,共同構建一個(gè)充滿(mǎn)創(chuàng )新活力的智能世界,而激發(fā)人工智能創(chuàng )新活力,開(kāi)源開(kāi)放是核心和源泉。

模型開(kāi)源激發(fā)人工智能創(chuàng )新活力。隨著(zhù)開(kāi)源大模型能力的不斷增強和開(kāi)源生態(tài)的持續壯大,帶動(dòng)模型、應用到產(chǎn)業(yè)的全面發(fā)展,三分之二的基礎模型選擇開(kāi)源,超過(guò)80%以上的AI項目使用開(kāi)源框架進(jìn)行開(kāi)發(fā),開(kāi)源模型的下載量突破3億次,并衍生出超過(guò) 3萬(wàn)個(gè)新模型,Llama 3.1、通義千問(wèn)、源2.0等開(kāi)源大模型成為人工智能創(chuàng )新的驅動(dòng)力。

硬件開(kāi)放完善人工智能算力生態(tài)。人工智能帶來(lái)指數級增長(cháng)的算力需求,全球已有上百家公司投入新型AI芯片的研發(fā)與設計,百花齊放的算力芯片需要統一的算力平臺才能快速推向市場(chǎng),實(shí)現落地。開(kāi)放加速規范OAM的出現大大加速多元算力芯片的適配兼容過(guò)程,大幅降低資源投入,使算力部署和迭代提速,支撐上層大模型和AIGC應用的快速迭代成熟。目前,90% 高端AI芯片基于OAM規范設計,去年浪潮信息剛剛發(fā)布的基于OAM規范的開(kāi)放加速計算平臺NF5698G7與多款主流AI加速芯片適配兼容,基于OAM的智算產(chǎn)業(yè)生態(tài)圈日趨完善。

我們可以看到,AI時(shí)代,算力正在呈現出多元化的發(fā)展趨勢。為應對AIGC、云計算、大數據等應用復雜且不斷變化的計算需求,不僅僅是GPU,CPU、FPGA、ASIC等芯片也在朝著(zhù)更加多樣化和專(zhuān)用化的方向發(fā)展。而且無(wú)論是手機、電腦、邊緣設備、CPU通用服務(wù)器、加速服務(wù)器都具有了AI計算的能力,可以說(shuō)一切計算皆AI,AI算力已經(jīng)深入到千行百業(yè),滲透進(jìn)每一個(gè)計算設備里。面向人工智能的算力范式不斷革新,基于CPU的通用服務(wù)器不僅要承載大數據、關(guān)鍵計算、科學(xué)計算外,也要承擔AI應用的重要任務(wù),這也是CPU通用服務(wù)器的重大機遇。

但隨著(zhù)應用范式的多樣化,目前x86、ARM、RISC-V等不同架構的CPU處理器百花齊放,僅中國,就有10多種CPU處理器,不同CPU協(xié)議標準不統一,同時(shí)為了更好的適合AI推理高并行的計算特點(diǎn),CPU總線(xiàn)互聯(lián)帶寬、內存帶寬及容量也需要特別優(yōu)化,使得系統功耗、總線(xiàn)速率、電流密度不斷提升……多種因素疊加之下,硬件開(kāi)發(fā)、固件適配、部件測試資源等時(shí)間激增,給算力系統設計帶來(lái)巨大挑戰。

為了縮短從芯片到算力系統的轉化時(shí)間,給用戶(hù)提供更快、更好的算力支撐,CPU端也亟需構建智算時(shí)代的CPU統一底座, 能夠兼容不同芯片廠(chǎng)商、多代產(chǎn)品。2024開(kāi)放計算中國峰會(huì )上,開(kāi)放算力模組(OCM)規范正式啟動(dòng),首批成員包括中國電子標準院、百度、小紅書(shū)、浪潮信息、聯(lián)想、超聚變、英特爾、AMD等機構和企業(yè)。


全新的開(kāi)放算力模組OCM規范,旨在建立基于處理器的標準化算力模組單元,通過(guò)統一不同處理器算力單元對外高速互連、管理協(xié)議、供電接口等,實(shí)現服務(wù)器主板平臺的深度解耦和模塊化設計,兼容不同架構的多代處理器芯片,方便客戶(hù)根據人工智能、云計算、大數據等多樣化應用場(chǎng)景,靈活、快速匹配最適合的算力平臺,推動(dòng)算力產(chǎn)業(yè)高質(zhì)量快速發(fā)展。

OCM規范是國內首個(gè)服務(wù)器計算模組設計規范,產(chǎn)業(yè)界上下游伙伴將基于OCM規范,共同建立標準化的算力模組單元,構建開(kāi)放合作、融合創(chuàng )新的產(chǎn)業(yè)生態(tài),為用戶(hù)提供更多通用性強、綠色高效、安全可靠的算力選擇。

以開(kāi)放創(chuàng )新的全向Scale應對大模型第一性原理

算力、算法和數據是推動(dòng)人工智能發(fā)展的三駕馬車(chē),自Transformer架構出現以來(lái),大模型性能與其參數量、計算當量、數據量的協(xié)同作用尤為顯著(zhù),業(yè)界稱(chēng)之為大語(yǔ)言模型的第一性原理——Scaling Law。

智算時(shí)代,需要用開(kāi)放的理念來(lái)加速算力系統全向Scale,從而應對大模型的Scaling Law。隨著(zhù)大模型能力的持續進(jìn)化,算法規模和復雜性不斷增加、數據量越來(lái)越大,算力需求也在不斷攀升,需要同時(shí)應對單系統性能提升Scale up與多系統大規模擴展Scale out兩個(gè)方向擴展的挑戰,對數據中心基礎設施、算力管理、迭代升級等都提出了更高要求。


在算力方面,智算中心需要同時(shí)應對兩個(gè)方向的擴展,分別是強算力支持、一機多芯、多元多模的單機系統Scale up要求和大規模AI組網(wǎng)、高帶寬、資源池化的大規?;瘮U展Scale out要求,以開(kāi)放加速模組和開(kāi)放網(wǎng)絡(luò )實(shí)現算力的Scale。UBB2.0開(kāi)放標準支持更高算力規格的加速卡、可以實(shí)現更大的OAM domain互聯(lián),未來(lái)可以支持8000+ 張加速卡Scale up,突破大模型All to All通信過(guò)程中的互聯(lián)瓶頸。同時(shí),大模型的發(fā)展需要更大規模的算力系統,浪潮信息開(kāi)放網(wǎng)絡(luò )交換機可實(shí)現16000+個(gè)計算節點(diǎn)10萬(wàn)+加速卡的Scale out組網(wǎng),滿(mǎn)足加速卡之間的互聯(lián)通信需求,帶寬利用率高達95%+。

在管理方面,需要解決跨平臺適配、模塊化架構、快速迭代的Scale要求,以開(kāi)放的固件解決方案實(shí)現了管理的Scale。當前,異構算力多元分化,異步迭代,管理接口規范各不相同,導致固件平臺分支版本龐大,相互割裂,無(wú)法歸一,單一企業(yè)資源在維護和適配如此眾多的分支版本方面捉襟見(jiàn)肘。為解決一系列管理挑戰,需要依托于開(kāi)源社區的開(kāi)源固件平臺,構建原生解耦架構提升可擴展性,建立統一標準的接口規范,支持用戶(hù)對于自主模塊進(jìn)行定制化,實(shí)現標準接口規范下的異步、自主定制迭代,以滿(mǎn)足智算時(shí)代的算力迭代需求。

在基礎設施方面,數據中心面臨智能算力擴展的兩大Scale挑戰:一是GPU、CPU算力提升,單芯片單卡功耗急劇增加,單機柜在供電和制冷上面臨著(zhù)Scale up支撐挑戰;同時(shí),Scaling Law驅動(dòng)GPU規模無(wú)限膨脹,達到萬(wàn)卡、十萬(wàn)卡級別,帶來(lái)了數據中心層級Scale out的支撐挑戰,需要開(kāi)放標準和開(kāi)放生態(tài)將實(shí)現基礎實(shí)施的Scale,滿(mǎn)足快速建設、高算力/高能耗支撐要求。采用開(kāi)放標準、開(kāi)放生態(tài)構建的數據中心基礎設施,能更好地匹配智算時(shí)代多元、異構算力的擴展和迭代速度,進(jìn)而支撐上層智能應用的進(jìn)一步普及。以浪潮信息為例,基于開(kāi)放標準推出的液冷冷板組件,支撐單機系統內GPU和CPU核心算力原件Scale up擴展;推出模塊化、標準接口的120kw機柜,兼容液冷、風(fēng)冷場(chǎng)景,支撐柜內更大的部署需求;推出基于開(kāi)放標準的預制化集裝箱數據中心,大幅壓縮建設周期,其擴展性很好的滿(mǎn)足了AI算力系統的Scale需要。

開(kāi)放計算為數據中心的全向Scale,提供了一個(gè)可以迅速傳遞到整個(gè)產(chǎn)業(yè)鏈的"通道"。 目前,開(kāi)放加速模組和開(kāi)放網(wǎng)絡(luò )實(shí)現了算力的Scale,開(kāi)放固件解決方案實(shí)現了管理的Scale,開(kāi)放標準和開(kāi)放生態(tài)實(shí)現了基礎設施的Scale。開(kāi)放計算對于智算時(shí)代至關(guān)重要,需要用開(kāi)放應對多元算力,用開(kāi)放促進(jìn)算力的Scale,基于開(kāi)放創(chuàng )新構建的全向Scale能力將會(huì )成為未來(lái)AI基礎設施的核心驅動(dòng)力,加速智算時(shí)代的創(chuàng )新,加速人工智能的前行。

浪潮信息 趙帥 開(kāi)放計算 Scaling Law

一周熱門(mén)

十八禁无码精品a∨在线观看|国产1024精品视频专区|999国产精品|王朝影院久久精品图片|亚洲成a人片在线