北京2024年7月16日 /美通社/ -- 近日,浪潮信息前瞻性布局的PCIe光互連技術(shù)方案順利通過(guò)原型樣機驗證。該方案實(shí)現了混合速率線(xiàn)性光傳輸,解決了PCIe協(xié)議與光傳輸技術(shù)之間的兼容性問(wèn)題。測試結果顯示,該方案有效地將PCIe Gen5信號傳輸距離拓展至30米,相比傳統銅互連傳輸距離提升了20倍,同時(shí)避免了高速電信號長(cháng)距離傳輸中的信號衰減問(wèn)題,實(shí)現了更高性能、更低延遲、更穩定的數據傳輸,可滿(mǎn)足大規模數據中心,機柜內和機柜間長(cháng)距離高速總線(xiàn)信號互連的需求。
大模型時(shí)代對PCIe技術(shù)進(jìn)步的需求
PCIe總線(xiàn)協(xié)議(Peripheral Component Interconnect Express)作為計算機和服務(wù)器中使用最廣泛的高速數據傳輸技術(shù),其傳輸性能的提升對于滿(mǎn)足這些需求至關(guān)重要。傳統連接方案主要依賴(lài)于銅纜進(jìn)行電信號傳輸,用于單機內部計算芯片和設備之間互連。眾所周知,銅纜在信號完整性、延遲、傳輸距離和功耗等方面存在日益突出的局限,無(wú)法滿(mǎn)足PCIe高性能互連系統的需求。
同時(shí),隨著(zhù)AIGC的發(fā)展,千億參數成為大模型智能涌現的臨界點(diǎn),參數規模越大,意味著(zhù)計算復雜度越高,因此所需要的算力規模也變得越來(lái)越大,萬(wàn)卡成為算力系統設計的起點(diǎn),單機內部的PCIe連接已經(jīng)不能滿(mǎn)足需求,機柜內互連和跨機柜的互連成為新的發(fā)展方向,以實(shí)現更高效的數據交換和資源共享。光互連技術(shù)在這里開(kāi)始發(fā)揮作用,利用光纖來(lái)替代銅纜,進(jìn)一步提升帶寬和傳輸距離。為解決這些問(wèn)題,包括PCI-SIG(PCI Special Interest Group)和浪潮信息等在內的眾多組織或公司,正在積極研究和推進(jìn)PCIe光互連技術(shù),該技術(shù)將顛覆數據中心的互連方式,為Data Center as a Computer的實(shí)現奠定基礎。
PCIe技術(shù)演進(jìn)中的光互連挑戰
經(jīng)過(guò)20多年的發(fā)展,PCIe技術(shù)已經(jīng)成為計算系統中數據通信的核心技術(shù),自誕生以來(lái),PCIe協(xié)議經(jīng)歷了從1.0到6.0版本的迭代,PCIe數據傳輸速率也從1.0的2.5GT/s,提升為6.0的64GT/s。這一進(jìn)步的同時(shí)也帶來(lái)了新的挑戰。
PCIe技術(shù)快速發(fā)展與電互連局限的矛盾日益突出。傳統的PCIe電互連傳輸方式雖然成熟,但在面對日益增長(cháng)的數據傳輸需求時(shí),其傳輸帶寬和傳輸距離方面的限制逐漸凸顯,已無(wú)法滿(mǎn)足高性能PCIe互連對應的業(yè)務(wù)場(chǎng)景。浪潮信息開(kāi)始探索使用光互連技術(shù)替代傳統的電互連方案,光互連技術(shù)可以實(shí)現更遠的距離、更高的帶寬和更低的延遲,這為PCIe架構帶來(lái)了突破的可能,有望成為服務(wù)器系統未來(lái)高速數據傳輸的重要發(fā)展方向。
在研究過(guò)程中,浪潮信息的工程師們發(fā)現盡管光互連技術(shù)有明顯的優(yōu)勢,但PCIe協(xié)議與光傳輸技術(shù)之間的兼容性問(wèn)題卻成為了新的挑戰。PCIe協(xié)議制定之初并未考慮采用光互連來(lái)傳輸,導致現有光傳輸技術(shù)與PCIe協(xié)議之間存在許多不兼容的地方,如圖1。
圖1
首先,PCIe鏈路的建立包括接收端檢測、電氣空閑狀態(tài)和協(xié)商鏈路速率等過(guò)程,常規的光模塊設計通常針對的是簡(jiǎn)單的光信號傳輸,不具備處理這些復雜的協(xié)議過(guò)程的能力。
其次,PCIe鏈路的穩定建立需要輔助信號的支持,如PERST#、PRSNT# 等,而光模塊內部通常沒(méi)有預留傳輸輔助信號的通道。這些不兼容的地方阻礙了PCIe協(xié)議與光傳輸的結合。
眾所周知,隨著(zhù)PCIe速率的增加,傳統銅纜在長(cháng)距離傳輸面臨著(zhù)越來(lái)越大的挑戰。例如,PCIe 1.0時(shí),銅纜傳輸距離可達10米,而PCIe 4.0時(shí),這一距離縮短至3、4米;當速率進(jìn)一步提高到64 GT/s和128 GT/s,也即PCIe 6.0和未來(lái)的PCIe 7.0,銅纜傳輸距離將進(jìn)一步縮短至幾十厘米,無(wú)法滿(mǎn)足數據中心的長(cháng)距離傳輸需求,PCIe光互連變得不可或缺。
浪潮信息PCIe光互連方案:突破距離限制,實(shí)現高效能數據中心互連
浪潮信息針對PCIe電互連在傳輸帶寬和距離上的局限性,創(chuàng )新研發(fā)了PCIe光互連方案,成功將PCIe信號從1.4米傳輸距離拓展至30米,滿(mǎn)足數據中心對長(cháng)距離高性能互連網(wǎng)絡(luò )的需求。
針對光傳輸中與PCIe協(xié)議的不兼容問(wèn)題,浪潮信息的工程師們深入研究了PCIe協(xié)議以及光電轉換組件的工作原理,提出了混合速率線(xiàn)性光傳輸方案,如圖2。
圖2
該方案包含三大關(guān)鍵技術(shù)特征:
將輔助信號匯合并編譯為600Mbps的低壓差分信號,與寬速率范圍的高速數據信號一起,通過(guò)光纖鏈路實(shí)現同步傳輸。
利用線(xiàn)性直驅技術(shù)構建了高速信號的光傳輸鏈路,這不僅優(yōu)化了光電轉換過(guò)程,還擴大了光電器件的傳輸帶寬,同時(shí)減少了光鏈路的能耗和傳輸延遲。
通過(guò)硬件升級來(lái)擴展和升級鏈路,確保能夠適應未來(lái)PCIe Gen6和Gen7設備的組網(wǎng)互連需求。
基于上述方案,浪潮信息的工程師們開(kāi)發(fā)了PCIe光互連的原型,并進(jìn)行了傳輸驗證。測試結果顯示,該原型不僅實(shí)現了30米光纖鏈路PCIe Gen5信號傳輸,還實(shí)現了PCIe輔助信號的光傳輸,圖3為30米光互連鏈路眼圖測試結果。作為對比,同樣的系統架構,銅纜方案最遠傳輸距離約1.4米,因此光互連方案成功實(shí)現將PCIe Gen5信號傳輸距離提升20倍。并且在性能測試環(huán)節,PCIe光互連鏈路通過(guò)2小時(shí)的NVMe-based FIO讀寫(xiě)測試和24小時(shí)GPU帶寬測試,遠距離傳輸性能與NVMe盤(pán)和GPU直連CPU的測試數據基本一致,證明了該方案的有效性和可靠性。
而且在針對不同距離條件下信號傳輸質(zhì)量的測試中,30米長(cháng)度的光纖鏈路眼高和眼寬結果與1米長(cháng)度的光纖鏈路基本一致。這表明信號的傳輸質(zhì)量幾乎不隨光鏈路長(cháng)度增加而衰減,這種優(yōu)勢是電互連傳輸技術(shù)所不具備的。
備注:眼高和眼寬是用于評估高速信號質(zhì)量的兩個(gè)重要參數,據此可直觀(guān)地觀(guān)察高速信號在傳輸過(guò)程中受到的噪聲和抖動(dòng)影響,從而評估信號的整體傳輸質(zhì)量。
圖3
PCIe協(xié)議仍在不斷迭代,數據傳輸速率和功能不斷提升,在服務(wù)器系統高速互連中的作用愈發(fā)關(guān)鍵。光互連傳輸技術(shù)通過(guò)提供更遠的傳輸距離、更低的延遲和更低的功耗,克服了傳統電互連的局限性。展望未來(lái),PCIe光互連技術(shù)將在智算中心、大規模數據中心等領(lǐng)域發(fā)揮更大作用,為現代計算和數據通信領(lǐng)域帶來(lái)更多創(chuàng )新和突破。