人工智能、雲計算、大數據等各類數字技術正在交織構建一個全新的虛擬空間,生產、流通、科學、教育、娛樂、社交等等無不因此而變。在技術驅動下,新的數字文明正勃然而興,突飛猛進的算力變革則是這次文明迭代的重要驅動力之一。自計算機問世以來,在短短的 70 餘年的時間內,其性能從最初的每秒 5000 次運算發展到如今超級計算機的每秒百億億次計算,性能激增數百萬億倍。即便如此,麵對蓬勃興起的生成式人工智能、元宇宙等技術,算力缺口依然巨大。
在浪潮信息,有這樣一群工程師們,他們在好奇心的驅動下,通過各種方式尋找算力提升的路徑,無論進步大小,自豪感都在驅使著他們繼續探索未知,甚至像一個科學家一樣琢磨各種跨界的技術,並用於解決各類工程難題。他們具有發散的思維,也有著聚焦的能力,憑借對算力創新的熱情與追求,不斷拓展數字文明的邊界……。
112Gbps 高速互連,服務器設計的“藝術”
Yang Yang, 浪潮信息 AI 服務器工程師大軍中的一員,他所在的團隊負責進行 AI 服務器係統架構的研發工作,其中的關鍵是 —— 設計開發出一款具備超高速互連性能的開放加速基板。
“以前,我們在強調怎麼樣去提高單顆芯片的算力。但是到了大模型時代,模型訓練動輒成千上萬張卡,單張芯片已經完全無法承載。在新的 AI 超級計算機形態下,什麼樣的互連架構才能更好的支撐大模型業務發展,是我們重點研究的一個課題?!盰ang Yang 認為,實現數千乃至上萬顆芯片互連並讓它們能夠高效協同工作的前提,是解決單個服務器內部芯片的高速直連,這是一切問題的“原點”。
在他們團隊的努力下,浪潮信息定義了業界第一個符合 OAM (開放加速模塊) 規範的 8 卡互連 AI 係統,這是一個遵循開放計算標準的互連的基板,首次達到了業界最高的單通道速率 56Gbps。這個基板的厚度僅為 3.26mm, 層數卻高達 22 層,包含了近 1000 個高速互連差分對。
目前,56Gpbs 仍然是開放加速規範下芯片互連的最高速率。Yang Yang 表示:“下一步,我們將衝刺 112Gbps 單通道的高速互連通信,這種級別的速度提升,就相當於我們從 5G 時代跨步進入了 6G 時代?!?/p>
112Gbps 高速互連技術難點在於,在物理尺寸近乎不變的情況下,要將 GPU 間的互連速率提升一倍,需要犧牲信噪比。而信噪比的降低帶來的影響是巨大的,意味著 112Gbps 信號對於抖動和噪聲的敏感程度更為強烈,即對於信道的串擾、SCD (信號在通過該通道時的差分能量變為共模能量的模態轉化量,越低越好。)、PN Skew (內外線路不等長造成的傳輸差異)、ILD (損耗,線損 / 阻抗的影響程度,即漂移度) 等指標的要求都更為嚴苛。
這不僅需要更高端的材料支撐,更考驗設計的“藝術”。要知道,3-5mm 厚度的基板實際上是采用疊層設計,往往包含了十幾層甚至幾十層 PCB 板 (印刷電路板), 每層厚度僅有 100 微米左右,與一張 A4 紙相當。而為了保證信號傳輸質量,每組線路均需要采用差分對設計,即采用長度相等、相位相反的互補信號來傳輸同一個信號,以減少噪音和 EMI (電磁幹擾), 這將使得布線量增加一倍,對於本就信號布線密度近乎極限的基板來說,無疑是雪上加霜。並且,差分對走線的寬度和間距必須始終保持一致,當在基板上的障礙物,如過孔或較小的器件周圍布線時,對設計能力的要求更高。
因此,112Gbps 高速互連設計不僅需要尋找更低損耗的樹酯、玻璃纖維及更平滑的銅箔,同時也要確保這些材料在加工之後能夠符合可靠度的規範,設計與工藝複雜度極高。
在 Yang Yang 看來,112Gpbs 高速互連技術既需要科學的發散,也要做到工程的收斂: 通過科學的發散尋找創新的可能性,通過工程的收斂尋找“可行性”。創新的可能性空間包括了材料、工藝、方法、管理運營等等,而可行性則是尋找“最大化或最小化”,是尋找最優解的過程,“就像談到利潤,我們往往都會追求利潤最大化而成本最小化,最大化與最小化在很多時候是統一的,目標是一致的?!?/p>
Yang Yang 團隊所從事的工作能夠惠及數以百計的芯片創新公司以及更多數量的用戶: 借助標準化的、性能出色的開放加速基板,芯片公司可以快速的實現產品落地並持續迭代,而用戶則可以使用統一的、開放的基礎架構,根據業務需要配置不同類型的 AI 加速芯片,加快創新和創造更好的用戶體驗。
聽音降噪,服務器優化的“浪漫”
一臺服務器需要整合超過 10000 個零部件,其中包括 50 多類專用芯片;同時還涉及 30 多個技術方向,例如材料學、熱力學、電池技術、流體力學、化學等一係列學科;此外,一臺服務器裏還會應用超過 100 種傳輸協議。在製造中,服務器需要經曆 30 多道流程,使用 100 多種加工和製造工藝,並對 200 多個關鍵過程的控製點進行把控。
如何確保整個係統的可靠性,是一項非常精細且複雜的工程,每一個細節都關乎整體,甚至連聲音,也會影響到服務器的可靠性。四五年前,相當數量的數據中心用戶幾乎都遇到了同一個問題: 風扇轉速越快,硬盤越有可能出現性能波動,嚴重時還會直接掉線。
“最開始以為振動是罪魁禍首,後來才發現聲音才是始作俑者?!崩顺毙畔⒔Y構工程師 Cathy Wang 以女性特有的敏銳,創造出一種獨屬於工程師的“浪漫”—— 聽音降噪。
團隊針對硬盤性能失效問題做了大量的實驗,發現風扇產生的噪音一旦達到 120 分貝,極易造成硬盤磁頭偏移、讀寫效率下降,進而導致扇區失效乃至硬盤報廢、服務器宕機?!霸诮Y構的領域來說有一個不可調和的矛盾,就是風扇的轉速提高之後,它的噪音會向高頻段以及大聲壓這個方向去發展,而且它是這個聲音和轉速是成 5 次方的關係在增長的,所以我們看到一個非常明確且快速的風扇的噪音增長的趨勢。這個風扇和硬盤之間的衝突的問題,如何站在係統設計的角度,建立硬盤敏感度模型,成為業界廠商探討的難點?!盋athy Wang 介紹說。
不過,雖然找到了問題的根源,但解決問題的過程依然曲折。在嚐試過正弦波、1/3 倍頻程等走不通的路徑後,Cathy Wang 所在的團隊才找到了最合適的噪音帶寬,並以混頻、掃頻的模式模擬出多樣化的噪聲源,能夠測量硬盤在 500Hz~10000Hz 噪音刺激下的共振頻率和聲壓閥值?;洞罅繖C理性研究和測試,團隊發現硬盤性能損失與聲壓強度間的數學規律,構建出業界首個硬盤敏感度模型,量化出不同硬盤受到各類噪聲影響後的性能表現。
“我們希望通過我們的研究工作,讓性能優化從經驗主導變為科學主導,借助於不斷完善的基礎理論、工具與方法,針對特定問題形成標準方案並設計出新的可複用知識?!盋athy Wang 說道。
服務器裏聲音的“黑盒子”就這樣被打開了。在確定機箱內真正影響硬盤工作的噪音頻譜的基礎上,浪潮信息的工程師對服務器係統展開全方位的優化設計。首先從噪聲振動的源頭入手,通過 CFD 流體動力學仿真改進風扇的葉片形態,抑製扇葉表麵因渦流脫落形成的高頻噪音;其次,在機箱內通過設計 40 多種歌院式的消音結構,有效消除特定的高頻噪聲;此外,還對硬盤固件中的伺服控製算法進行調整,讓硬盤磁頭的噪聲共振擺動控製在 10 納米以內,在提升讀寫效率、性能翻倍的同時,實現服務器安全運行。
融合架構 3.0, 服務器架構的“夢想”
大模型時代,當在單機上獲得較高算力效率之後,能不能在幾百個節點、幾千塊卡保持相對線性的性能擴展比,已經成為算力集群係統設計和並行策略設計時的關鍵性因素。在傳統計算體係結構中,處理器橫向擴展一直是難以突破的瓶頸,尋找新的出路勢在必行。
浪潮信息體係結構工程師 Lorne Ci 認為:“傳統服務器是把所有的 IT 資源放到一個服務器裏麵。如果需要更多算力、更多內存、更多 IO 的話,需要把服務器去做疊加,像我們通常意義上一個大規模的數據中心可能有十幾萬臺,甚至有幾十萬臺服務器。但簡單的堆疊隻能堆出各種形態和規格的服務器,這對數據中心計算能力的提升,並沒有實質性的幫助。需要把服務器 IT 資源都做成池化的形態,然後通過軟件定義的方式來實現資源的動態調配?!?/p>
因此,Lorne Ci 團隊研究的方向是,創造一種新的體係架構,將硬件設備中的同類資源整合成一個資源池,不同的設備能夠任意的整合,再通過軟件動態感知業務的資源需求,利用硬件重組的能力來滿足各類應用的需要。
浪潮信息將這種新的體係架構命名為“融合架構”,早在 2014 年就提出這一技術理念,核心在於通過硬件解耦實現資源的物理池化和動態重構,通過軟件定義實現業務感知的按需資源組合與配置,滿足係統的彈性伸縮和超大規模的持續擴展,實現軟硬高度協同發展。浪潮信息將融合架構的發展劃分為三個階段,分別為“服務器即計算機 (Server as a Computer)”,“機櫃即計算機 (Rack as a Computer)”以及最終的“數據中心即計算機 (Data Center as a Computer)”。
目前融合架構 3.0 原型係統已經研製成功,實現了計算資源、存儲資源、內存資源、異構加速資源等核心 IT 資源徹底解耦與池化,支持池化資源異步升級、支持細粒度多主機共享高並發存儲、亞微秒級遠端內存共享訪問等特性,可通過軟件定義實現“一套係統,N 類應用”。
融合架構 3.0 最核心的就是要做到內存資源池的池化與算力資源池的池化。而如何實現遠程內存的調用,實現低延時的快速響應,如何實現緩存一致性…… 都是內存池化麵臨的重大挑戰。Lorne Ci 介紹說,“現在融合架構基於許多開放總線技術,包括 PCIE、CXL 等等,共同構建一個大內存係統,構建了一個高速高性能的互聯網絡,這對於參數量和數據量激增的大模型訓練有著巨大價值?!?/p>
伴隨著融合架構 3.0 原型係統的研製成功,浪潮信息在融合架構領域完成了重要的突破,實現了整機櫃級別的計算、內存、存儲與互聯等各種 IT 資源的池化。其中,內存解耦實現了亞微秒級的遠端內存訪問,並構建出了一種邏輯上可遠端共享的內存資源池。這種變化讓多臺主機可以訪問同一個內存池,並最終大幅提高了數據交換的效率。新的架構打破了現有服務器的邏輯架構與應用模式。它以係統設計為中心,可以讓數據中心從資源驅動型向業務驅動型轉變。麵向雲計算和人工智能等不同場景,這種新的架構和新的組合方式,讓數據中心真正實現了,用一套係統去支撐多類應用。
在如今這個逐漸成型的數字文明時代,計算已經滲透到我們生活的方方麵麵。不論是在家庭中,商業世界,還是科學研究領域,計算技術都無處不在,這已經成為了我們日常生活的一部分。然而,我們必須認識到,這隻是數字文明的起點,計算的重要性將在未來進一步凸顯。算力創新將成為數字文明中的火種,它將不斷照亮前行的道路。正如昔日的拓荒者冒險前行以開辟新的大陸,今天無數的 "算力拓荒人" 將持續引領我們進入數字時代的新境界。這些先鋒者將科學與工程融合,將 "知" 與 "行" 完美結合,以探索廣闊而充滿想象的未知之地。
在這條通往數字文明的開拓之路上,充滿了機遇與挑戰,我們需要更多具備跨學科知識的 "知行合一" 的研發人員,科技工作者,去通過一係列前所未有的解決方案,將計算創新推向新的高度,使其持續閃耀,帶領我們走向數字文明的下一個巔峰。
廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。
“繩”采奕奕,同向未來,蕭山區第一人民醫院這場拔河比賽,超燃!
作者: 夢醒念紅顏° 2023-11-14 14:01ROG DAY2023 華碩 Z790 新主板帶你開啟超頻新天地
作者: 曖__昧〆圥玍 2023-11-14 12:51TencentAVS3 編碼器 MSU 大賽取得佳績,國標編碼助力騰訊視頻更優畫質體驗
作者: 姐的霸氣歸屬 2023-11-14 12:1722MB
查看14MB
查看26MB
查看78MB
查看73MB
查看35MB
查看36MB
查看62MB
查看68MB
查看25MB
查看手機掃碼安裝郵政
網友評論更多
1暗殺對象
很好用的一款軟件,非常的好用,我用了很長的時間,推薦給需要的小夥伴。
20:15 推薦
本尊獨霸天下。:smartermail郵件係統是一款可擴展的企業電子郵件服務器 來自臨滄市
眼里是陰謀 :郵政Atom編輯器是一款免費的windows代碼編輯器,值得推薦哦 來自黃石市
卑微都是為了誰 回復 Bye:小時候 :這款軟件很簡約,也很好操作
1仰著頭,倔強驕傲
2345還是挺好用的,用用就習慣了,入坑了。
21:40 推薦
枕清.:有道詞典的內容更新快,而且豐富,使用它來翻譯詞匯也很方便,還帶有背單詞的功能,如果是初學者還是看字典吧。 來自淮南市
替我擋風 :郵政有陌生人喜歡聽你的歌,做你的粉絲給你送花花,好開森。 來自上海市
傾城戀 回復 逆臣 :Microsoft XML Core Services主要是用來執行或開發經由 XML 所設計的新應用程序。
1眼里是陰謀
軟件專業性比較高,使用範圍也較為廣泛
12:50 推薦
本尊獨霸天下。:專門用來推廣站點和產品 來自吉安市
_神1.樣的男人╮霸氣十足 :郵政很好操作的一款軟件,值得推薦 來自烏海市
怪咖 回復 與風為伍 :軟件還不錯哦,值得下載哦。
1獨身闖天涯
功能很全麵,操作也很簡單,還不錯。
22:41 推薦
放學別跑!:功能很齊全,操作也很撿到,鏈接手機即可享用超多功能體驗。 來自崇左市
☆帥氣男孩☆ :郵政功能都是免費的,適用於淘寶賣家,天貓商家。 來自江門市
傾城戀 回復 俺小時候可酷了 :可以將自定義的設置保存起來,以便日後直接調用。
1勞資一上線,全球都停電
可以很快知道職業選手的一些新聞資訊,還可以在裏麵交流遊戲經驗。不錯
16:21 推薦
爺不是你能想象的:操作很簡單,殺毒很放心。 來自常州市
爺丶有爺的范° :郵政優化文檔內容收藏功能,使功能更完善美觀 來自鶴崗市
稱霸酷比 回復 〆霸氣開爺° :佳佳全能視頻格式轉換器超級棒!點一億個讚