ICC訊 OCP(Open Compute Project)全球峰會(huì)匯聚了全球的技術(shù)創(chuàng)新者,共同分享最新的技術(shù)趨勢(shì),展示前沿解決方案,并建立戰(zhàn)略合作伙伴關(guān)系。今年的峰會(huì)于2024年10月14日至17日在美國(guó)加州圣何塞舉行,創(chuàng)下了7,000名參會(huì)者的記錄。來(lái)自世界各地的技術(shù)精英們齊聚一堂,探討未來(lái)的技術(shù)發(fā)展方向。而在這場(chǎng)全球矚目的盛會(huì)上,以阿里云為代表的中國(guó)企業(yè),展示了他們?cè)贏I網(wǎng)絡(luò)架構(gòu)、液冷技術(shù)、SRv6和廣域網(wǎng)等前沿領(lǐng)域的強(qiáng)大創(chuàng)新能力,持續(xù)引領(lǐng)全球合作與技術(shù)創(chuàng)新。
中國(guó)企業(yè)的持續(xù)引領(lǐng)
中國(guó)企業(yè)在2024年OCP峰會(huì)上表現(xiàn)尤為突出,尤其是阿里云、字節(jié)跳動(dòng)、Wiwynn、Micas、Edgecore等公司在技術(shù)創(chuàng)新和展示中的表現(xiàn)引人注目。阿里云以4場(chǎng)網(wǎng)絡(luò)架構(gòu)專題演講和一場(chǎng)SONiC項(xiàng)目演示為亮點(diǎn),深入涵蓋了AI網(wǎng)絡(luò)架構(gòu)、SRv6、性能優(yōu)化等熱門技術(shù)領(lǐng)域。而字節(jié)跳動(dòng)貢獻(xiàn)了3場(chǎng)網(wǎng)絡(luò)相關(guān)的演講,進(jìn)一步推動(dòng)了AI訓(xùn)練集群網(wǎng)絡(luò)的技術(shù)發(fā)展。其他中國(guó)公司也在液冷技術(shù)、交換機(jī)軟件、CPO交換機(jī)等方面展示了全球領(lǐng)先的技術(shù)成果。
AI高性能網(wǎng)絡(luò)集群和架構(gòu)專題
在高密度AI集群下
51.2Tbps交換機(jī)的液冷/風(fēng)冷方案最佳實(shí)踐
阿里云基礎(chǔ)設(shè)施硬件架構(gòu)師朱芳波&博通產(chǎn)品經(jīng)理吳溪光聯(lián)合分享的這一演講,詳細(xì)闡述了在高密度AI集群場(chǎng)景下,51.2Tbps以太網(wǎng)交換機(jī)的最佳散熱解決方案。隨著單機(jī)柜的功耗和熱量密度在過(guò)去五年中增長(zhǎng)了10倍,散熱問(wèn)題成為AI訓(xùn)練集群中的關(guān)鍵挑戰(zhàn)。為了應(yīng)對(duì)這一挑戰(zhàn),演講提出了四種主要解決方案:采用更高帶寬的交換芯片、使用更長(zhǎng)的DAC線纜、部署低功耗的LPO光模塊,以及采用CPO(光電共封裝)交換芯片。
阿里云在自研51.2Tbps交換機(jī)過(guò)程中,探索了兩個(gè)最佳風(fēng)冷方案:一是在控制環(huán)境溫度的基礎(chǔ)上,優(yōu)化散熱設(shè)備的布局,以降低整體散熱成本;二是在高功率密度場(chǎng)景中,通過(guò)精密模擬和調(diào)整,進(jìn)一步優(yōu)化芯片的散熱性能。此外,阿里云還展示了其最新的液冷方案,通過(guò)單冷板設(shè)計(jì)實(shí)現(xiàn)更有效的散熱,同時(shí)降低物料成本。液冷系統(tǒng)在不大幅增加成本的情況下,將系統(tǒng)功耗節(jié)省了800W以上,大大提升了設(shè)備的穩(wěn)定性和性能。
阿里巴巴大規(guī)模
計(jì)算集群的網(wǎng)絡(luò)穩(wěn)定性挑戰(zhàn)與實(shí)踐
阿里云基礎(chǔ)設(shè)施資深技術(shù)專家施學(xué)美&博通杰出工程師Surendra Anubolu則重點(diǎn)介紹了如何提升大規(guī)模計(jì)算集群的網(wǎng)絡(luò)穩(wěn)定性。這一演講針對(duì)阿里巴巴大規(guī)模計(jì)算集群中的網(wǎng)絡(luò)穩(wěn)定性問(wèn)題進(jìn)行了深度探討。在AI/ML訓(xùn)練過(guò)程中,像allreduce、all2all這樣的同步算子使得網(wǎng)絡(luò)的穩(wěn)定性需求極高。阿里云通過(guò)全局流量監(jiān)控、高精度流量分析以及A.M.D(交替DSCP標(biāo)記)方案,顯著提升了AI集群中的網(wǎng)絡(luò)可靠性。高精度流量監(jiān)控技術(shù)可以在亞毫秒粒度內(nèi)捕捉網(wǎng)絡(luò)流量變化,識(shí)別網(wǎng)絡(luò)中的細(xì)微擁塞點(diǎn),并通過(guò)算法優(yōu)化進(jìn)一步減少數(shù)據(jù)包丟失。此外,A.M.D方案通過(guò)在秒級(jí)范圍內(nèi)檢測(cè)數(shù)據(jù)包丟失,確保網(wǎng)絡(luò)中的任何異常都能被快速定位和修復(fù)。
阿里巴巴HPN,
面向大模型訓(xùn)練場(chǎng)景的數(shù)據(jù)中心網(wǎng)絡(luò)
阿里云基礎(chǔ)設(shè)施高級(jí)技術(shù)專家高佳琦分享阿里巴巴針對(duì)大模型訓(xùn)練場(chǎng)景所設(shè)計(jì)的第七代高性能網(wǎng)絡(luò)架構(gòu)(HPN 7.0)。傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)已經(jīng)無(wú)法滿足大模型訓(xùn)練對(duì)網(wǎng)絡(luò)帶寬、穩(wěn)定性和延遲的極高要求。面對(duì)規(guī)模大、流量突發(fā)強(qiáng)、穩(wěn)定性要求高的挑戰(zhàn),阿里巴巴通過(guò)創(chuàng)新的“雙上聯(lián)+多軌+雙平面”設(shè)計(jì),打造了一種新型的數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)。
HPN 7.0架構(gòu)結(jié)合最新一代51.2Tbps單芯片以太網(wǎng)交換機(jī)和400G高性能網(wǎng)卡,并自研了Solar-RDMA和ACCL通信庫(kù),實(shí)現(xiàn)了單層千卡、兩層萬(wàn)卡的高性能互聯(lián)架構(gòu),最大可支持十萬(wàn)卡規(guī)模。在此基礎(chǔ)上,該架構(gòu)提升了大模型訓(xùn)練的整體性能,使得阿里云大模型訓(xùn)練的性能在典型場(chǎng)景下提升了14.9%。
HPN 7.0自2023年9月起在阿里云數(shù)據(jù)中心中大規(guī)模部署,大幅提升了AI集群的訓(xùn)練效率和網(wǎng)絡(luò)穩(wěn)定性,為應(yīng)對(duì)未來(lái)更大規(guī)模的大模型訓(xùn)練提供了堅(jiān)實(shí)的基礎(chǔ)支持。這一創(chuàng)新架構(gòu)不僅優(yōu)化了網(wǎng)絡(luò)性能,還顯著降低了網(wǎng)絡(luò)的延遲和擁塞問(wèn)題,進(jìn)一步鞏固了阿里云在AI基礎(chǔ)設(shè)施領(lǐng)域的領(lǐng)先地位。
大型AI訓(xùn)練集群中的Scheduled Fabric以太網(wǎng)架構(gòu)
字節(jié)跳動(dòng)資深網(wǎng)絡(luò)架構(gòu)師霍朋飛和博通產(chǎn)品經(jīng)理吳溪光共同分享了其在構(gòu)建大規(guī)模AI訓(xùn)練集群網(wǎng)絡(luò)中的創(chuàng)新成果,特別是在Scheduled Fabric以太網(wǎng)架構(gòu)方面的研究。這一架構(gòu)能夠支持上千臺(tái)服務(wù)器的大型集群,確保了數(shù)據(jù)傳輸?shù)母咝院偷脱舆t。Scheduled Fabric技術(shù)通過(guò)時(shí)間調(diào)度和帶寬分配的優(yōu)化,大大提高了網(wǎng)絡(luò)的性能和擴(kuò)展性。在演講中,字節(jié)跳動(dòng)提出了進(jìn)一步標(biāo)準(zhǔn)化該技術(shù)的提案,旨在推動(dòng)整個(gè)行業(yè)在這一領(lǐng)域的合作與發(fā)展。
多平面拓?fù)渲械淖罴堰x路方案
字節(jié)跳動(dòng)網(wǎng)絡(luò)研發(fā)工程師Wenda Ni和博通杰出工程師Jai Kumar共同分享了其在多平面拓?fù)浣Y(jié)構(gòu)中的最新研究成果。在多軌道拓?fù)湎拢W(wǎng)絡(luò)流量會(huì)盡量在單一平面內(nèi)流動(dòng),以最大化鏈路利用率。然而,當(dāng)流量必須跨越多個(gè)軌道時(shí),字節(jié)跳動(dòng)通過(guò)精密的測(cè)量和遠(yuǎn)程鏈路質(zhì)量的分析,優(yōu)化了跨平面連接的效率,從而實(shí)現(xiàn)了彈性擴(kuò)展和最大吞吐率的平衡。此外,字節(jié)跳動(dòng)還展示了光電共封裝交換芯片(CPO)技術(shù)的進(jìn)展,進(jìn)一步提高了大規(guī)模網(wǎng)絡(luò)中的數(shù)據(jù)傳輸效率。
未來(lái)的廣域網(wǎng)與路由技術(shù) Phoenix Wing計(jì)劃–將SONiC SRv6推向部署
在廣域網(wǎng)和路由技術(shù)方面,阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)資深技術(shù)專家阮弋星介紹阿里云通過(guò)Phoenix Wing計(jì)劃展示了其在SRv6部署方面的突破性進(jìn)展。通過(guò)這一計(jì)劃,阿里云旨在推動(dòng)SRv6技術(shù)的廣泛應(yīng)用,并號(hào)召社區(qū)參與開(kāi)發(fā)。阮弋星詳細(xì)介紹了該項(xiàng)目的里程碑、開(kāi)源計(jì)劃以及核心貢獻(xiàn)廠商(如思科、微軟、浪潮)之間的合作情況。此外,阿里云展示了基于vSONiC虛擬測(cè)試平臺(tái)的創(chuàng)新,進(jìn)一步推動(dòng)了SRv6在廣域網(wǎng)中的落地與應(yīng)用。
展臺(tái):
SONiC demo-Prefix Independent Convergence.
另外,在大會(huì)展廳的SONiC展臺(tái)上,阿里云與智邦集團(tuán)的工程師們對(duì)SONiC在網(wǎng)絡(luò)故障快速恢復(fù)中的優(yōu)化進(jìn)行了精彩演示。通過(guò)代碼優(yōu)化,阿里云成功將網(wǎng)絡(luò)故障恢復(fù)時(shí)的丟包窗口從近一分鐘縮短至2毫秒。這一成果不僅顯著提升了網(wǎng)絡(luò)的穩(wěn)定性,還贏得了參會(huì)者的廣泛關(guān)注和好評(píng)。
總結(jié)
此次2024 OCP全球峰會(huì),以阿里云、字節(jié)跳動(dòng)等公司為代表的中國(guó)企業(yè)大放異彩,不僅展示了強(qiáng)大的技術(shù)實(shí)力,也通過(guò)創(chuàng)新與全球合作,推動(dòng)了AI基礎(chǔ)設(shè)施和網(wǎng)絡(luò)架構(gòu)的進(jìn)步。在未來(lái),中國(guó)企業(yè)有望在全球科技舞臺(tái)上扮演越來(lái)越重要的角色,為技術(shù)進(jìn)步貢獻(xiàn)更多力量。