Iccsz訊 數(shù)據(jù)中心的系統(tǒng)互連架構(gòu)設(shè)計(jì)和物理布線互連設(shè)計(jì)日益成為數(shù)據(jù)中心的焦點(diǎn)?;诠饣ミB速率和密度的不斷升級(jí)展望,人們對(duì)數(shù)據(jù)中心的架構(gòu)設(shè)計(jì)和投資成本回報(bào)性產(chǎn)生了躊躇和疑慮。數(shù)據(jù)中心的系統(tǒng)設(shè)計(jì)橫跨了多個(gè)學(xué)科,確實(shí)很少人能對(duì)數(shù)個(gè)學(xué)科的未來(lái)都有精確的預(yù)計(jì)?;诓煌鎯?chǔ)量和不同計(jì)算量的數(shù)據(jù)中心理應(yīng)有不同的設(shè)計(jì)模型,希望本文對(duì)鏈路采用平行和波分復(fù)用的架構(gòu)討論能夠厘清一些思路,帶來(lái)更多有益的思考。
數(shù)據(jù)中心是一個(gè)含混的概念。它不僅僅包括計(jì)算機(jī)系統(tǒng)和其它與之配套的設(shè)備(例如通信和存儲(chǔ)系統(tǒng)),還包含冗余的數(shù)據(jù)通信連接、環(huán)境控制設(shè)備、監(jiān)控設(shè)備以及各種安全裝置。因此我們?cè)诳剂?A href="http://m.3xchallenge.com/site/CN/Search.aspx?page=1&keywords=%e6%95%b0%e6%8d%ae%e4%b8%ad%e5%bf%83&column_id=ALL&station=%E5%85%A8%E9%83%A8" target="_blank">數(shù)據(jù)中心設(shè)計(jì)的時(shí)候必須基于計(jì)算能力、存儲(chǔ)能力,互連能力,以及環(huán)境控制和監(jiān)控能力來(lái)做對(duì)應(yīng)的設(shè)計(jì),這些設(shè)計(jì)無(wú)疑將帶來(lái)計(jì)算成本、存儲(chǔ)成本,互連成本,以及環(huán)境控制和監(jiān)控的成本。如果我們不清晰地依據(jù)當(dāng)前的技術(shù)以及當(dāng)前的需求,結(jié)合未來(lái)需求和未來(lái)技術(shù)展望性做出合理的規(guī)劃,數(shù)據(jù)中心會(huì)成為一個(gè)巨大燒錢(qián)的倉(cāng)庫(kù)。數(shù)據(jù)中心一旦建成,其是不可逆的。架構(gòu)設(shè)計(jì)師必須非常小心!
在數(shù)據(jù)中心內(nèi),普遍建議的光互連方案如下:
基于系統(tǒng)對(duì)運(yùn)算和傳輸速率的不同,系統(tǒng)設(shè)備的內(nèi)連可以采用10G AOC(300米鏈路),4*10G AOC(300米鏈路) 和4*25G AOC(100米鏈路) 以及100G PSM4 技術(shù)(500米到2公里)。近年來(lái)海量數(shù)據(jù)中心更引入CWDM4(2公里鏈路)作為減少光纖數(shù)量管理的手段。由于不同方案會(huì)帶來(lái)不同的性能和成本,我們認(rèn)為:鏈路采用多模光互連技術(shù)是最成熟和最合理的方案,按照目前的成本估量,40G 多模鏈路的成本是10G 多模鏈路成本的2.5-3.0倍,而100G 多模鏈路大約是40G 的2.5-3.0倍,其中40G/100G 多模鏈路采用的均是MPO 多模光纖,意味著從40G 到100G 可以實(shí)現(xiàn)技術(shù)的平滑升級(jí),并不需要觸動(dòng)現(xiàn)有的網(wǎng)絡(luò)布線架構(gòu)。
人們之前一直擔(dān)憂多模VCSEL的技術(shù)瓶頸到25GB/b將是極限,從而對(duì)多模數(shù)據(jù)中心的可延伸性產(chǎn)生了顧慮,近而放棄多模數(shù)據(jù)中心架構(gòu)直接采用理論上(注意是理論上)可一直擴(kuò)展升級(jí)的單模數(shù)據(jù)中心架構(gòu)??墒亲罱难芯勘砻?,50G VCSEL NRZ技術(shù)并不是問(wèn)題,在同樣的QSFP28封裝空間內(nèi),可以輕松地實(shí)現(xiàn)8*25G AOC光互連。這使得系統(tǒng)架構(gòu)面向8*25G 和4*50G根本不是問(wèn)題??赡苋藗冞M(jìn)一步會(huì)擔(dān)心400G VCSEL 技術(shù)可行性,目前盡管我們沒(méi)有結(jié)論,但是400G VCSEL遇到的技術(shù)瓶頸和單模400G遇到的技術(shù)瓶頸是相同的。某種意義上,是錯(cuò)覺(jué)打亂了人們的眼睛,就已知的知識(shí),200G VCSEL AOC將進(jìn)一步縮短傳輸距離(估計(jì)是50米),但是康寧的OM5光纖可以很好地彌補(bǔ)這一缺陷。問(wèn)題當(dāng)然還在于,采用OM5光纖將需要更換現(xiàn)有的布線架構(gòu)。但是這個(gè)問(wèn)題和其它問(wèn)題是糾結(jié)在一起的,并不適合單項(xiàng)的做結(jié)論,它需要就其它技術(shù)做權(quán)衡取舍。
PSM4技術(shù)是對(duì)多模100G數(shù)據(jù)中心的補(bǔ)充。目前業(yè)界低估了PSM4技術(shù)的潛在性,而把焦點(diǎn)放在了CWDM4技術(shù)上,這或許多少有些誤區(qū)。PSM4技術(shù)采用的是單模MPO光纖傳輸,目前的傳輸距離到2KM非常輕松,而不是行業(yè)標(biāo)準(zhǔn)的500米,其實(shí)PSM4技術(shù)應(yīng)該是10KM傳輸?shù)囊?guī)格,只是業(yè)內(nèi)對(duì)于它的應(yīng)用幾乎是不假思索的定義為2KM。這是一個(gè)焦點(diǎn)被轉(zhuǎn)移后錯(cuò)誤的認(rèn)知,從一開(kāi)始,分布式計(jì)算和并行傳輸就應(yīng)該是這個(gè)領(lǐng)域的綱領(lǐng)性標(biāo)準(zhǔn)。100G PSM4的成本應(yīng)該是100G VCSEL的3倍。只要人們?cè)敢?未來(lái)可能降低到1.5-2倍水平。相對(duì)于100G CWDM4技術(shù),PSM4技術(shù)使用了4倍光纖數(shù)量,光纖的成本可以假設(shè)為零,系統(tǒng)設(shè)計(jì)者考慮最多的是:一、光纖資源的有限性和日后可擴(kuò)容性;二、數(shù)據(jù)機(jī)房的布線成本。
細(xì)致討論這些集合不同領(lǐng)域的知識(shí)和見(jiàn)解 做一個(gè)建設(shè)性結(jié)論
光纖傳輸之所以采用粗波分復(fù)用和密集粗波分復(fù)用是由于已經(jīng)布設(shè)的光纜資源的有限性,所以設(shè)計(jì)者考慮用波分復(fù)用設(shè)備替代單波長(zhǎng)設(shè)備。在光纖資源并不緊張的情況下,這種空分復(fù)用技術(shù)本身是增加成本的,因?yàn)楣饫w成本接近于零,如果空間建筑允許,第一次布設(shè)的時(shí)候應(yīng)該布設(shè)足夠的光纖以便于日后擴(kuò)容采用。數(shù)據(jù)中心和骨干城域網(wǎng)不同,骨干城域網(wǎng)的光纜建設(shè)已經(jīng)完成,不管是之前思慮不周還是沒(méi)有了望到更長(zhǎng)遠(yuǎn)的需求,地底下被埋設(shè)的光纜資源都是有限的,因此必須啟用波分復(fù)用技術(shù)。但是數(shù)據(jù)中心不同,數(shù)據(jù)中心屬于第一次建設(shè),它不需要采用未來(lái)還不明確的在哪種速率和帶寬下的波分復(fù)用技術(shù)。不能為波分復(fù)用而去做波分系統(tǒng),波分復(fù)用僅是對(duì)現(xiàn)有光纖資源的一個(gè)有效利用手段,這個(gè)手段需要付出很多成本代價(jià),但是在現(xiàn)在的需求看來(lái)基本是沒(méi)有必要付出的。波分復(fù)用僅是同一種速率下的密度升級(jí),按照現(xiàn)有的模塊與系統(tǒng)設(shè)計(jì),它的第一次部署等同于喧賓奪主或者本木倒置,必將阻礙系統(tǒng)的速率和帶寬升級(jí)。
現(xiàn)有的100G CWDM4模塊是無(wú)法直接升級(jí)到200G與400G的。常規(guī)的波分復(fù)用系統(tǒng)可以被升級(jí),是因?yàn)橛性春蜔o(wú)源被分割成兩個(gè)獨(dú)立的系統(tǒng)。無(wú)源是和速率波長(zhǎng)無(wú)關(guān)的,所以可以自由升級(jí)。現(xiàn)在的數(shù)據(jù)中心CWDM4模塊集成了有源和無(wú)源技術(shù),好處是空間緊湊,壞處也是明顯的,這個(gè)架構(gòu)根本無(wú)法直接更換一個(gè)更高速率或更多波長(zhǎng)(如8波,16波)的模塊,意味著當(dāng)系統(tǒng)需要升級(jí)的時(shí)候。我們過(guò)去為CWDM4而CWDM4的成本都打了水漂。因?yàn)椴捎肞SM4同樣可以實(shí)現(xiàn)光連接,且成本更低。按目前的直接材料成本和制成費(fèi)用核算,單個(gè)CWDM4成本是PSM4的1.35-1.5倍。這些多出的成本對(duì)于現(xiàn)在的系統(tǒng)運(yùn)作毫無(wú)意義。
現(xiàn)有CWDM4模塊對(duì)數(shù)據(jù)中心系統(tǒng)增加了可靠性風(fēng)險(xiǎn),緊湊型CWDM4模快存在溫飄和可靠性問(wèn)題,CWDM4的規(guī)模部署需要數(shù)據(jù)中心將機(jī)房溫度嚴(yán)格設(shè)定在估計(jì)15-50-度的范圍,否則可能出現(xiàn)由于溫飄和光芯片可靠性招致的嚴(yán)重誤碼現(xiàn)象。如果機(jī)房的水冷和空調(diào)系統(tǒng)一旦間歇性失靈.數(shù)據(jù)中心將出現(xiàn)災(zāi)難。CWDM4模塊需要一個(gè)更可靠的工作環(huán)境帶給系統(tǒng)巨大的能耗(PDU增大),如果僅僅因?yàn)槭褂肅WDM4模塊而必須犧牲巨大的能耗,這些能耗的損失將在一個(gè)月內(nèi)使所有模塊的購(gòu)買(mǎi)成本增大一倍。就我們已經(jīng)做過(guò)的驗(yàn)證,4*25G CWDM CHIP業(yè)內(nèi)還沒(méi)有絕對(duì)的可靠性保證。任何一路的可靠性將影響到四路也就是整個(gè)模塊的可靠性。CWDM4的可靠性隱患包括:CWDM光芯片的可靠性,自由空間發(fā)射結(jié)構(gòu)的可靠性或AWG的溫漂性。我們知道CWDM4技術(shù)正在進(jìn)步,但是到目前為止,大家都在閉著眼睛過(guò)河。
CWDM4的光纖是否帶來(lái)了光纖資源的節(jié)約和長(zhǎng)期性升級(jí)時(shí)候的一勞永逸?沒(méi)那么簡(jiǎn)單!當(dāng)我們做系統(tǒng)設(shè)計(jì)的時(shí)候一定要考慮到在一開(kāi)始,光纖資源就必須按照平行架構(gòu)去布置,而不要思考光纖復(fù)用的問(wèn)題,因?yàn)樵诖藭r(shí)考慮復(fù)用是沒(méi)有意義的。我們根本不知道未來(lái)的技術(shù)需要多少光纖資源。把一個(gè)PSM4模塊升級(jí)到PSM8和把一個(gè)CWDM4模塊升級(jí)到CWDM8,理論上都需要仍掉現(xiàn)在的PSM4模塊和CWDM4模塊(很顯然這個(gè)情況下仍掉的錢(qián)是不同的)。把一個(gè)PSM4模塊升級(jí)到PSM8確實(shí)需要?jiǎng)佑?根光纖,但是這個(gè)升級(jí)遭遇的技術(shù)瓶頸是更簡(jiǎn)單低成本的。只要有需求,我們事實(shí)上在任何時(shí)候可以把一個(gè)PSM4模塊升級(jí)到CWDM4從而有效地利用光纖資源。人們會(huì)說(shuō),如果不是現(xiàn)在,而是將來(lái)把100G PSM4升級(jí)到100G CWDM4,那不是白白損失了一個(gè)PSM4模塊嗎?我們?cè)谥耙呀?jīng)分析過(guò),PSM4??斓哪芎暮凸芾沓杀具h(yuǎn)遠(yuǎn)為數(shù)據(jù)中心建造者賺回了不止10個(gè)CWDM4模塊.并且由于PSM4模塊的可靠性,拆卸下來(lái)的模塊仍然可以被利用于其它新建的系統(tǒng)。雖然沒(méi)有精確的計(jì)算,但是PSM4模塊的好處是非常多的:傳輸?shù)耐餍?無(wú)溫飄,可靠性更高,以及在某些情況下輕易地實(shí)現(xiàn)通道的分流監(jiān)測(cè).
我們需要再次強(qiáng)化一個(gè)概念,波分復(fù)用技術(shù)是空分復(fù)用技術(shù),它和系統(tǒng)速率和帶寬毫無(wú)關(guān)系。系統(tǒng)架造師如果把波分復(fù)用技術(shù)和系統(tǒng)從40G/100G向200G/400G 升級(jí)的相關(guān)技術(shù)融作一體考量的時(shí)候,就必然陷阱兩種不同技術(shù)思維的誤區(qū),招致錯(cuò)誤的結(jié)論。波分復(fù)用技術(shù)的價(jià)值僅在于對(duì)現(xiàn)有光鏈路的改造以及資源非常緊張的應(yīng)用(比如租用光纖資源的成本和稀缺性),它不能被視作一個(gè)初始技術(shù)。讓我們進(jìn)一步闡釋,一個(gè)數(shù)據(jù)中心鏈路通常包括四種架構(gòu)設(shè)計(jì):設(shè)備架構(gòu)、布線架構(gòu)、升級(jí)架構(gòu)和擴(kuò)容架構(gòu)。
設(shè)備架構(gòu):保證系統(tǒng)采用何種速率和吞吐率,只能基于現(xiàn)有的技術(shù)
布線架構(gòu):保證系統(tǒng)需要多少光纖資源,必須一次性想好道路的寬度
升級(jí)架構(gòu):系統(tǒng)從低速率(如10G/40G)向高速率(如100G/200G/400G演進(jìn)的技術(shù)路徑和成本
擴(kuò)容架構(gòu):如何利用空分復(fù)用技術(shù)把現(xiàn)有系統(tǒng)提升系統(tǒng)的容量和密度
對(duì)于擴(kuò)容架構(gòu),我們有必要做進(jìn)一步的論證,如下圖是兩個(gè)典型數(shù)據(jù)中心波分復(fù)用光互連架構(gòu)
(A) 方案是有源和無(wú)源分離的設(shè)計(jì)方案
(B) 方案類(lèi)似現(xiàn)在100G CWDM4 數(shù)據(jù)中心的結(jié)構(gòu)
我們很容易發(fā)現(xiàn),就系統(tǒng)升級(jí)而言,A方案僅需要更換交換路由設(shè)備,而B(niǎo)方案的升級(jí)將只剩下光纜可以被再度利用。所以我們傾向認(rèn)為現(xiàn)有CWDM4數(shù)據(jù)中心因?yàn)橹\求更緊湊的設(shè)備,導(dǎo)致了升級(jí)成本的根本上升。因?yàn)槌斯饫|,什么也無(wú)法留下。即便我們認(rèn)為這些被留下的光纜一定可被再利用進(jìn)入下一代數(shù)據(jù)中心也是值得商榷的,下一代數(shù)據(jù)中心比如400G數(shù)據(jù)中心,如果采用FR8或LR8,這個(gè)波長(zhǎng)是1550NM色散位移光纖,而現(xiàn)在的100G CWDM4是采用1310nm的光纜。
數(shù)據(jù)中心作為一個(gè)蓬勃發(fā)展的新事物,有太多值得討論的空間,本文最后的推薦結(jié)論是:
1)多模數(shù)據(jù)中心仍然是數(shù)據(jù)中心發(fā)展的核心。不但因?yàn)槌杀?,也因?yàn)榧夹g(shù)的可靠性.多模數(shù)據(jù)中心可以說(shuō)是為數(shù)據(jù)中心而生。
2)在長(zhǎng)距離數(shù)據(jù)中心發(fā)展上,PSM4技術(shù)優(yōu)于CWDM4,PSM8技術(shù)優(yōu)于CWDM8,以此類(lèi)推。數(shù)據(jù)中心適宜定位平行技術(shù)作為主流,至少這個(gè)布局不會(huì)是一個(gè)全輸?shù)挠螒?。并行技術(shù)不但透明且易于做OMA管理。
3)除非情不得已,數(shù)據(jù)中心采用NRZ技術(shù)演進(jìn)是最可靠和低成本的。有時(shí)候我們要考慮,一旦數(shù)據(jù)中心被PAM4主導(dǎo),它的下一步是PAM8/PAM16嗎?這樣的話系統(tǒng)將變得越來(lái)越不透明和難于管理。如果我們采用PSM4+PAM4的結(jié)構(gòu)一定優(yōu)于CWDM4+PAM4的結(jié)構(gòu)。
4)目前采用集成CWDM4技術(shù)做數(shù)據(jù)中心的第一次部署從一開(kāi)始就把數(shù)據(jù)中心定義為過(guò)渡型而非固定型。這個(gè)理念需要修正。我認(rèn)為這正是專業(yè)人士和非專業(yè)人士的分界點(diǎn)。從我接觸光通信時(shí)候起,我們就知道CWDM屬于一種增容的技術(shù)。目前的CWDM4技術(shù)界于離散和集成之間,并不成熟,而且無(wú)法擴(kuò)充到8波或16波,這極大限制了CWDM系統(tǒng)地?cái)U(kuò)容能力,CWDM4作為數(shù)據(jù)中心第一次部署并不恰當(dāng).客觀上,這種技術(shù)的第一次部署是限制了系統(tǒng)的可能性與靈活性,帶來(lái)事與愿違的成本上升,必須十分謹(jǐn)慎!
結(jié)語(yǔ):數(shù)據(jù)中心的平行架構(gòu)和CWDM架構(gòu)頗有點(diǎn)宇宙和哲學(xué)的意味,把這個(gè)問(wèn)題講清楚頗費(fèi)腦筋,CWDM技術(shù)是平行技術(shù)的延伸,而非對(duì)抗性技術(shù)。有多少個(gè)平行宇宙就有多少種CWDM宇宙。如果平行宇宙不存在,CWDM宇宙將很快塌縮到?jīng)]有發(fā)展空間,或者我們從另外一個(gè)意義上看,平行=簡(jiǎn)單。