ICC訊(編輯:Aiur) 近年來,全球互聯(lián)網(wǎng)流量持續(xù)劇增,推動數(shù)據(jù)中心規(guī)模數(shù)量的增長,同時面對網(wǎng)絡(luò)海量的數(shù)據(jù)傳輸,數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)演進和容量升級勢在必行。為了獲得更好的成本效益,數(shù)據(jù)中心運營商還需要在運維機制方面進行大量的研究分析,不斷探索一個合適的性能、穩(wěn)定性和成本方案,光通信器件獨立運維管理的重要性與日俱增。
5月29日,訊石信息咨詢舉辦的線上研討會—“探討后疫情時代新基建下的光通信發(fā)展機遇”,美團點評高級網(wǎng)絡(luò)工程師,數(shù)據(jù)中心專家張璋發(fā)表《數(shù)據(jù)中心演進發(fā)展對光通信器件模塊的影響》線上報告,介紹了網(wǎng)絡(luò)演進對光模塊的影響,以及站在大型數(shù)據(jù)中心的角度看待光模塊運維管理。
網(wǎng)絡(luò)演進對光模塊的影響
張璋介紹,諸如AI、AR/VR和物聯(lián)網(wǎng)等新興應(yīng)用的出現(xiàn),讓互聯(lián)網(wǎng)數(shù)據(jù)流量呈現(xiàn)出爆發(fā)式增長,數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)和容量等也面臨更苛刻的挑戰(zhàn)。業(yè)界正將多平面CLOS網(wǎng)絡(luò)架構(gòu)逐步發(fā)展為數(shù)據(jù)中心網(wǎng)絡(luò)的架構(gòu)主流,傳統(tǒng)10G網(wǎng)絡(luò)也正向25G網(wǎng)絡(luò)演進。美團數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)演進總體為四代,即MT-NET 1.0-4.0。2018年以前是MT-NET 1.0和2.0網(wǎng)絡(luò)架構(gòu),其接入形式為銅纜,互聯(lián)帶寬為10G-40G,服務(wù)器接入帶寬為1G或10G。2018-2020年,美團采用第三代的MT-NET 3.0,接入形式換成AOC,互聯(lián)帶寬達到100G,服務(wù)器接入帶寬為25G。
眾所周知,數(shù)據(jù)中心網(wǎng)絡(luò)演進周期比電信和接入領(lǐng)域更短,美團數(shù)據(jù)中心也正向第四代(MT-NET 4.0),其接入形式將是AOC和DAC混用,DAC的占比會更大,互聯(lián)帶寬面向400G,服務(wù)器接入帶寬將選擇100G/200G。張璋認為,隨著網(wǎng)絡(luò)架構(gòu)升級,傳統(tǒng)框式交換機正逐步被盒式交換機替代,在同一數(shù)據(jù)中心內(nèi)部場景中,多平面CLOS架構(gòu)(131072只光模塊)相比10G網(wǎng)絡(luò)(2016只光模塊),光模塊數(shù)量增長了65倍。
成本敏感的數(shù)據(jù)中心面對龐大的模塊數(shù)量時必須使成本進一步降低,交換機和光模塊逐步解耦將是趨勢,讓模塊廠商直接向數(shù)據(jù)中心客戶出貨。當然,這種做法會提高數(shù)據(jù)中心運維難度,以常用的100G SR4/CWDM4和LR4為例,當故障發(fā)生時,網(wǎng)絡(luò)廠商和模塊廠商會存在問題界定不清的現(xiàn)象,如果缺少有效的統(tǒng)一管理模式,模塊批次問題將難以發(fā)現(xiàn)。因此,多類型多廠商模塊管理將是數(shù)據(jù)中心演進過程的重點課題。
大型數(shù)據(jù)中心的光模塊管理
隨著400G/800G樣品出現(xiàn)或逐步出貨,預(yù)計到2021年,400G網(wǎng)絡(luò)架構(gòu)將逐步商用,光模塊市場規(guī)模也將在2023年達到120億美元以上,新類型光模塊的在密度、功耗、性能和穩(wěn)定上面臨更高要求,未來光模塊將是運維管理中的重要一環(huán)。那美團對光模塊運維管理是怎么做?據(jù)張璋介紹,美團中心自主研發(fā)一套光模塊生命周期管理,分為六大部分,即光模塊POC、灰度測試、線上信息采集、異常光模塊預(yù)測、自愈系統(tǒng)和數(shù)據(jù)運營。
一、光模塊POC,其分為四個階段,第一階段要建立POC協(xié)同群,滿足快速溝通應(yīng)答,廠商準備產(chǎn)品組建,配合后續(xù)測試第二階段以廠商環(huán)境測試為主,涉及溫巡、壓測等環(huán)節(jié);第三階段要做整體工作分析總結(jié),輸出測試結(jié)果;第四階段是美團自測,在自有測試環(huán)境中現(xiàn)場比對,并據(jù)實統(tǒng)計。
二、灰度測試,指將光模塊放在一個測試POD內(nèi),待測模塊不超過總量的八分之一,測試模塊類型字段、序列號、生產(chǎn)日期、診斷日期、廠商字段、編碼字段以及光纖類型字段,還有Telemtry測試,包括溫度、電流、電壓、收光功率和發(fā)光功率。
三、線上信息采集,從設(shè)備層下沉至光模塊,利用SSH和Telemtry將光模塊基本信息采集至數(shù)據(jù)庫。由于模塊標準眾多,以及解耦帶來的光模塊獨立運維,光模塊單獨信息采集尤為重要。
四、光模塊監(jiān)控,美團從單點監(jiān)控轉(zhuǎn)變?yōu)橐唤M收發(fā)(本端和對端)觀察,美團為每臺交換機構(gòu)建“端口鄰居”數(shù)據(jù)庫,查看本端光模塊收發(fā)信息時,可以同步展示對端光模塊信息。
五、光模塊異常預(yù)測與自愈,美團將光模塊故障場景歸納為三種:端口閃斷,秒級恢復(fù);端口反復(fù)抖動;端口異常down。端口反復(fù)抖動是常規(guī)監(jiān)控手段難以發(fā)現(xiàn),美團專門為其探索一種光模塊預(yù)測方式,通過對交換機日志和光模塊數(shù)據(jù)進行分析,預(yù)判哪些端口模塊會出現(xiàn)異常,從而防患于未然。
張璋進一步介紹,IEEE802.3ba-2010中制定了100G以太網(wǎng)物理層接口規(guī)范,并定義了本端故障/遠端故障(Local Fault/Remote Fault,簡稱LF/RF)。當RS層發(fā)出LF/RF告警時,對應(yīng)的物理層將會出現(xiàn)異常,交換機可以上報相應(yīng)log日志,相應(yīng)的光模塊就有可能處于亞健康狀態(tài),所以交換機上報的LF/RF日志可以作為光模塊異常信號。
六、光模塊故障數(shù)據(jù)分析,自愈系統(tǒng)與預(yù)測系統(tǒng)結(jié)合,可以在第一時間自動切掉流量,極大降低端口持續(xù)故障影響業(yè)務(wù)的可能性。對故障模塊原因和故障模塊類型進行分析,可以發(fā)現(xiàn)發(fā)光器異常占了70%,CMDM4類型模塊占比最大超過了50%,所以需要在下一個POC階段對CWDM4模塊的發(fā)光器件進行重點測試。通過對100G光模塊的故障管理,我們可以發(fā)現(xiàn)發(fā)光器件屬于易損部件,在后續(xù)400G迭代中需要重點關(guān)注。
張璋最后表示,隨著數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)和光模塊正在向400G架構(gòu)演進,美團數(shù)據(jù)中心后續(xù)將注重AIOPS和光模塊運維,利用機器學(xué)習(xí)分析告警閾值,對網(wǎng)絡(luò)、設(shè)備、光模塊、光傳輸?shù)雀嗑毺卣髦笜水惓0l(fā)現(xiàn)及在線趨勢預(yù)測,并做數(shù)據(jù)故障分析,結(jié)合業(yè)內(nèi)數(shù)據(jù)、大數(shù)據(jù)分析及專家經(jīng)驗和知識圖譜,分析光模塊異常趨勢。