在過去的十年中,,數(shù)據(jù)中心業(yè)務(wù)已從以WEB服務(wù)為中心走向以云服務(wù)為中心,,今天,數(shù)據(jù)中心正從云計算時代走向智能時代,。數(shù)字化過程中不斷產(chǎn)生的海量數(shù)據(jù),,如何完成海量數(shù)據(jù)的篩選和有用信息的自動重組,通過AI從海量數(shù)據(jù)中挖掘智慧成為智能時代不變的主題,,云智能時代已經(jīng)到來,。華為GIV(Global Industry Vision)預(yù)測,到2025年,,97%的大企業(yè)將采用AI,,人機協(xié)創(chuàng)無所不在, AI成為企業(yè)數(shù)字化轉(zhuǎn)型的下一站,,利用AI助力決策,、重塑商業(yè)模式與生態(tài)系統(tǒng)、重建客戶體驗的能力將是數(shù)字化轉(zhuǎn)型計劃取得成功的關(guān)鍵推動力,。
數(shù)字化過程中將產(chǎn)生大量的數(shù)據(jù),,華為GIV預(yù)測,,2025年全球存儲數(shù)據(jù)量將高達180ZB,其中非結(jié)構(gòu)化數(shù)據(jù)(比如原始采集的語音,、視頻,、圖片等未加工數(shù)據(jù))比例持續(xù)提高,未來將達到95%以上,,基于人工處理的大數(shù)據(jù)分析處理方法無法應(yīng)對如此的海量數(shù)據(jù),,而基于機器運算進行深度學(xué)習(xí)的AI算法,可以完成海量無效數(shù)據(jù)的篩選和有用信息的自動重組,,從而提供更加高效的決策建議和更加智慧化的行為指引,。云和智能時代企業(yè)DC的使命正在從聚焦業(yè)務(wù)快速發(fā)放向聚焦數(shù)據(jù)高效處理進行轉(zhuǎn)變。
伴隨著AI的熱潮 ,,深度學(xué)習(xí)服務(wù)器集群涌現(xiàn),,以及各種SSD等高性能新型存儲介質(zhì)的發(fā)展,對通信時延提出了更高的要求(us級),。例如金融領(lǐng)域高頻交易(HFT)的性能敏感型環(huán)境中,,低時延是處理巨大交易容量的關(guān)鍵。NASDAQ一筆訂單的最快成交速度是100微秒左右,,通信時延成為數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)需要考慮的首要因素,,需要從兩個方面降低時延:
1、服務(wù)器內(nèi)部通信協(xié)議棧變革首當其沖,。在AI數(shù)據(jù)運算和SSD分布式存儲系統(tǒng)中,,傳統(tǒng)的TCP/IP協(xié)議棧處理所需的數(shù)十微秒固定時延成為明顯的瓶頸,RDMA替代TCP/IP成為大勢所趨,。采用RDMA可以將計算的效率同比提升6~8倍,,而服務(wù)器內(nèi)1us的傳輸時延也使得SSD分布式存儲的時延從ms級降低到us級成為可能,所以在最新的NVMe接口協(xié)議中,,RDMA成為主流的默認網(wǎng)絡(luò)通信協(xié)議棧,。
2、為減少光纖傳輸時延,,需要考慮針對時延敏感應(yīng)用的物理位置就近設(shè)立數(shù)據(jù)中心,,分布式數(shù)據(jù)中心成為新的趨勢。如何快速而有節(jié)奏地提升DCN/DCI帶寬,,并在帶寬提升的同時保證無損網(wǎng)絡(luò)的“0丟包,、低時延、高吞吐”要求,,以匹配業(yè)務(wù)快速發(fā)展的訴求,,成為數(shù)據(jù)中心DCN/DCI方案首先要面對的問題。摩爾定律支撐了數(shù)據(jù)中心帶寬的增長,數(shù)據(jù)中心內(nèi)部互聯(lián)DCN接口即將進入單端口100G+時代,,而作為DC互聯(lián)及DCN出口承載的DCI網(wǎng)絡(luò)也已發(fā)展到10T級的波分互聯(lián),。
小結(jié):面向AI的數(shù)據(jù)運算要求“0丟包、低時延,、高吞吐”的無損網(wǎng)絡(luò),,需要從服務(wù)器內(nèi)部通信協(xié)議變革及數(shù)據(jù)中心互聯(lián)兩方面同時考慮。
數(shù)據(jù)中心互聯(lián)快速部署,、智能簡化運維成為趨勢,,以支撐彈性數(shù)據(jù)中心網(wǎng)絡(luò)運營與擴展
AI、HPC等高性能業(yè)務(wù)對網(wǎng)絡(luò)的依賴度逐漸增強,,無損網(wǎng)絡(luò)的擁塞控制算法需要網(wǎng)卡和網(wǎng)絡(luò)進行協(xié)作,,網(wǎng)絡(luò)從設(shè)計開始就需要考慮到后期運維時如何能夠快速、精準地掌握全網(wǎng)設(shè)備,、鏈路的實時狀態(tài),,用于支撐業(yè)務(wù)的平穩(wěn)運行與擴展。多波長復(fù)用的光纖傳輸系統(tǒng)廣泛應(yīng)用于DCI,,而光模擬信號的業(yè)務(wù)發(fā)放及維護模式不同于普通的數(shù)字網(wǎng)絡(luò),運營商往往配有較為龐大的光網(wǎng)絡(luò)專業(yè)維護團隊,,而ISP及金融行業(yè)數(shù)據(jù)中心網(wǎng)絡(luò)均由IT人員建設(shè)和維護,,人員與經(jīng)驗相對電信運營商有較大差距,快速開通業(yè)務(wù),、快速精準排障成為關(guān)鍵挑戰(zhàn),。隨著數(shù)據(jù)中心建設(shè)規(guī)模的海量增長,數(shù)據(jù)中心互聯(lián)需求倍增,,這一挑戰(zhàn)已成為數(shù)據(jù)中心發(fā)展的關(guān)鍵瓶頸之一,。
1、引入自動規(guī)劃,、自動配置,、智能告警分析系統(tǒng),有助于實現(xiàn)數(shù)據(jù)中心DCI系統(tǒng)簡化運維,。
云業(yè)務(wù)快速發(fā)展和上線,,網(wǎng)絡(luò)頻繁改造擴容,傳統(tǒng)波分的安裝,、連纖,、配置、調(diào)測等需要專業(yè)的規(guī)劃與配置,,自動規(guī)劃與配置工具可以讓運維人員從繁瑣專業(yè)的開局中解放,,自動高效不出錯,支撐業(yè)務(wù)云化快速上線,和頻繁擴容,。相對人工配置,,自動工具除了大幅提升上線效率,還大幅提高配置準確率,。例如傳統(tǒng)人工連纖出錯概率高,,據(jù)統(tǒng)計甚至高達5%,如果一不小心連錯,,業(yè)務(wù)不通從上至下排查原因,,重新檢查校驗就更加耗時費力。
2,、智能運維系統(tǒng)取代傳統(tǒng)網(wǎng)絡(luò)管理系統(tǒng),,實現(xiàn)數(shù)據(jù)中心主動運維
越來越多的應(yīng)用運行在云上,數(shù)據(jù)中心做為數(shù)字化的基礎(chǔ)架構(gòu)重要性不言而喻,,而DCI作為支撐性的基礎(chǔ),,一旦故障影響嚴重。DCI引入高效智能運維,,實現(xiàn)從人工到自動,,從被動到主動的運維轉(zhuǎn)變是必然的選擇。相對傳統(tǒng)的網(wǎng)絡(luò)監(jiān)控系統(tǒng),,智能運維系統(tǒng)通過內(nèi)置光Sensor,,實現(xiàn)光纖網(wǎng)與光系統(tǒng)網(wǎng)絡(luò)全局可視,光網(wǎng)絡(luò)健康度特別是光功率衰減,、光波長漂移等物理參數(shù)的變化提前預(yù)警,,自動分析過濾告警,基于經(jīng)驗庫自動判斷故障根因,,以減少網(wǎng)絡(luò)故障率,,大幅提升網(wǎng)絡(luò)可用率。
小結(jié): 數(shù)據(jù)中心網(wǎng)絡(luò)運維亟須引入自動化配置與維護工具,,以實時調(diào)整配置,,快速定位故障,實現(xiàn)無損網(wǎng)絡(luò)運維智簡化,,以支持云智能時代的數(shù)據(jù)中心業(yè)務(wù)快速發(fā)展,。