在數(shù)據(jù)中心不停運轉過程中,不可避免的會出現(xiàn)各種問題,比如說網(wǎng)絡發(fā)生信息不通,網(wǎng)頁不能瀏覽這些連通性故障時,故障顯現(xiàn)很容易檢查和定位,解決起來并不難。但是如果網(wǎng)絡是通的,只是網(wǎng)速比較慢,這樣的"軟"故障,往往令人頭痛,束手無策。光潤通小編教大家一個快速定位問題解決問題的思路,這樣就可以幫助我們在日常維護中有條不紊地找到問題的真實原因。
第一、檢查設備CPU占用率
數(shù)據(jù)中心的設備少說幾百個,多則上萬個,我們不可能人工一個個去檢查CPU。因此我們先要確認哪個業(yè)務變慢了,再確定這個業(yè)務在數(shù)據(jù)中心里需要經(jīng)過哪些設備,然后檢查這些設備的CPU占用率。如果我們有網(wǎng)軟軟件,通過設置CPU閾值,則可以輕松監(jiān)控所有設備的CPU占用率,迅速發(fā)現(xiàn)CPU異常設備。光潤通小編提醒大家,一般來說,如果設備CPU占用率在40%以內,基本沒有什么問題,如果超過60%,那么建議你最好看一下設備是不是受到了網(wǎng)絡攻擊,有時網(wǎng)絡攻擊不僅會影響網(wǎng)速變慢,甚至會中斷業(yè)務。網(wǎng)管可以監(jiān)控可疑的端口,網(wǎng)絡流量異常的這一段時間,通過網(wǎng)絡流量變化會看到突起突落,明顯的人為痕跡。根據(jù)對以上可疑現(xiàn)象的分析,初步定位網(wǎng)絡業(yè)務中斷事故是人為攻擊造成,證明的確是有網(wǎng)絡攻擊。
第二、日志信息和其它異常信息
現(xiàn)在電子設備的可維護性都比較好,運行時如果出現(xiàn)端口下降,配置錯誤,硬件問題,這些簡單的故障都會打印出非常明確的異常記錄,提示用戶設備哪里出了問題,便于客戶解決問題。對于廣播流量較多的數(shù)據(jù)中心,要注意設備的端口流量是不是有異常,是不是出現(xiàn)了網(wǎng)絡環(huán)路,網(wǎng)絡環(huán)路是在數(shù)據(jù)中心經(jīng)常發(fā)生的網(wǎng)絡故障。主要是由于設備故障、STP/RRPP等二層環(huán)路協(xié)議失效、人為錯誤配置導致的。這類問題通過觀察端口的流量很好排除。因此,要檢查這些設備的日志和異常信息記錄。
第三、利用ping來檢驗業(yè)務是否正常
ping是用來診斷網(wǎng)絡故障最簡單的方法,現(xiàn)在網(wǎng)絡上流行的Xping、Multiping、網(wǎng)管軟件等都是基本ping功能實現(xiàn)的,通過ping業(yè)務沿路的各個設備就可以迅速判定故障設備。一般ping的結果基本會顯示出哪個設備可能存在網(wǎng)絡問題。
第四、檢查端口雙工的狀態(tài)。
服務器的網(wǎng)卡、網(wǎng)絡設備端口、防火墻端口等設備的工作方式可以為全雙工或者半雙工。
當服務器、交換機的工作狀態(tài)不匹配,比如說服務器、工作站網(wǎng)卡被設置為全雙狀態(tài),而交換機等卻工作在半雙工時,就會產(chǎn)生大量碰撞幀和一些FCS校驗錯誤幀,訪問速度會變得超級慢。因此從服務器上拷貝一個100Mb的文件可能需要30分鐘,所以網(wǎng)速變慢也要檢查下設備端口雙工是不是存在不一致的問題。
第五、檢查網(wǎng)線、光纖、光模塊這些互連器件的問題
網(wǎng)線的制作方式對網(wǎng)絡傳輸速度的影響是非常大的,如果不按照正規(guī)的標準制作網(wǎng)線,那么來自網(wǎng)線自身的背景噪音以及內部串擾就會降低網(wǎng)絡傳輸速度。還有光纖和光模塊如果質量不佳,容易產(chǎn)品大量的錯包,影響網(wǎng)速。還有的光模塊收發(fā)功率不穩(wěn)定,導致傳輸?shù)臄?shù)據(jù)出現(xiàn)問題,這些故障都是容易影響網(wǎng)速慢的最常見的原因。在數(shù)據(jù)中心里,幾乎天天都會有更換網(wǎng)線、光纖或光模塊的工作。這些都是易消耗的器件。目前光潤通品牌的光網(wǎng)卡、光模塊,在數(shù)據(jù)中心擁有80%的占有率,產(chǎn)品全部軍工級品質、支持熱插拔、兼容不同各大品牌交換機,像北京電視臺,二炮,航天五院,航天三院等都用到了光潤通的GRT產(chǎn)品。
第六、端口UP/DOWN問題
如果出現(xiàn)了端口的UP/DOWN,自然會引起業(yè)務時斷時續(xù),網(wǎng)速就慢。造成端口出現(xiàn)UP/DOWN的原因也可能是多方面的。比如:光纖架、跳線架有問題,鏈路質量不好;網(wǎng)線,光纖出了問題;設備兩端配置速率雙工不一致等等都會造成端口的UP/DOWN,一般的設備端口出現(xiàn)了UP/DOWN都會有記錄,或者在網(wǎng)管上有記錄,這樣用戶就可以通過檢查記錄,迅速排除掉故障。
第七、對比測試
通過業(yè)務測試。比如玩?zhèn)髌嬗螒蚩ǎ嫫渌螒驔]有問題,那一般是傳奇服務器的問題。另外,為何明確故障問題,還可以在上游設備上的一個業(yè)務端口下FTP本地網(wǎng)絡的一個大文件,在本地設備上的一個業(yè)務口下同時FTP同一網(wǎng)站的同一電影文件,比較下載速度,立刻可以知道本地設備有沒有問題。
第八、檢查是否應用服務器是否有病毒
蠕蟲、紅色代碼、藍色代碼、尼姆達等病毒,可使計算機運行變慢,造成網(wǎng)絡堵塞。比如說蠕蟲病毒對網(wǎng)絡速度的影響非常嚴重,危害性極大。這種病毒導致被感染的用戶只要一上網(wǎng)就不停地往外發(fā)郵件,成百上千的這種垃圾郵件有的排著隊往外發(fā)送,有的又成批成批地被退回來堆在服務器上,造成服務器繁忙或者數(shù)據(jù)中心網(wǎng)路擁塞,網(wǎng)速變慢。所以,需要在數(shù)據(jù)中心內部署防火墻設備,在服務器上安裝殺毒軟件,并保持實時更新。周期性地檢查服務器是否有中病毒的情況。
數(shù)據(jù)中心網(wǎng)速慢是一個比較復雜問題,隨著網(wǎng)絡規(guī)模的不斷擴大和應用的復雜,網(wǎng)絡安全問題越來越多,這類問題也越來越不好分析。對于出現(xiàn)網(wǎng)速變慢的故障時,可以采用以上的八個步驟去一一排查,在絕大多數(shù)情況下,都可以解決問題。如果通過這些步驟仍找不出異常的地方,那就需要專業(yè)的技術人員深入分析了,可能需要資深的網(wǎng)絡專家或者設備廠家的工程師進一步深入排查。