在數(shù)據(jù)中心不停運轉(zhuǎn)過程中,不可避免的會出現(xiàn)各種問題,,比如說網(wǎng)絡(luò)發(fā)生信息不通,,網(wǎng)頁不能瀏覽這些連通性故障時,故障顯現(xiàn)很容易檢查和定位,,解決起來并不難,。但是如果網(wǎng)絡(luò)是通的,只是網(wǎng)速比較慢,,這樣的"軟"故障,,往往令人頭痛,束手無策,。光潤通小編教大家一個快速定位問題解決問題的思路,,這樣就可以幫助我們在日常維護中有條不紊地找到問題的真實原因。
第一,、檢查設(shè)備CPU占用率
數(shù)據(jù)中心的設(shè)備少說幾百個,,多則上萬個,我們不可能人工一個個去檢查CPU,。因此我們先要確認(rèn)哪個業(yè)務(wù)變慢了,,再確定這個業(yè)務(wù)在數(shù)據(jù)中心里需要經(jīng)過哪些設(shè)備,然后檢查這些設(shè)備的CPU占用率,。如果我們有網(wǎng)軟軟件,,通過設(shè)置CPU閾值,則可以輕松監(jiān)控所有設(shè)備的CPU占用率,,迅速發(fā)現(xiàn)CPU異常設(shè)備,。光潤通小編提醒大家,一般來說,,如果設(shè)備CPU占用率在40%以內(nèi),,基本沒有什么問題,如果超過60%,,那么建議你最好看一下設(shè)備是不是受到了網(wǎng)絡(luò)攻擊,,有時網(wǎng)絡(luò)攻擊不僅會影響網(wǎng)速變慢,甚至?xí)袛鄻I(yè)務(wù),。網(wǎng)管可以監(jiān)控可疑的端口,,網(wǎng)絡(luò)流量異常的這一段時間,通過網(wǎng)絡(luò)流量變化會看到突起突落,,明顯的人為痕跡,。根據(jù)對以上可疑現(xiàn)象的分析,初步定位網(wǎng)絡(luò)業(yè)務(wù)中斷事故是人為攻擊造成,證明的確是有網(wǎng)絡(luò)攻擊,。
第二,、日志信息和其它異常信息
現(xiàn)在電子設(shè)備的可維護性都比較好,運行時如果出現(xiàn)端口下降,,配置錯誤,,硬件問題,這些簡單的故障都會打印出非常明確的異常記錄,,提示用戶設(shè)備哪里出了問題,,便于客戶解決問題。對于廣播流量較多的數(shù)據(jù)中心,,要注意設(shè)備的端口流量是不是有異常,,是不是出現(xiàn)了網(wǎng)絡(luò)環(huán)路,網(wǎng)絡(luò)環(huán)路是在數(shù)據(jù)中心經(jīng)常發(fā)生的網(wǎng)絡(luò)故障,。主要是由于設(shè)備故障,、STP/RRPP等二層環(huán)路協(xié)議失效、人為錯誤配置導(dǎo)致的,。這類問題通過觀察端口的流量很好排除,。因此,要檢查這些設(shè)備的日志和異常信息記錄,。
第三,、利用ping來檢驗業(yè)務(wù)是否正常
ping是用來診斷網(wǎng)絡(luò)故障最簡單的方法,現(xiàn)在網(wǎng)絡(luò)上流行的Xping,、Multiping,、網(wǎng)管軟件等都是基本ping功能實現(xiàn)的,通過ping業(yè)務(wù)沿路的各個設(shè)備就可以迅速判定故障設(shè)備,。一般ping的結(jié)果基本會顯示出哪個設(shè)備可能存在網(wǎng)絡(luò)問題,。
第四、檢查端口雙工的狀態(tài),。
服務(wù)器的網(wǎng)卡,、網(wǎng)絡(luò)設(shè)備端口、防火墻端口等設(shè)備的工作方式可以為全雙工或者半雙工,。
當(dāng)服務(wù)器,、交換機的工作狀態(tài)不匹配,比如說服務(wù)器,、工作站網(wǎng)卡被設(shè)置為全雙狀態(tài),,而交換機等卻工作在半雙工時,就會產(chǎn)生大量碰撞幀和一些FCS校驗錯誤幀,,訪問速度會變得超級慢,。因此從服務(wù)器上拷貝一個100Mb的文件可能需要30分鐘,,所以網(wǎng)速變慢也要檢查下設(shè)備端口雙工是不是存在不一致的問題。
第五,、檢查網(wǎng)線,、光纖、光模塊這些互連器件的問題
網(wǎng)線的制作方式對網(wǎng)絡(luò)傳輸速度的影響是非常大的,,如果不按照正規(guī)的標(biāo)準(zhǔn)制作網(wǎng)線,,那么來自網(wǎng)線自身的背景噪音以及內(nèi)部串?dāng)_就會降低網(wǎng)絡(luò)傳輸速度。還有光纖和光模塊如果質(zhì)量不佳,,容易產(chǎn)品大量的錯包,影響網(wǎng)速,。還有的光模塊收發(fā)功率不穩(wěn)定,,導(dǎo)致傳輸?shù)臄?shù)據(jù)出現(xiàn)問題,這些故障都是容易影響網(wǎng)速慢的最常見的原因,。在數(shù)據(jù)中心里,,幾乎天天都會有更換網(wǎng)線、光纖或光模塊的工作,。這些都是易消耗的器件,。目前光潤通品牌的光網(wǎng)卡、光模塊,,在數(shù)據(jù)中心擁有80%的占有率,,產(chǎn)品全部軍工級品質(zhì)、支持熱插拔,、兼容不同各大品牌交換機,,像北京電視臺,二炮,,航天五院,,航天三院等都用到了光潤通的GRT產(chǎn)品。
第六,、端口UP/DOWN問題
如果出現(xiàn)了端口的UP/DOWN,,自然會引起業(yè)務(wù)時斷時續(xù),網(wǎng)速就慢,。造成端口出現(xiàn)UP/DOWN的原因也可能是多方面的,。比如:光纖架、跳線架有問題,,鏈路質(zhì)量不好,;網(wǎng)線,光纖出了問題,;設(shè)備兩端配置速率雙工不一致等等都會造成端口的UP/DOWN,,一般的設(shè)備端口出現(xiàn)了UP/DOWN都會有記錄,或者在網(wǎng)管上有記錄,這樣用戶就可以通過檢查記錄,,迅速排除掉故障,。
第七、對比測試
通過業(yè)務(wù)測試,。比如玩?zhèn)髌嬗螒蚩?,玩其它游戲沒有問題,那一般是傳奇服務(wù)器的問題,。另外,,為何明確故障問題,還可以在上游設(shè)備上的一個業(yè)務(wù)端口下FTP本地網(wǎng)絡(luò)的一個大文件,,在本地設(shè)備上的一個業(yè)務(wù)口下同時FTP同一網(wǎng)站的同一電影文件,,比較下載速度,立刻可以知道本地設(shè)備有沒有問題,。
第八,、檢查是否應(yīng)用服務(wù)器是否有病毒
蠕蟲、紅色代碼,、藍色代碼,、尼姆達等病毒,可使計算機運行變慢,,造成網(wǎng)絡(luò)堵塞,。比如說蠕蟲病毒對網(wǎng)絡(luò)速度的影響非常嚴(yán)重,危害性極大,。這種病毒導(dǎo)致被感染的用戶只要一上網(wǎng)就不停地往外發(fā)郵件,,成百上千的這種垃圾郵件有的排著隊往外發(fā)送,有的又成批成批地被退回來堆在服務(wù)器上,,造成服務(wù)器繁忙或者數(shù)據(jù)中心網(wǎng)路擁塞,,網(wǎng)速變慢。所以,,需要在數(shù)據(jù)中心內(nèi)部署防火墻設(shè)備,,在服務(wù)器上安裝殺毒軟件,并保持實時更新,。周期性地檢查服務(wù)器是否有中病毒的情況,。
數(shù)據(jù)中心網(wǎng)速慢是一個比較復(fù)雜問題,隨著網(wǎng)絡(luò)規(guī)模的不斷擴大和應(yīng)用的復(fù)雜,,網(wǎng)絡(luò)安全問題越來越多,,這類問題也越來越不好分析。對于出現(xiàn)網(wǎng)速變慢的故障時,,可以采用以上的八個步驟去一一排查,,在絕大多數(shù)情況下,,都可以解決問題。如果通過這些步驟仍找不出異常的地方,,那就需要專業(yè)的技術(shù)人員深入分析了,,可能需要資深的網(wǎng)絡(luò)專家或者設(shè)備廠家的工程師進一步深入排查。