時間:2023-01-10 19:12:54
序論:在您撰寫網絡故障時,參考他人的優秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發您的創作熱情,引導您走向新的創作高度。
【網絡故障;常見故障;分類診斷;物理類故障;邏輯類故障
在當今這個計算機網絡技術日新月異,飛速發展的時代里,計算機網絡遍及世界各個角落,應用在各行各業,普及到千家萬戶,它給人們可謂帶來了諸多便利,但同時也帶來了很多的煩惱,筆者對常見的網絡故障進行了分類和排查方法的介紹,相信對你有所幫助。根據常見的網絡故障歸類為摘要:物理類故障和邏輯類故障兩大類。
一、物理類故障
物理故障,一般是指線路或設備出現物理類新問題或說成硬件類新問題。
(一)線路故障
在日常網絡維護中,線路故障的發生率是相當高的,約占發生故障的70%。線路故障通常包括線路損壞及線路受到嚴重電磁干擾。
排查方法摘要:假如是短距離的范圍內,判定網線好壞簡單的方法是將該網絡線一端插入一臺確定能夠正常連入局域網的主機的RJ45插座內,另一端插入確定正常的HUB端口,然后從主機的一端Ping線路另一端的主機或路由器,根據通斷來判定即可。假如線路稍長,或者網線不方便調動,就用網線測試器測量網線的好壞。假如線路很長,比如由郵電部門等供給商提供的,就需通知線路提供商檢查線路,看是否線路中間被切斷。
對于是否存在嚴重電磁干擾的排查,我們可以用屏蔽較強的屏蔽線在該段網路上進行通信測試,假如通信正常,則表明存在電磁干擾,注重遠離如高壓電線等電磁場較強的物件。假如同樣不正常,則應排除線路故障而考慮其他原因。
(二)端口故障
端口故障通常包括插頭松動和端口本身的物理故障。
排查方法摘要:此類故障通常會影響到和其直接相連的其他設備的信號燈。因為信號燈比較直觀,所以可以通過信號燈的狀態大致判定出故障的發生范圍和可能原因。也可以嘗試使用其它端口看能否連接正常。
(三)集線器或路由器故障
集線器或路由器故障在此是指物理損壞,無法工作,導致網絡不通。
排查方法摘要:通常最簡易的方法是替換排除法,用通信正常的網線和主機來連接集線器(或路由器),如能正常通信,集線器或路由器正常;否則再轉換集線器端口排查是端口故障還是集線器(或路由器)的故障;很多時候,集線器(或路由器)的指示燈也能提示其是否有故障,正常情況下對應端口的燈應為綠燈。如若始終不能正常通信,則可認定是集線器或路由器故障。
(四)主機物理故障
網卡故障,筆者把其也歸為主機物理故障,因為網卡多裝在主機內,靠主機完成配置和通信,即可以看作網絡終端。此類故障通常包括網卡松動,網卡物理故障,主機的網卡插槽故障和主機本身故障。
排查方法摘要:主機本身故障在這里就不在贅述了,在這里只介紹主機和網卡無法匹配工作的情況。對于網卡松動、主機的網卡插槽故障最好的解決辦法是更換網卡插槽。對于網卡物理故障的情況,如若上述更換插槽始終不能解決新問題的話,就拿到其他正常工作的主機上測試網卡,如若仍無法工作,可以認定是網卡物理損壞,更換網卡即可。
二、邏輯類故障
邏輯故障中的最常見情況是配置錯誤,也就是指因為網絡設備的配置錯誤而導致的網絡異?;蚬收?。
(一)路由器邏輯故障
路由器邏輯故障通常包括路由器端口參數設定有誤,路由器路由配置錯誤、路由器CPU利用率過高和路由器內存余量太小等。
排查方法摘要:路由器端口參數設定有誤,會導致找不到遠端地址。用Ping命令或用Traceroute命令(路由跟蹤程序摘要:在UNIX系統中,我們稱之為Traceroute;MSWindows中為Tracert),查看在遠端地址哪個節點出現新問題,對該節點參數進行檢查和修復。
路由器路由配置錯誤,會使路由循環或找不到遠端地址。比如,兩個路由器直接連接,這時應該讓一臺路由器的出口連接到另一路由器的入口,而這臺路由器的入口連接另一路由器的出口才行,這時制作的網線就應該滿足這一特性,否則也會導致網絡錯誤。該故障可以用Traceroute工具,可以發現在Traceroute的結果中某一段之后,兩個IP地址循環出現。這時,一般就是線路遠端把端口路由又指向了線路的近端,導致IP包在該線路上往返反復傳遞。解決路由循環的方法就是重新配置路由器端口的靜態路由或動態路由,把路由設置為正確配置,就能恢復線路了。
路由器CPU利用率過高和路由器內存余量太小,導致網絡服務的質量變差。比如路由器內存余量越小丟包率就會越高等。檢測這種故障,利用MIB變量瀏覽器較直觀,它收集路由器的路由表、端口流量數據、計費數據、路由器CPU的溫度、負載以及路由器的內存余量等數據,通常情況下網絡管理系統有專門的管理進程,不斷地檢測路由器的關鍵數據,并及時給出報警。解決這種故障,只有對路由器進行升級、擴大內存等,或者重新規劃網絡拓撲結構。
(二)一些重要進程或端口關閉
一些有關網絡連接數據參數得重要進程或端口受系統或病毒影響而導致意外關閉。比如,路由器的SNMP進程意外關閉,這時網絡管理系統將不能從路由器中采集到任何數據,因此網絡管理系統失去了對該路由器的控制?;蛘呔€路中斷,沒有流量。
排查方法摘要:用Ping線路近端的端口看是否能Ping通,Ping不通時檢查該端口是否處于down的狀態,若是說明該端口已經給關閉了,因而導致故障。這時只需重新啟動該端口,就可以恢復線路的連通。
(三)主機邏輯故障
主機邏輯故障所造成網絡故障率是較高的,通常包括網卡的驅動程序安裝不當、網卡設備有沖突、主機的網絡地址參數設置不當、主機網絡協議或服務安裝不當和主機平安性故障等。
1.網卡的驅動程序安裝不當。網卡的驅動程序安裝不當,包括網卡驅動未安裝或安裝了錯誤的驅動出現不兼容,都會導致網卡無法正常工作。
排查方法摘要:在設備管理器窗口中,檢查網卡選項,看是否驅動安裝正常,若網卡型號前標示出現“!”或“X”,表明此時網卡無法正常工作。解決方法很簡單,只要找到正確的驅動程序重新安裝即可。
2.網卡設備有沖突。網卡設備和主機其它設備有沖突,會導致網卡無法工作。
排查方法摘要:磁盤大多附有測試和設置網卡參數的程序,分別查驗網卡設置的接頭類型、IRQ、I/O端口地址等參數。若有沖突,只要重新設置(有些必須調整跳線),或者更換網卡插槽,讓主機認為是新設備重新分配系統資源參數,一般都能使網絡恢復正常。
3.主機的網絡地址參數設置不當。主機的網絡地址參數設置不當是常見的主機邏輯故障。比如,主機配置的IP地址和其他主機沖突,或IP地址根本就不在于網范圍內,這將導致該主機不能連通。
排查方法摘要:查看網絡鄰居屬性中的連接屬性窗口,查看TCP/IP選項參數是否符合要求,包括IP地址、子網掩碼、網關和DNS參數,進行修復。
4.主機網絡協議或服務安裝不當。主機網絡協議或服務安裝不當也會出現網絡無法連通。主機安裝的協議必須和網絡上的其它主機相一致,否則就會出現協議不匹配,無法正常通信,還有一些服務如“文件和打印機共享服務”,不安裝會使自身無法共享資源給其他用戶,“網絡客戶端服務”,不安裝會使自身無法訪問網絡其他用戶提供的共享資源。再比如E-mail服務器設置不當導致不能收發E-mail,或者域名服務器設置不當將導致不能解析域名等。
排查方法摘要:在網上鄰居屬性(Windows98系統)或在本地連接屬性窗口查看所安裝的協議是否和其他主機是相一致的,如TCP/IP協議,NetBEUI協議和IPX/SPX兼容協議等。其次查看主機所提供的服務的相應服務程序是否已安裝,假如未安裝或未選中,請注重安裝和選中之。注重有時需要重新啟動電腦,服務方可正常工作。
5.主機平安性故障。主機故障的另一種可能是主機平安故障。通常包括主機資源被盜、主機被黑客控制、主機系統不穩定等。
排查方法摘要:主機資源被盜,主機沒有控制其上的finger,RPC,rlogin等服務。攻擊者可以通過這些進程的正常服務或漏洞攻擊該主機,甚至得到管理員權限,進而對磁盤所有內容有任意復制和修改的權限。還需注重的是,不要輕易的共享本機硬盤,因為這將導致惡意攻擊者非法利用該主機的資源。
主機被黑客控制,會導致主機不受操縱者控制。通常是由于主機被安置了后門程序所致。發現此類故障一般比較困難,一般可以通過監視主機的流量、掃描主機端口和服務、安裝防火墻和加補系統補丁來防止可能的漏洞。
主機系統不穩定,往往也是由于黑客的惡意攻擊,或者主機感染病毒造成。通過殺毒軟件進行查殺病毒,排除病毒的可能?;蛑匦掳惭b操作系統,并安裝最新的操作系統的補丁程序和防火墻、防黑客軟件和服務來防止可能的漏洞的產生所造成的惡性攻擊。
三、結語
計算機網絡技術發展迅速,網絡故障也十分復雜,上述概括了常見的幾類故障及其排查方法。針對具體的診斷技術,總體來說是遵循先軟后硬的原則,但是具體情況要具體分析,這些經驗就需要您長期的積累了。假如你是網絡管理人員,在網絡維護中的還需要注重以下幾個方面摘要:
第一,建立完整的組網文檔,以供維護時查詢。如系統需求分析報告、網絡設計總體思路和方案、網路拓撲結構的規劃、網絡設備和網線的選擇、網絡的布線、網絡的IP分配,網絡設備分布等等。
本文簡述了作者在維護網絡過程中,遇到的網絡故障及處理方法,希望對大家的網絡維護工作起到促進作用。
計算機網絡的組成
計算機網絡就是利用通訊線路和通信設備,用一定的連接方法,將分布在不同地點的具有獨立功能的多臺計算機系統相互聯結起來,在網絡軟件的支持下進行數據通信,實現資源共享的功能。除了計算機外,用于連接網絡的硬件設備有光纜、光收發器、雙絞線、路由器、交換機、網絡適配器(網卡)等。一般造成網絡不通的大部分原因都是這些設備出了故障。下面我們將對它們出現的故障進行簡要的分析。
光纜和光纖
光纜的故障主要是光纜折斷,由于光纜內部有用于抗拉伸力量的鋼絲,所以光纜自然折斷的可能性不大,但由于道路施工等多種原因,光纜被鏟車挖斷或汽車掛斷的事情還是時有發生。例如,去年四月,我臺的外網光纜被施工的汽車掛斷,幾周后,內網光纜又被其他車輛掛斷。另外,由于傳輸光信號的光纖十分細微,在檢修ODF柜時要特別小心,防止折斷尾纖。工程中對光纖和光纜的彎曲度都有嚴格的要求,實用光纖最小彎曲半徑一般為20~50mm,光纜最小彎曲半徑為200~500mm,等于或大于光纖最小彎曲半徑,光輻射引起的附加損耗可以忽略,若小于最小彎曲半徑,附加損耗則急劇增加。
測量光纜、光纖跳線是否中斷的簡便設備是光功率計。如果察看到光收發器上的RX指示燈滅掉,或用光功率計測量接在光收發器上RX口上的光纖跳線沒有光功率,即可斷定光纜或尾纖折斷,通知網絡公司進行搶修。
尾纖或者光纖跳線出現故障的另一個現象是由于長時間使用,它們的纖芯端面可能會比較臟,對光信號會產生折射或散射作用,造成網絡傳輸速度下降或丟包現象。處理該故障的方法是用醫酒精輕輕擦拭光纖纖芯的端面,稍等一下,待酒精蒸發完畢后恢復連接就可以了。
光收發器
光收發器的作用是將在光纜中傳輸的光信號轉變為適于在電纜中傳輸的電信號。我們在維護網絡工作中遇到的光收發器的故障主要是其電源故障和過熱故障。
電源故障主要是其內部變壓器的線圈燒毀或者整流電容爆裂。線圈燒毀造成變壓器次級電路無法得到電源,而整流電容爆裂造成后面的電路得不到直流供電。如果我們發現正在使用的光收發器的電源指示燈熄滅了,則肯定是其電源部分出了故障。
光收發器的維護還要注意其工作溫度問題。光收發器多位于樓房的單元門口網絡設備箱內,通風不暢,有的網絡設備箱甚至直接被太陽曝曬,造成光收發器工作過熱而死機。表現為用手觸摸光收發器有發燙的感覺,其TX、RX指示燈閃爍緩慢,在連接的計算機上上網時,無法正常瀏覽網頁,有嚴重的丟包現象。這樣,當光收發器的溫度下降以后,該故障會自動解除。
網線
網線分為直連線和交叉線?,F在國際上通用制作網線的標準為T568A和T568B兩種。T568A的標準線序為:綠白、綠、橙白、藍、藍白、橙、棕白、棕,T568B的標準線序為:橙白、橙、綠白、藍、藍白、綠、棕白、棕,兩端的RJ-45頭中的線序一致的雙絞線稱為直通線;而一端為T568A,另一端為T568B的網線稱為交叉線。雖然雙絞線有4對8條芯線,但實際上在網絡中只用到了其中的4條,即水晶頭的第一、二、三和六腳,它們分別起著收、發信號的作用。網線的故障主要表現在以下兩個方面:第一,雖然很多網絡設備都有自適應功能,但有些特殊設備對網線的連接有著特殊要求,例如要求連接兩個設備的網線為交叉線,而我們習慣上大多都做成了直通線。第二,水晶頭制作得不好。水晶頭在制作以前,網線需剝去約1.5cm,不熟練的同志制作時,不是剝去得太長了就是太短了,致使壓下去的水晶頭卡不住網線或網線不能完全插到水晶頭底部與插針良好接觸。事實上,網絡硬件不通的大多原因在于網線的不通。遇到這樣的故障,處理的方法是:1、按照網絡設備的要求,規范制作網線。2、用網線測試儀測試一下網線,若發現不通,重新制作一下水晶頭就可以了。
交換機
交換機的作用是為連接在同一個網絡中的計算機提供信息交換的途徑。家庭用的一般都是沒有管理功能的交換機,其中以桌面交換機居多。例如我臺職工平房宿舍和公寓樓,居住人數不多,使用的多是8換機。維護過程中,發現光纖和網線測試沒有問題,光收發器工作亦正常,但整排平房用戶依然不能上網,后來發現把8換機的電源關閉一下,重新開啟,然后網絡恢復正常。分析原因,可能是該交換機內部有少量的內存,估計是否是交換機遇到網絡風暴死機所致。此種故障在我臺不同的8換機發現了有多次,均用此方法處理,網絡故障均得以很快解決,其詳細原因待查。
光纖耦合器
光纖耦合器,俗稱法蘭盤,在網絡中的作用是定位上一級尾纖或光纖跳線的纖芯與下一級尾纖或光纖跳線的纖芯準確對接,使傳輸的光信號按照設計的路徑繼續向下一級傳輸。我們在維護網絡的過程中,經常遇到光纖耦合器的故障是耦合器中間的塑料套圈發生了變形。
我臺乙機房距離臺區大約有十公里,乙機房與臺區通過光纜進行通信。在維護乙機房網絡的過程中,發現了一個奇怪的現象:乙機房的內網計算機能夠正常瀏覽網頁,但是無論如何使用FTP服務傳送不了數據。沒有辦法,我們從中心交換機到光收發器、光收發器到ODF柜、ODF柜到乙機房光纜終端盒、乙機房光纜終端盒再到內網計算機,一級一級展開查找故障,最終發現是ODF柜上到乙機房的兩芯光纖中的一芯的光纖耦合器中間的塑料套圈發生了變形,影響了光信號的正常傳輸,更換光纖耦合器后故障解除。分析原因可能是塑料套圈變形導致了耦合器定位前后兩條光纖跳線纖芯對接不準,造成光纖傳輸數據率降低,從而出現了網絡不能實現FTP業務但能正常瀏覽網頁的怪異現象。
網卡
網卡簡稱網絡接口卡(Network Interface Card,NIC),是計算機局域網中重要的連接設備之一,計算機通過網卡接入網絡。在計算機網絡中,網卡一方面負責接收網絡上發送給本機的數據包,解包后,將數據傳輸給本地計算機,另一方面將本地計算機上的數據打包后送出網絡。我們在網絡維護工作中遇到的網卡問題是網卡的自適應功能。
我們在維護職工宿舍網絡時,發現有位同事的計算機不能上網,而連接在同一交換機上的其他同事的計算機均能正常上網,測量交換機至故障計算機的網線正常,因而懷疑連接該網線的交換機的端口有問題,隨后將該網線插在交換機的另一端口上,仍然不能上網。后來,修改網卡的屬性,將其“鏈路速率和全雙工模式”由“自適應”修改為“10兆/全雙工模式”,故障計算機上網正常。分析可能是一般的計算機的網卡均支持自適應功能,而該計算機的網卡不支持自適應功能,而我臺的外網開口帶寬速率恰是10Msps。
(1)故障管理概述
故障是指軟、硬件的缺陷;錯誤則是軟硬件的不正確輸出;失效是指所有和某故障有關的錯誤造成的網絡的非正常運行。網絡故障按生命周期可分為永久故障、暫時故障和瞬間故障三類;按故障對網絡造成的空間失效范圍的大小,可將失效分為四類:任務失效、基本網絡部件失效、結點失效和子網失效。故障管理的主要任務是及時發現并排除網絡故障。一般說來,故障管理包括以下幾個內容:故障監測和捕獲故障產生相關的事件和報警;定位分析故障、記錄故障日志;如有可能排除故障等。
(2)故障管理的類型
故障類型指的是具有某種特征的故障的分類。通常我們可以根據故障發生來源的不同,將它們劃分為兩大類,即硬故障(harderrors)和軟故障(softerrors)。
硬故障是指網絡的硬件設備在工作過程中產生的各種錯誤。這些錯誤與該設備的作用有密切關系,網絡系統的復雜性也正是由于設備的多樣性而體現出來的。根據這網絡設備的作用,我們也可以將故障簡單分為以下三類:
①連接設備故障
這種故障的現象主要是網絡的物理連接出現問題,也可以稱為通路故障。造成故障的原因可能是電纜線斷開、收發器斷開或不能正常工作以及其它連接設備間的接口出問題等等。根據這類故障的來源不同,我們又可以將該類型的故障細分為線路故障、網絡接口故障、收發器故障、路由器故障等等,該類故障是故障管理的最主要對象。
②共享設備故障
這種故障的表現是用于資源共享的設備出現問題,不能提供或享受所需的服務。同樣,該類型的故障也可以細分為服務器故障(打印機故障、文件服務器故障等)、工作站故障等等。
③其它設備故障。包括電源故障、監控器故障、測試儀故障、分析儀故障等等。
軟故障是指網絡系統軟件運行出錯。軟故障的發現和處理是在管理過程中逐漸被人們所認識的,因為軟件屬于一種無形的東西,問題的表現不如硬件那么直觀。從這個意義上看,軟故障的識別和診斷更加困難。故障管理中所處理的軟故障主要針對與網絡通訊和服務有關的系統軟件,它可以直接根據網絡軟件來劃分,包括通訊協議軟件故障、網絡文件系統(FNS)故障、文件傳輸軟件故障、域名服務系統(DNS)等等,其中通訊協議軟件故障是系統研究的重點。這種錯誤通常是在協議軟件運行時遇到某個異常條件(如緩沖隊列滿)或協議軟件本身未提供可靠機制而導致傳輸失敗,報文丟失。
故障類型并不是一成不變的,隨著網絡在復雜性和規模上提高,網絡故障管理的要求也在不斷增加。新的技術、設備的應用使故障的類型、故障原因、故障源等各方面都發生了變化,這就要求故障管理系統必須增加新的內容。
(3)故障管理的功能
故障管理的根本目標在于排除網絡中出現的各種故障,達到這一目標要求系統至少必須具備檢測、隔離和糾正故障的能力。
故障檢測(detection)是指對系統的性能和狀態進行檢查和測試,根據結果和一定的識別規則判斷系統是否故障。故障檢測要求管理系統監視網絡的工作,考查網絡的狀態及其變化,一旦發現系統出現故障馬上進行報警。
故障隔離(isolation)是指確定故障發生的位置,通俗地說就是指出誰發生了故障,如哪個子網、哪個設備或者設備的哪個部件,對于軟故障則指明哪個系統出了問題。由于網絡是一個復雜的系統,故障類型、原因、故障源多種多樣,而且不同故障的表現可能完全相同,這就導致了故障隔離的復雜性。隔離系統應當盡可能地縮小故障源的范圍。
故障糾正(correction)是指糾正所發生的錯誤,恢復系統的正常工作。故障糾正建立在前兩者的基礎之上,目前所采取的手段除了進行硬件維修、系統重啟、一定程度的恢復外,還包括一些非技術性的活動,如人員的使用和技術培訓以及設備生產廠商的支持等。
(4)影響故障管理的因素
與網絡管理一樣,故障管理也必須考慮三方面的因素:過程、設備和工具、人員。成功的故障管理策略是這三者的完整結合,而不僅僅是其中的某一個方面。
過程主要指為實現故障管理功能而進行的操作,下一節介紹的內容就屬于故障管理的過程。了解管理的一般過程是開發一個實用的故障管理系統的基礎。
設備和工具指的是進行故障管理的軟硬件工具,包括故障檢測設備、維修設備、實用的故障管理系統等。設備和工具在故障管理中起著非常重要的作用,它可以幫助管理員和工程師實施管理功能,排除故障,保障網絡系統正常運轉。
下面介紹的就是幾種專用的物理設備:
①時間域反射測量儀(TDR)。通過顯示物理介質傳輸信號的波形表明設備或鏈路是否故障。
②網絡監視器。監視網絡上各結點的狀態,得到網絡的各種統計數字,以確定是否故障。
③網絡分析儀。實時分析結點的收發報文,幫助管理者跟蹤和隔離故障。管理人員在故障管理中的任務主要是維護管理系統和工具的運行,并在它們的幫助下完成故障排除和系統恢復工作。
2.智能化網絡管理的概述
為了能夠更有效地對各種大型復雜的網絡進行管理,許多研究人員將人工智能技術應用到網絡管理領域。雖然全面的智能化的網絡管理距離實際應用還有相當長的一段路要走,但是在網絡管理的特定領域實施智能化,尤其是基于專家系統技術的網絡管理是可行的。
用于故障管理的專家系統由知識庫、推理機、知識獲取模塊和解釋接口四大主要部分組成。專家系統以其實時性、協作管理、層次性等特點,特別適合用在網絡的故障管理領域。但同時專家系統也面臨一些難題:
(1)動態的網絡變化可能需要經常更新知識庫。
(2)由于網絡故障可能會相關到其它許多事件,很難確定與某一癥狀相關的時間的開始和結束,解釋和綜合消息復雜。
(3)可能需要大量的指令用以標識實際的網絡狀態,并且專家系統需要和它們接口。
(4)專家系統的知識獲取一直以來是瓶頸所在,要想成功地獲取網絡故障知識,需要經驗豐富的網絡專家。
在實現智能化網絡管理系統時,還必須把握系統復雜性與系統性能的關系。不僅要利用將較為成熟的人工智能技術,而且要考慮實現上的復雜度和引入人工智能技術對系統性能和穩定性的影響。
3.事件知識庫的研究
在專家系統中,知識的表示有邏輯表示法、語義網絡表示法、規則表示法、特性表示法、框架表示法和過程表示法。產生式表示法,即規則表示法,是最常見的一種表示法。其特點是模塊性、一致性和自然。知識庫是知識的集合,嚴格意義上的知識庫包括概念、事實和規則只部分,缺一不可。
為了提高故障管理的智能水平,可以建立事件知識庫(EKB,EventKnowledgeBase,用于存儲所有己知事件的類型、產生事件的原因和所造成的影響,以及應該采取什么樣的措施等一些細節的靜態描述。這個EKB并不是真正意義上的知識庫,它的數據僅僅包含了屬性值與元組,而屬性值表示概念,元組表示事實。但研究EKB可以為今后建立完善的知識庫奠定基礎。
在EKB中存儲了己經確定事件。最初,被確定的事件僅限于一些標準事件和措施。隨著網絡的運行和系統的反饋,EKB的內容將不斷增加。
理想狀態是能夠確定所有的事件。
下面是EKB涉及到的只種基本的數據庫表:
(1)事件類型表:該表中主要存儲了事件的靜態定義。
EKB中保存了己確定的事件可能涉及的相關知識,如事件類別(如:性能、系統、網絡、應用事件或其它)、嚴重程度(如:嚴重、主要、次要、警告等)、產生事件的設備標識、指明設備的類型、事件造成什么影響(如:影響網速、單個用戶不能訪問等)、故障排除參考策略、上次更新的時期/時間、關于這個事件的備注信息、事件的詳細描述等。
(2)實時事件表:描述了正在運行的網絡中的實時事件。
實時事件表中提供可能用的一些字段,用于記錄網絡運行中發生的事件,如:設備的ID(從IP地址或查詢設備表可以獲得)、實時事件的狀態(如:新增、確認、清除等)、根據故障票ID獲得的相應的故障票信息等。
(3)設備信息表:存儲了網絡中設備的實際參數。
設備信息表主要記錄了每個設備的相關參數。例如,設備ID號、IP地址、設備名稱、廠商、類型、重要性級別等。
EKB中存儲的相關事件的知識主要來源于專家。開發人員將獲得的知識應用到與故障管理相關的系統中,根據不同系統的需要分配相應的知識,以提高系統性能。雖然EKB并不是嚴格意義上的知識庫,但在開發過程中,可以通過不斷地增加和修正EKB的內容,在一定程度上提高系統的智能水平。
4.結論
文中分析了網絡故障的類型,提出將事件知識庫用于計算機網絡故障的智能管理。實驗表明,計算機網絡故障的智能管理提供了基于知識的決策手段,比傳統的管理方式具有更高的決策水平,為專家系統技術在故障的檢測和隔離方面更加廣泛的應用,奠定了一定基礎。
關鍵詞:網絡互聯網路由器故障診斷
一.引言
世紀之交,全球因特網高速發展。抓住機遇,迎接挑戰,我國的網絡建設方興未艾。政府上網工程拉開序幕,網絡建設的新已經到來。網絡診斷是管好、用好網絡,使網絡發揮最大作用的重要技術工作之一。本文首先簡單介紹網絡及路由器的基本概念,簡述分層診斷技術,結合討論路由器各種接口的診斷,綜述互聯網絡連通性故障的排除。
二.網絡與路由器概述
網絡診斷是一門綜合性技術,涉及網絡技術的方方面面。為方便下面的討論,首先簡單回顧一下網絡和路由器的基本概念。
1.計算機網絡是由計算機集合加通信設施組成的系統,即利用各種通信手段,把地理上分散的計算機連在一起,達到相互通信而且共享軟件、硬件和數據等資源的系統。計算機網絡按其計算機分布范圍通常被分為局域網和廣域網。局域網覆蓋地理范圍較小,一般在數米到數十公里之間。廣域網覆蓋地理范圍較大,如校園、城市之間、乃至全球。計算機網絡的發展,導致網絡之間各種形式的連接。采用統一協議實現不同網絡的互連,使互聯網絡很容易得到擴展。因特網就是用這種方式完成網絡之間聯結的網絡。因特網采用TCP/IP協議作為通信協議,將世界范圍內計算機網絡連接在一起,成為當今世界最大的和最流行的國際性網絡。
2.為了完成計算機間的通信,把每部計算機互連的功能劃分成定義明確的層次,規定了同層進程通信的協議及相鄰層之間的接口和服務,將這些層、同層進程通信的協議及相鄰層之間的接口統稱為網絡體系結構。國際標準化組織(ISO)提出的開放系統互連參考模型(OSI)是當代計算機網絡技術體系的核心。該模型將網絡功能劃分為7個層次:物理層、數據鏈路層、網絡層、傳輸層、會話層、表示層和應用層。
3.TCP/IP即傳輸控制協議和網間互聯協議是一組網絡協議。TCP/IP起源于美國ARPANET網,發展至今已成為因特網使用的標準通信協議。使用TCP/IP能夠使采用不同操作系統的計算機以有序的方式交換數據。
4.路由器是一種網絡設備,是用于網絡連接、執行路由選擇任務的專用計算機。路由器工作于網絡層,對信包轉發,并具有過濾功能。路由器能夠將使用不同技術的兩個網絡互連起來,能夠在多種類型的網絡之間(局域網或廣域網)建立網絡連接。它將處在七層模型中的網絡層的信息,根據最快、最直接的路由原理從一個網絡的網絡層傳輸到另一個網絡的網絡層,以達到最佳路由選擇。同時在內部使用高檔微處理器,用高速的內部總線連接適合各種網絡協議的接口卡。并具有多種網管功能,能監視與路由器相連接的一些網絡設備和它們的配置運行情況。
5.CISCO路由器是目前網絡建設中使用最多的一種路由器,有多種檔次、多種系列,目前常用的當屬2500系列,本文以2500系列為例討論。2500系列路由器是固定接口的多協議路由器,支持CISCOIOS全部功能。根據特定的協議環境分為以下四種類型:固定配置的路由器(2501)、帶HUB口的路由器(2507)、摸塊化的路由器(2514)和訪問服務器(2511)。它們結構簡單、操作方便、易于配置和管理,是一種用于小規模局域網和廣域網網絡層中繼的路由設備。
6.CISCOIOS是CISCO所特有的互連網操作系統,所有的CISCO產品都運行IOS,IOS將它們無縫連接在一起協同工作。給用戶提供一個可支持任意硬件界面、任意鏈路層、網絡層協議的可擴展的開放型網絡。IOS支持眾多的協議,包括各種網絡通信協議和路由協議等。CISCOIOS已成為工業界網際網互聯的事實標準。CISCOIOS提供幾種不同的操作模式,每一種模式提供一組相關的命令集、不同的操作權限和操作功能?;诎踩康模珻ISCO用戶界面中有兩級訪問權限:用戶級和特權級。第一級訪問允許查看路由狀態,叫做用戶EXEC模式,又稱為查看模式;第二級訪問允許查看路由器配置、修改配置和運行調試命令,叫做特權EXEC模式,又稱為配置模式。在特權級中,按不同的配置內容,可進入不同的配置模式,如全球配置模式、接口配置模式、線配置模式等。
三.網絡故障診斷概述
網絡故障診斷應該實現三方面的目的:確定網絡的故障點,恢復網絡的正常運行;發現網絡規劃和配置中欠佳之處,改善和優化網絡的性能;觀察網絡的運行狀況,及時預測網絡通信質量。
網絡故障診斷以網絡原理、網絡配置和網絡運行的知識為基礎。從故障現象出發,以網絡診斷工具為手段獲取診斷信息,確定網絡故障點,查找問題的根源,排除故障,恢復網絡正常運行。
網絡故障通常有以下幾種可能:物理層中物理設備相互連接失敗或者硬件及線路本身的問題;數據鏈路層的網絡設備的接口配置問題;網絡層網絡協議配置或操作錯誤;傳輸層的設備性能或通信擁塞問題;上三層CISCOIOS或網絡應用程序錯誤。診斷網絡故障的過程應該沿著OSI七層模型從物理層開始向上進行。首先檢查物理層,然后檢查數據鏈路層,以此類推,設法確定通信失敗的故障點,直到系統通信正常為止。
網絡診斷可以使用包括局域網或廣域網分析儀在內的多種工具:路由器診斷命令;網絡管理工具和其它故障診斷工具。CISCO提供的工具足以勝任排除絕大多數網絡故障。查看路由表,是解決網絡故障開始的好地方。ICMP的ping、trace命令和Cisco的show命令、debug命令是獲取故障診斷有用信息的網絡工具。我們通常使用一個或多個命令收集相應的信息,在給定情況下,確定使用什么命令獲取所需要的信息。譬如,通過IP協議來測定設備是否可達到的常用方法是使用ping命令。ping從源點向目標發出ICMP信息包,如果成功的話,返回的ping信息包就證實從源點到目標之間所有物理層、數據鏈路層和網羅層的功能都運行正常。如何在互聯網絡運行后了解它的信息,了解網絡是否正常運行,監視和了解網絡在正常條件下運行細節,了解出現故障的情況。監視那些內容呢?利用showinterface命令可以非常容易地獲得待檢查的每個接口的信息。另外showbuffer命令提供定期顯示緩沖區大小、用途及使用狀況等。Showproc命令和showprocmem命令可用于跟蹤處理器和內存的使用情況,可以定期收集這些數據,在故障出現時,用于診斷參考。
網絡故障以某種癥狀表現出來,故障癥狀包括一般性的(象用戶不能接入某個服務器)和較特殊的(如路由器不在路由表中)。對每一個癥狀使用特定的故障診斷工具和方法都能查找出一個或多個故障原因。一般故障排除模式如下:第一步,當分析網絡故障時,首先要清楚故障現象。應該詳細說明故障的癥侯和潛在的原因。為此,要確定故障的具體現象,然后確定造成這種故障現象的原因的類型。例如,主機不響應客戶請求服務??赡艿墓收显蚴侵鳈C配置問題、接口卡故障或路由器配置命令丟失等。第二步,收集需要的用于幫助隔離可能故障原因的信息。向用戶、網絡管理員、管理者和其他關鍵人物提一些和故障有關的問題。廣泛的從網絡管理系統、協議分析跟蹤、路由器診斷命令的輸出報告或軟件說明書中收集有用的信息。第三步,根據收集到的情況考慮可能的故障原因。可以根據有關情況排除某些故障原因。例如,根據某些資料可以排除硬件故障,把注意力放軟件原因上。對于任何機會都應該設法減少可能的故障原因,以至于盡快的策劃出有效的故障診斷計劃。第四步,根據最后的可能的故障原因,建立一個診斷計劃。開始僅用一個最可能的故障原因進行診斷活動,這樣可以容易恢復到故障的原始狀態。如果一次同時考慮一個以上的故障原因,試圖返回故障原始狀態就困難的多了。第五步,執行診斷計劃,認真做好每一步測試和觀察,直到故障癥狀消失。第六步,每改變一個參數都要確認其結果。分析結果確定問題是否解決,如果沒有解決,繼續下去,直到解決。
四.網絡故障分層診斷技術
1.物理層及其診斷
物理層是OSI分層結構體系中最基礎的一層,它建立在通信媒體的基礎上,實現系統和通信媒體的物理接口,為數據鏈路實體之間進行透明傳輸,為建立、保持和拆除計算機和網絡之間的物理連接提供服務。
物理層的故障主要表現在設備的物理連接方式是否恰當;連接電纜是否正確;MODEM、CSU/DSU等設備的配置及操作是否正確。
確定路由器端口物理連接是否完好的最佳方法是使用showinterface命令,檢查每個端口的狀態,解釋屏幕輸出信息,查看端口狀態、協議建立狀態和EIA狀態。
2.數據鏈路層及其診斷
數據鏈路層的主要任務是使網絡層無須了解物理層的特征而獲得可靠的傳輸。數據鏈路層為通過鏈路層的數據進行打包和解包、差錯檢測和一定的校正能力,并協調共享介質。在數據鏈路層交換數據之前,協議關注的是形成幀和同步設備。
查找和排除數據鏈路層的故障,需要查看路由器的配置,檢查連接端口的共享同一數據鏈路層的封裝情況。每對接口要和與其通信的其他設備有相同的封裝。通過查看路由器的配置檢查其封裝,或者使用show命令查看相應接口的封裝情況。
3.網絡層及其診斷
網絡層提供建立、保持和釋放網絡層連接的手段,包括路由選擇、流量控制、傳輸確認、中斷、差錯及故障恢復等。
排除網絡層故障的基本方法是:沿著從源到目標的路徑,查看路由器路由表,同時檢查路由器接口的IP地址。如果路由沒有在路由表中出現,應該通過檢查來確定是否已經輸入適當的靜態路由、默認路由或者動態路由。然后手工配置一些丟失的路由,或者排除一些動態路由選擇過程的故障,包括RIP或者IGRP路由協議出現的故障。例如,對于IGRP路由選擇信息只在同一自治系統號(AS)的系統之間交換數據,查看路由器配置的自治系統號的匹配情況。
五.路由器接口故障排除
1.串口故障排除
串口出現連通性問題時,為了排除串口故障,一般是從showinterfaceserial命令開始,分析它的屏幕輸出報告內容,找出問題之所在。串口報告的開始提供了該接口狀態和線路協議狀態。接口和線路協議的可能組合有以下幾種:1)串口運行、線路協議運行,這是完全的工作條件。該串口和線路協議已經初始化,并正在交換協議的存活信息。2)串口運行、線路協議關閉,這個顯示說明路由器與提供載波檢測信號的設備連接,表明載波信號出現在本地和遠程的調制解調器之間,但沒有正確交換連接兩端的協議存活信息。可能的故障發生在路由器配置問題、調制解調器操作問題、租用線路干擾或遠程路由器故障,數字式調制解調器的時鐘問題,通過鏈路連接的兩個串口不在同一子網上,都會出現這個報告。3)串口和線路協議都關閉,可能是電信部門的線路故障、電纜故障或者是調制解調器故障。4)串口管理性關閉和線路協議關閉,這種情況是在接口配置中輸入了shutdown命令。通過輸入noshutdown命令,打開管理性關閉。
接口和線路協議都運行的狀況下,雖然串口鏈路的基本通信建立起來了,但仍然可能由于信息包丟失和信息包錯誤時會出現許多潛在的故障問題。正常通信時接口輸入或輸出信息包不應該丟失,或者丟失的量非常小,而且不會增加。如果信息包丟失有規律性增加,表明通過該接口傳輸的通信量超過接口所能處理的通信量。解決的辦法是增加線路容量。查找其他原因發生的信息包丟失,查看showinterfaceserial命令的輸出報告中的輸入輸出保持隊列的狀態。當發現保持隊列中信息包數量達到了信息的最大允許值,可以增加保持隊列設置的大小。
2.以太接口故障排除
以太接口的典型故障問題是:帶寬的過分利用;碰撞沖突次數頻繁;使用不兼容的幀類型。使用showinterfaceethernet命令可以查看該接口的吞吐量、碰橦沖突、信息包丟失、和幀類型的有關內容等。
1)通過查看接口的吞吐量可以檢測網絡的利用。如果網絡廣播信息包的百分比很高,網絡性能開始下降。光纖網轉換到以太網段的信息包可能會淹沒以太口?;ヂ摼W發生這種情況可以采用優化接口的措施,即在以太接口使用noiproute-cache命令,禁用快速轉換,并且調整緩沖區和保持隊列。
2)兩個接口試圖同時傳輸信息包到以太電纜上時,將發生碰橦。以太網要求沖突次數很少,不同的網絡要求是不同的,一般情況發現沖突每秒有3、5次就應該查找沖突的原因了。碰橦沖突產生擁塞,碰橦沖突的原因通常是由于敷設的電纜過長、過分利用、或者“聾”節點。以太網絡在物理設計和敷設電纜系統管理方面應有所考慮,超規范敷設電纜可能引起更多的沖突發生。
3)如果接口和線路協議報告運行狀態,并且節點的物理連接都完好,可是不能通信。引起問題的原因也可能是兩個節點使用了不兼容的幀類型。解決問題的辦法是重新配置使用相同幀類型。如果要求使用不同幀類型的同一網絡的兩個設備互相通信,可以在路由器接口使用子接口,并為每個子接口指定不同的封裝類型。
3.異步通信口故障排除
互連網絡的運行中,異步通信口的任務是為用戶提供可靠服務,但又是故障多發部位。主要的問題是,在通過異步鏈路傳輸基于LAN通信量時,將丟失的信息包的量降止最少。
異步通信口故障一般的外部因素是:撥號鏈路性能低劣;電話網交換機的連接質量問題;調制解調器的設置。檢查鏈路兩端使用的調制解調器:連接到遠程PC機端口調制解調器的問題不太多,因為每次生成新的撥號時通常都初始化調制解調器,利用大多數通信程序都能在發出撥號命令之前發送適當的設置字符串;連接路由器端口的問題較多,這個調制解調器通常等待來自遠程調制解調器的連接,連接之前,并不接收設置字符串。如果調制解調器丟失了它的設置,應采用一種方法來初始化遠程調制解調器。簡單的辦法是使用可通過前面板配置的調制解調器,另一種方法是將調制解調器接到路由器的異步接口,建立反向telnet,發送設置命令配置調制解調器。
showinterfaceasync命令、showline命令是診斷異步通信口故障使用最多的工具。showinterfaceasync命令輸出報告中,接口狀態報告關閉的唯一的情況是接口沒有設置封裝類型。線路協議狀態顯示與串口線路協議顯示相同。showline命令顯示接口接收和傳輸速度設置以及EIA狀態顯示。showline命令可以認為是接口命令(showinterfaceasync)的擴展。showline命令輸出的EIA信號及網絡狀態:
noCTSnoDSRDTRRTS:調制解調器未與異步接口連接。
CTSnoDSRDTRRTS:調制解調器與異步接口連接正常,但未連接遠程調制解調器。
CTSDSRDTRRTS:遠程調制解調器撥號進入并建立連接。
確定異步通信口故障一般可用下列步驟:檢查電纜線路質量;檢查調制解調器的參數設置;檢查調制解調器的連接速度;檢查rxspeed和txspeed是否與調制解調器的配置匹配;通過showinterfaceasync命令和showline命令查看端口的通信狀況;從showline命令的報告檢查EIA狀態顯示;檢查接口封裝;檢查信息包丟失及緩沖區丟失情況。
關鍵詞:網絡故障;故障檢測;故障定位;故障診斷;專家系統;數據挖掘;神經網絡
中圖分類號:TP393.06
隨著計算機、通信以及互聯網技術的飛速發展及應用,網絡作為一種重要的工具,在軍事、政治、經濟和科研等諸多領域起著越來越重要的作用,已經成為社會生產和生活必不可少的一部分。與此同時,網絡的規模和復雜性不斷增大,一旦網絡發生故障,如果不能在有效時間內對網絡故障進行診斷與修復,將會造成巨大的損失,甚至嚴重威脅社會的安全與穩定,因此對網絡故障診斷技術進行研究具有越來越重要的應用價值和現實意義。
1 網絡故障診斷一般過程
通常來說,網絡故障診斷是以網絡原理、網絡配置和網絡運行的知識為基礎,根據網絡出現的故障現象,并使用專門的網管理和檢測工具以獲取告警信息進而對網絡中出現的故障進行診斷、恢復以及預測的過程,一般可分為以下五個部分[1]:
(1)故障檢測,即網絡故障告警信息的獲取。網絡發生故障時,通過主動輪詢或異步收集方式,對網絡中的相關設備或服務的相關告警信息、設置和性能參數,狀態信息等進行收集和分析,及時發現網絡出現的故障及問題。
(2)故障定位,即定位故障源。對故障檢測階段收集的海量告警數據進行分析和處理,在網絡中找出故障,為下一步的故障原因的診斷提供依據。
(3)故障原因的診斷,即查找故障產生的根源。根據故障定位的結果綜合運用各種規則進行系統的推理,快速的找到故障產生的原因或者最可能的原因。
(4)故障修復。根據網絡故障診斷結果修復網絡故障,恢復網絡的正常運行。
(5)故障預測,即根據先驗知識和監測數據預測網絡可能發生的故障。
其中故障檢測,故障定位,故障原因診斷是必不可少的三個步驟,下面將重點對上述三個步驟進行詳細的介紹。
2 網絡故障檢測
通常計算機網絡通過以下兩種方式收集信息,通過分析收集到的信息來檢測故障[2]。
(1)Trap機制。在網絡中每一個被管設備中都要運行一個程序以便和管理站中的管理程序進行通信。
(2)主動輪詢。網絡中發生故障的被管設備或服務主動向網絡管理系統發出告警信息,能夠及時發現網絡中的故障,網絡管理系統還需通過主動輪詢這種方式了解與網絡性能密切相關的信息,并對這些影響網絡性能信息設置閾值,來判斷網絡性能,超過設定閾值也會觸發事件。
3 網絡故障定位
網絡系統中,一般通過監測被管設備或服務等各種方法獲取大量原始告警數據或歷史積累信息,這些數據往往由于通信系統的復雜性、網絡結構異構性、噪聲、外界因素、因果關系等原因而具有相當大的不確定性和不精確性,導致故障癥狀和故障原因都存在非線性映射關系,需要利用關聯技術對數據進行處理和分析才有效的進行故障定位[3],目前常用的故障定位技術主要有下面幾種:
3.1 基于人工智能的故障定位技術
3.1.1 基于規則的推理技術
基于規則的推理(Rule-based Reason,RBR)是最簡單的關聯技術,已被用于多種構架。一般而言,基于規則的系統由三個組成部分組成,如圖1所示。
(1)推理引擎,主要提供解決問題所需要的策略。
(2)知識庫,提供和定義與問題相關的規則和專家知識。
(3)工作內存,主要提供解決問題所需要的數據。
在基于規則的推理的網絡故障定位系統中,知識庫充當一個專家的角色,利用從人類專家獲取專家積累的經驗和知識,這些知識主要包括對網絡問題的定義以及當某一特定問題發生時,網絡故障定位系統需要執行的操作。工作內存主要是利用具體的網絡協議對網絡中的被管設備或服務進行監測,得到有關被管設備或服務的各種信息。在對網絡故障進行定位時,推理引擎與知識庫共同合作,將監測得到的網絡中被管設備或服務的狀態信息與知識庫中定義好的條件部分進行比對,根據條件滿足與否,來進行網絡故障的定位。
基于規則的網絡故障定位系統,由于無需對專家系統的具體結構和操作細節進行深入了解,從而具有結構簡單等諸多優點,并且實現起來比較簡單,非常適用于小型系統。但是基于規則的網絡故障定位系統在匹配規則時,需要網絡狀態與知識庫中的規則條件精確匹配,否則將推出整個推理過程,無法定位故障,并且規則存在不易維護性和指數增長性,所有這些缺點決定了基于規則的網絡故障定位系統不適用大型系統。
3.1.2 基于模型的推理技術
基于模型的推理(Model-based Reason,MBR)是建立在面向對象上的基礎之上,利用現有的專家經驗和知識,將具體的目標系統中的實體都模型化診斷對象,并且明確地表現出現實目標系統中對象之間存在的各種關聯關系,再根據系統模型對具體的目標系統的行為進行推測。由于通常情況下,具體的目標系統與理想的系統模型之間存在差異性,因此基于模型的推理的專家系統需要對推測的行為和目標系統的實際行為進行不一致診斷,以確定具體目標系統中的故障根源。
為了更好地說明基于模型的推理專家系統的工作流程,文獻[4]使用一個物理模型和對應的對等模型分別如圖2、3所示的網絡系統。網絡系統按一定的周期,有規律的向圖2中的被管設備發送ping命令以監測網絡系統中的被管設備是否運行正常。管理系統和被管設備之間通過一個模型對象實現彼此之間的相互通信,具體來說,如圖2所示,系統中的集線器模型向被管設備集線器發送ping命令,路由器模型則向被管設備路由器發送ping命令。當目標網絡發生故障時,如果故障發生在集線器1,則集線器1模型可以將其發現并且識別出來,如果集線器1模型連續3次向被管設備集線器1發送ping命令,在3次響應超時以后,集線器模型1根據現有的網絡現象推測被管設備集線器1有可能發生故障,或者說目標系統中的故障位于集線器1。集線器1模型則會在確定故障并正式發送告警信息之前,集線器1模型將分析自身與圖2中其他被管設備的模型之間的關系以此來確定其是否應該詢問網絡中路由器模型,如網絡中的路由器模型返回的是相應的被管路由器設備工作處于正常狀態,則集線器1觸發警報。
3.1.3 基于范例的推理技術
基于范例的推理(Case-based Reason,CBR)故障定位技術與前面的基于規則推理技術和基于模型推理技術相比具有很大的差異性,主要因為基于范例的推理技術的思想源于人類現實生活,主要根據過去積累的實際經驗或經歷,利用類比的推理方法對現有的新問題做出相似的解答,然后根據新問題與舊問題之間的差異對解答進行修改從而得到新問題的完全解答。基于范例推理的網絡故障定位技術主要由四個部分組成,檢索 (Retrieve)、復用(Reuse)、修正(Revise)、保存(Retain),簡稱4R過程。
基于范例推理的故障定位技術與基于規則推理的故障定位技術相比,由于在基于范例推理的故障定位技術中檢索只是基于對案例的部分匹配,而基于規則推理的故障定位技術則是完全匹配,因此基于范例推理的故障定位技術對網絡配置變化的適應度更好,更適用于問題的總體解決方案。
3.2 模型遍歷技術
模型遍歷技術(Model traversing techniques)是一種構建網絡故障傳播模型的方法,該方法在構建故障傳播模型時,主要根據網絡在運行時各種被管對象之間的相互關系,并且按照從引起事件的被管對象開始的順序進行構建。該方法主要適用于網絡中被管對象之間的相互關系類似于圖形,并且一般情況下較容易獲取的情況,并且在系統配置變化較頻繁時該方法的魯棒性很好。模型遍歷技術主要具有兩大特點,事件驅動和事件關聯,所謂事件驅動是指在一個故障癥狀報告到來之前,系統一直處于等待故障癥狀狀態;事件關聯則是確定兩個故障癥狀是否來源同一個事件源。
一般情況下,模型遍歷技術需要在其事件報告中明確標識網絡系統中故障的征兆類型、征兆目標等相關信息,如果網絡系統中出現故障征兆,且不妨用si來表示該故障征兆,當si的目標和si來源相同,則說明si是一個次要征兆也就說明某些告警信息可以被忽略。模型遍歷技術的整個處理可分為以下3步:
(1)首先,對網絡中的每個事件,依據網絡在運行時各種被管對象之間的相互關系對其構建一個和事件源相關的對象圖。
(2)當給定的兩個事件的對象圖相交時,此時說明兩個圖至少包含同一個對象,則認為這兩個對象圖的事件源是關聯的。
(3)當給定三個故障癥狀si,sj,sk,其中si,sj相互關聯,sj,sk相互關聯,則根據故障癥狀的傳遞性可知si是一個次要的故障癥狀。
4 網絡故障原因診斷
(1)基于信號處理方法。該方法主要是依據信號模型,直接對網絡系統中的可測信號進行分析與處理,并通過提取可測信號的頻率等特征值,對網絡中存在的故障原因進行診斷。
(2)基于解析模型的方法?;诮馕瞿P偷姆椒ㄖ饕罁祵W模型和數學方法來進行故障原因的診斷,在診斷時需要建立對象的精確數學模型。
(3)基于知識檢測的方法。與基于解析模型方法相比,此方法最大的特點在于其并不需要對象的精確數學模型就可以對網絡中的故障原因進行診斷。
下面主要介紹幾種目前國內外研究學者研究比較多的基于知識檢測的方法,基于專家系統故障原因診斷方法和基于模糊理論故障原因診斷方法以及基于BP神經網絡故障原因檢測方法。
4.1 基于專家系統故障原因診斷方法
基于專家系統故障原因診斷系統主要是利用人類專家的經驗和歷史積累診斷數據,使用一定的方法將其轉化為系統能夠識別的規則存在專家系統的知識庫中。當網絡中出現故障時,診斷系統利用專家系統知識庫中的規則,對發生故障網絡中的被管對象的各項性能參數進行處理與分析以正確的確定網絡故障發生的具體原因[5]。組成由人機接口、推理機、知識庫等六部分組成:
目前,國內外學者公認的專家系統瓶頸是知識獲取問題,因為專家系統在診斷過程中主要依賴于從人類專家領域內獲取的知識、經驗和以往診斷數據,而這些獲取起來途徑有限,操作起來具有一定的局限性和復雜性。另外,專家系統在實時性和學習能力等方面也存在一定的局限性,因此目前通常將專家系統同其他方法相結合以提高專家系統在這些方面存在的局限性和不足。
4.2 模糊故障診斷方法
很多時候,網絡中的故障與系統得到的網絡現象之間存在非線性的映射關系,這種非線性的映射關系很難用確定的數學公式或者模型來刻畫,相應的在故障原因診斷時,很難給出故障的精確原因。相反,只能給出故障發生的可能原因。對于這種存在一定模糊性的問題,可以使用模糊邏輯來解決。
目前使用的比較多的是向量識別法,其診斷過程可分為以下3步:
首先,需要根據網絡中的故障與表征網絡故障的數據,建立二者之間的關系,通常用關系矩陣R來表示。
其次,對需要診斷的目標網絡系統(對象)進行狀態檢測,提取相關的特征參數以構建特征向量矩陣X。
最后,根據模糊理論和矩陣理論,求解前面兩步構建的關系矩陣方程Y=X?R,得到關系矩陣方程的解Y,再根據隸屬度等原則,對目標網絡系統的故障向量Y進行處理,得到故障的原因。
從上述診斷過程可知,在模糊故障診斷中,正確的進行故障原因診斷的前提是建立關系矩陣R、隸屬函數、特征值向量X,而這些矩陣、函數、向量的建立是人為構造而成,難免具有一定的主觀性,并且由于該模糊診斷方法對特征元素的選取也有一定的要求,所以兩者若處理不當,會導致該方法的診斷結果精度嚴重下降甚至完全錯誤。
4.3 BP神經網絡診斷方法
由于人工神經網絡的這些特性以及網絡中故障與征兆之間有可能存在的非線性映射關系,使得人工神經網絡在網絡故障診斷中大有用武之地。目前,人工神經網絡已經大量應用在網絡故障診斷領域。BP神經網絡是常用的人工神經網絡模型[6]。
BP神經網絡故障診斷分為訓練和診斷兩個階段:
(1)訓練階段。BP神經網絡對樣本進行訓練,以選定網絡結構和規模,確定網絡總層數、各層神經元數。借助BP學習算法,將原始網絡收集到的故障樣本的特征參數作為BP神經網絡輸入樣本集,以與之對應的網絡故障原因編碼為BP神經網絡的輸出,以此對BP神經網絡進行訓練。
(2)故障診斷階段。主要對待檢測對象的故障樣本進行特征提取和歸一化處理,然后輸入到BP神經網絡進行診斷輸出診斷結果,整個過程分為以下4個步驟:1)故障樣本集預處理。2)BP網絡結構設計。3)訓練BP神經網絡。4)故障診斷。
5 結束語
本文對網絡故障的概念以及基本過程進行了概述,重點對當前網絡故障中的故障檢測、故障定位、故障診斷的關鍵技術及方法進行了研究和總結歸納,對開展網絡故障診斷技術研究具有一定的指導意義。
參考文獻:
[1]王成等.網絡故障診斷技術研究[J].科技信息,2011(11).
[2]陳琳.一種網絡環境中的故障診斷模型[J].北京航空航天大學學報,2004(11).
[3]張燕.網絡故障診斷關鍵技術[J].電腦知識與技術,2009(31).
[4]李千目.戰略互聯網智能診斷技術研究[D].南京理工大學,2005.
[5]吳曉知,李興明.網絡故障管理專家系統中知識庫的構造[J].微計算機信息,2008(06).
[6]戚涌,劉鳳玉.基于BP神經網絡的網絡智能診斷系統[J].微電子學與計算機,2004(10).
【關鍵詞】網絡故障,網絡維護,物理故障,邏輯故障,分類
中圖分類號:TN711 文獻標識碼:A 文章編號:
一、前言
隨著網絡應用的普及,人們對網絡的正常穩定運行提出了越來越高的要求。如果運行中的網絡出現了故障,都會給使用者造成不同程度的影響,輕則使一些用戶不能正常使用網絡,嚴重的會導致整個網絡癱瘓,不能使用。常見的網絡故障分為兩大類:物理故障和邏輯故障。遇到故障時,通常來說按先物理故障再邏輯故障的順序進行檢查。網絡出現故障后應及時的進行維護,以最快的速度恢復網絡的正常運行。
二、網絡故障的分類
網絡故障有很多種,故障產生的原因、部位和造成的影響也是不同的。以網絡故障的性質可分為物理故障和邏輯故障。物理故障一般指的是發生在線路、設備等硬件類故障問題,例如:端口故障,線路故障,交換機或路由器故障,主機物理故障等。而邏輯故障則包涵主機邏輯故障,一些重要進程或端口關閉等故障。
三、網絡維護的步驟
1、識別故障并對故障進行描述;
2、收集故障的相關信息并確定其定義和故障影響的范圍;
3、列舉出可能造成這些故障的原因,確定范圍找出故障;
4、設計診斷故障的方案,按照診斷方案解決故障;
5、對這個解決方案進行備忘,盡量設計出預防措施
四、排除網絡故障的思路
當我們遇到網絡故障的時候,我們要迅速的找到故障的位置,而且還要確定故障發生的原因。分時網絡故障的時候,先要弄清出故障的現象,仔細地了解故障的潛在原因。盡可能收集需要用于幫助隔離可能的故障的原因。其次,列舉出可能導致故障的原因并且根據相關情況一個一個的分析,盡量降低排除故障的工作的復雜度,比如根據某些信息排除硬件故障,從而把注意力放在一些有疑點的軟件上。最后,要認真仔細地做好每一步的觀察測試工作,當改變一個參數后都要確認結果,確定問題有沒有解決掉,若故障沒有被解決,則要繼續下去直到故障消除。
五、常見網絡故障排除
造成網絡故障的原因突出顯示,但總體上來說就是軟件問題和硬件問題,準確的說是網絡連通性故障、網絡協議故障和網絡配置故障。
在日常的網絡維護中,線路故障的發生率非常的高,大約占發生網絡故障的70%。線路相關的故障一般包括網線、水晶插頭的損壞或者是水晶頭與線的接觸不良導致的線路故障。電纜連接問題是經常出現的,特別要注意受損的電纜、電纜類型不正確或線路受到嚴重電磁干擾等。
對于這類問題最簡單的解決方法就是通過目測的方法來判斷電纜的連接性。仔細檢查交換機、 HUB、收發器或網卡等網絡設備的狀態燈, 從狀態燈的點亮或閃爍情況就可以判斷電纜是不是連通的。對于電磁干擾這些故障的排查,屏蔽性比較強的屏蔽線可以被用在該段網路上進行通信測試,假如通信是正常的,那就表明存在明顯的電磁干擾,要注意遠離像高壓電線等電磁場較強的地方。
集線器、交換機和路由器故障是指它們由于物理損壞,無法工作,導致網絡不通。解決這個故障的方法就是用替換排除的方法, 用正常通信的網線連接主機集線器或路由器,連接后如若能正常通信的話, 那么集線器或路由器是完好的;連接后不能正常通信的話,接下來就轉換集線器端口然后進行排查,看端口和集線器或路由器哪個出現了故障;大多數時候, 集線器或路由器的指示燈也能夠提示其是否有故障, 在正常情況下對應端口的燈應是綠燈。若一直不能正常通信, 則可以認定它是集線器或路由器發生了故障。
對于網卡故障,由于網卡多裝在主機內, 要靠主機才能完成配置和通信, 也可以看作網絡終端。這類故障一般包括網卡松動, 主機的網卡插槽故障,網卡物理故障和主機本身的故障。對于網卡接觸的故障的解決辦法就是拔出網卡,將它的金屬部分用鐵砂紙擦掉其氧化層再插入使用。對由于網卡的松動和主機的網卡插槽有故障這種情況,解決的辦法就是更換新的網卡插槽。對網卡物理故障的情況, 如果以上更換插槽的辦法也解決不了問題的話,那就要拿到其他正常工作的主機上進行網卡測試,如果仍然是無法工作的話,通??梢哉J定是網卡物理損壞了,買個新的網卡后換掉就能解決問題了。
至于邏輯類的網絡故障,那是由于網絡設備配置不正確而導致的網絡故障,通常叫做邏輯。路由器邏輯故障一般包括路由器的端口參數設定不正確、路由器的路由配置錯誤、路由器的CPU利用率過高和路由器內存余量太小等等。路由器有誤的端口參數設定就可能會導致找不到遠端地址。這時候用Ping命令或者是Traceroute命令查看故障發生在遠端地址的哪個環節點,找出問題后先檢查再修復該節點的參數。路由器路由配置錯誤會使路由不斷循環,該故障可以用Traceroute工具解決,能夠發現在Traceroute的結果中在某一段之后, 兩個IP 地址會循環出現。這時,通常就是線路遠端把端口路由又指向了線路近端, 導致IP包在該線路上不斷反復傳遞。解決路由循環故障的方法就得重新配置路由器端口的靜態路由或者動態路由,把路由設置改為正確的配置,就能恢復線路了。
主機的網絡地址參數設置不正確是日常生活中常見的主機邏輯故障問題。例如,主機配置的IP地址和其他的主機發生沖突,或IP地址原本就不在正確網段范圍以內,因此,這將會導致該主機不能連通。這個故障的診斷方法就是鼠標右鍵查看網絡鄰居屬性中的連接屬性窗口,查看TCP/IP選項參數設置是否正確,這包括IP地址、網關、子網掩碼和DNS參數,特別是要仔細查看有沒有重復的IP地址。
對于一些受系統或病毒影響而導致意外關閉的有關網絡連接數據參數的重要進程或端口。像意外關閉的路由器的SNMP進程,這時候網絡管理系統將從路由器中采集不到任何的數據,因此,網絡管理系統失去了對該路由器的控制權,又或者線路一直中斷,沒有流量無法聯網。對于這個故障,我們可以用Ping線路近端的端口看是否能進行Ping通,如果Ping不通,就要檢查該端口是否處于down 的狀態, 如果是由于該端口被關閉了所以導致的故障,只需要重新啟動該端口就可以恢復線路的連通了。
六、結束語
由于計算機網絡技術快速的發展,網絡故障也越來越復雜,本文就介紹了常見的幾類故障及其排查維護的方法。為了能在網絡出現故障后快速及時地對網絡進行修復和維護,以最快的速度恢復網絡的正常健康運行,就有必要建立完整的故障維護文檔,以供以后遇到類似的問題時及時查詢。養成做網絡維護日志的良好習慣并堅持下去,尤其是對那些發生概率低但是一些概率高的故障和危害相當大的故障,對每臺電腦都要記錄好完整的維護文檔有利于以后故障的排查和解決,這也是積累經驗的一種很好的方式。還有就是提高網絡安全防范意識,提高網絡運行的可靠性,并且為主機加裝最新的操作系統的補丁程序和防火墻、防黑客等程序而且還要經常更新,防止漏洞的出現。嚴格的網絡管理是減少網絡故障的重要手段之一,完善的技術檔案在排除網絡故障的時候可以作為重要參考,有效的測試工具和監視工具則是預防、解決網絡故障的強有力助手,從而做到以不變應萬變,輕松地解決掉網絡故障問題。
參考文獻:
關鍵詞:網絡故障診斷;路由器;分層診斷技術;網絡接口
中圖分類號:TP393文獻標識碼:A
文章編號:1009-2374 (2010)25-0070-02
0引言
計算機網絡是指將地理位置不同的具有獨立功能的多臺計算機及其外部設備,通過通信線路連接起來,在網絡操作系統,網絡管理軟件及網絡通信協議的管理和協調下,實現資源共享和信息傳遞的計算機系統。實現計算機網絡有四個基本要素:通信線路和通信設備;有獨立功能的計算機;網絡軟件軟件支持;實現數據通信與資源共享。所以網絡故障無非就是這四個方面的故障。本文先介紹網絡和路由器的基本概念,而后通過介紹網絡分層診斷技術來詳細闡述排除網絡連通性故障的方法。
1網絡與路由器概述
網絡診斷是一門綜合性技術,涉及網絡技術的方方面面。為方便下面的討論,首先回顧一下網絡和路由器的基本概念。
(1)計算機網絡按其覆蓋范圍通常被分為局域網和廣域網。局域網覆蓋地理范圍較小,一般在數米到數十公里之間。廣域網覆蓋地理范圍較大。按拓撲分類可分為總線型,星型,環形以及網狀網絡。
(2)為了完成計算機間的通信,把每部計算機互連的功能劃分成定義明確的層次,規定了同層進程通信的協議及相鄰層之間的接口和服務,將這些層、同層進程通信的協議及相鄰層之間的接口統稱為網絡體系結構。國際標準化組織(ISO)提出的開放系統互連參考模型(OSI)是當代計算機網絡技術體系的核心。該模型將網絡劃分為7個層次:物理層、數據鏈路層、網絡層、傳輸層、會話層、表示層和應用層。
(3)Internet依靠TCP/IP協議,在全球范圍內實現不同硬件結構、不同操作系統、不同網絡系統的互聯。在Internet上,每一個節點都依靠唯一的IP地址互相區分和相互聯系。IP地址是一個32位二進制數的地址,由4個8位字段組成,每個字段之間用點號隔開,用于標識TCP/IP宿主機。
(4)路由器(Router)是用于連接多個邏輯上分開的網絡,所謂邏輯網絡是代表一個單獨的網絡或者一個子網。當數據從一個子網傳輸到另一個子網時,可通過路由器來完成。因此,路由器具有判斷網絡地址和選擇路徑的功能,它能在多網絡互聯環境中,建立靈活的連接,可用完全不同的數據分組和介質訪問方法連接各種子網,路由器只接受源站或其他路由器的信息,屬網絡層的一種互聯設備。路由器技術始終處于核心地位。
2網絡故障診斷概述
網絡故障診斷有以下三方面的目的:確定網絡的故障點,恢復網絡的正常運行;找到網絡配置和規劃中的欠缺之處,改善和優化網絡的性能;觀察網絡的運行狀況,及時預測網絡通信質量。
網絡故障診斷以網絡原理、網絡配置和網絡運行的知識為基礎。從故障現象出發,以網絡診斷工具為手段獲取診斷信息,確定網絡故障點,查找問題的根源,排除故障,恢復網絡正常運行。
網絡診斷可以使用包括局域網或廣域網分析儀在內的多種工具:路由器診斷命令;網絡管理工具和其它故障診斷工具。CISCO提供的工具足以勝任排除絕大多數網絡故障。查看路由表,是解決網絡故障開始的好地方。ICMP的ping、trace命令和Cisco的show命令、debug命令是獲取故障診斷有用信息的網絡工具。
網絡故障的故障癥狀包括一般性和較特殊的。一般故障排除模式如下:第一步,當分析網絡故障時,首先要清楚故障現象;第二步,收集需要的可能的故障原因信息,充分了解故障現象;第三步,根據收集到的情況考慮可能的故障原因,然后根據具體故障現象排除不符合的故障原因;第四步,根據最后的可能的故障原因,建立一個診斷計劃;第五步,執行診斷計劃,認真做好每一步測試和觀察,直到故障癥狀消失;第六步,每改變一個參數都要確認其結果。
3網絡故障分層診斷技術
3.1物理層及其診斷
物理層是第一層,它雖然處于最底層,卻是整個開放系統的基礎。物理層為設備之間的數據通信提供傳輸媒體及互連設備,為數據傳輸提供可靠的環境。
物理層的故障主要表現在設備的物理連接方式是否正確;MODEM、CSU/DSU等設備的配置及操作是否正確。可以使用show interface命令來檢查路由器各端口物理連接是否正常,檢查端口狀態,EIA狀態和協議建立狀態。
3.2數據鏈路層及其診斷
數據鏈路層是OSI參考模型的第二層,該層解決兩個相鄰結點之間的通信問題,實現兩個相鄰結點鏈路上無差錯的協議數據單元傳輸。數據鏈路層傳輸的協議數據單元稱為數據幀。數據鏈路層不關心數據包中包含什么信息,而僅是將其傳遞到網絡中的下一結點。
3.3網絡層及其診斷
網絡層提供建立、保持和釋放網絡層連接的手段,包括路由選擇、流量控制、傳輸確認、中斷、差錯及故障恢復等。
排除網絡層故障的基本方法是:沿著從源到目標的路徑,查看路由器路由表,同時檢查路由器接口的IP地址。如果路由沒有在路由表中出現,應該通過檢查來確定是否已經輸入適當的靜態路由、默認路由或者動態路由。然后手工配置一些丟失的路由,或者排除一些動態路由選擇過程的故障,包括RIP或者IGRP路由協議出現的故障。
4路由器接口故障排除
4.1串口故障排除
串口出現連通性問題時,為了排除串口故障,一般是從show interface serial命令開始,分析它的屏幕輸出報告內容,找出問題之所在。串口報告的開始提供了該接口狀態和線路協議狀態。接口和線路協議的可能組合有以下幾種:串口運行、線路協議運行,這是完全的工作條件。該串口和線路協議已經初始化,并正在交換協議的存活信息;串口運行、線路協議關閉,這個顯示說明路由器與提供載波檢測信號的設備連接,表明載波信號出現在本地和遠程的調制解調器之間,但沒有正確交換連接兩端的協議存活信息;串口和線路協議都關閉,可能是電信部門的線路故障、電纜故障或者是調制解調器故障;串口管理性關閉和線路協議關閉,這種情況是在接口配置中輸入了shutdown命令。通過輸入no shutdown命令,打開管理性關閉。
正常通信時接口輸入或輸出信息包不應該丟失,或者丟失的量非常小,而且不會增加。如果信息包丟失有規律性增加,表明通過該接口傳輸的通信量超過接口所能處理的通信量。解決的辦法是增加線路容量。
4.2以太接口故障排除
以太接口的典型故障問題是:帶寬的過分利用;碰撞沖突次數頻繁;使用不兼容的類型。使用show interface ethernet命令可以查看該接口的吞吐量、碰H沖突、信息包丟失、和類型的有關內容等。
(1)通過查看接口的吞吐量可以檢測網絡的利用。如果網絡廣播信息包的百分比很高,網絡性能開始下降。光纖網轉換到以太網段的信息包可能會淹沒以太口?;ヂ摼W發生這種情況可以采用優化接口的措施,即在以太接口使用no ip route-cache命令,禁用快速轉換,并且調整緩沖區和保持隊列。
(2)兩個接口試圖同時傳輸信息包到以太電纜上時,將發生碰H。以太網要求沖突次數很少,不同的網絡要求是不同的,一般情況發現沖突每秒有三五次就應該查找沖突的原因了。
(3)如果節點的物理連接正常,接口和線路協議報告運行狀態也正常,可是還是不能通信。原因可能是兩個節點使用了不兼容的幀類型??梢試L試重新配置使用相同幀類型。
4.3異步通信口故障排除
互聯網絡的運行中,異步通信口的任務是為用戶提供可靠服務,但又是故障多發部位。
異步通信口故障一般的外部因素是:撥號鏈路性能低劣;電話網交換機的連接質量問題;調制解調器的設置。如果調制解調器丟失了它的設置,應采用一種方法來初始化遠程調制解調器。簡單的辦法是使用可通過前面板配置的調制解調器,另一種方法是將調制解調器接到路由器的異步接口,建立反向telnet,發送設置命令配置調制解調器。
show interface async 命令、show line命令是診斷異步通信口故障使用最多的工具。show interface async 命令輸出報告中,接口狀態報告關閉的唯一的情況是接口沒有設置封裝類型。線路協議狀態顯示與串口線路協議顯示相同。show line命令顯示接口接收和傳輸速度設置以及EIA狀態顯示。show line命令可以認為是接口命令(show interface async)的擴展。show line命令輸出的EIA信號及網絡狀態:
noCTS noDSR DTR RTS:調制解調器未與異步接口連接。
CTS noDSR DTR RTS:調制解調器與異步接口連接正常,但未連接遠程調制解調器。
CTS DSR DTR RTS:遠程調制解調器撥號進入并建立連接。
確定異步通信口故障一般可用下列步驟:檢查電纜線路質量;檢查調制解調器的參數設置;檢查調制解調器的連接速度;檢查rxspeed 和txspeed是否與調制解調器的配置匹配;通過show interface async 命令和 show line命令查看端口的通信狀況;從show line命令的報告檢查EIA狀態顯示;檢查接口封裝;檢查信息包丟失及緩沖區丟失情況。
5結語
網絡發生故障是不可避免的。網絡建成運行后,網絡故障診斷是網絡管理的重要技術工作。搞好網絡的運行管理和故障診斷工作,提高故障診斷水平需要注意以下幾方面的問題:認真學習有關網絡技術理論;清楚網絡的結構設計,包括網絡拓樸、設備連接、系統參數設置及軟件使用;了解網絡正常運行狀況、注意收集網絡正常運行時的各種狀態和報告輸出參數;熟悉常用的診斷工具,準確的描述故障現象。
參考文獻
[1] 李江,戴金萍,彭婷.淺談醫院網絡常見故障的分類診斷[J].中國管理信息化,2010,(7).
[2] 莊保新.網絡中的常見故障診斷及分析[J].硅谷,2010,(8).
[3] 代樹強.計算機網絡日常維護方略[J].硅谷,2010,(1).