Linux死機(jī)問(wèn)題分析定位_第1頁(yè)
Linux死機(jī)問(wèn)題分析定位_第2頁(yè)
Linux死機(jī)問(wèn)題分析定位_第3頁(yè)
Linux死機(jī)問(wèn)題分析定位_第4頁(yè)
Linux死機(jī)問(wèn)題分析定位_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、【精品文檔】如有侵權(quán),請(qǐng)聯(lián)系網(wǎng)站刪除,僅供學(xué)習(xí)與交流一、二、三、四、五、六、七、 Linux死機(jī)問(wèn)題分析定位.精品文檔.八、 現(xiàn)象初步判斷:1、 判定是否死機(jī):首先需要確定是否真正的死機(jī)了,而往往有些現(xiàn)象被現(xiàn)場(chǎng)誤認(rèn)為是死機(jī)了。是否死機(jī)的確定方法有如下:A、 對(duì)于直接死掉的,沒(méi)有任何反應(yīng)的情況下,看看鍵盤(pán)輸入是否有效,putty是否能夠登陸,BMC是否能夠登錄;B、 通過(guò)last reboot確認(rèn)是否死機(jī)?死機(jī)的時(shí)間?C、 通過(guò)在messages中對(duì)應(yīng)的時(shí)間點(diǎn)看是否有imklog啟動(dòng)的日志?并在這個(gè)時(shí)間點(diǎn)前是否收到關(guān)機(jī)信號(hào)或者異常打???D、 通過(guò)在boot.msg中對(duì)應(yīng)時(shí)間點(diǎn)有啟動(dòng)的相關(guān)記錄,并

2、同時(shí)查看在boot.omsg中是否有關(guān)機(jī)的相關(guān)日志打印?搜索:Shutting down關(guān)鍵字看是否存在關(guān)機(jī)2、 是否人為操作出現(xiàn)系統(tǒng)重啟現(xiàn)象,往往被認(rèn)為是系統(tǒng)死機(jī)后然后重啟的,這就通過(guò)重啟現(xiàn)象了來(lái)認(rèn)為系統(tǒng)死機(jī)過(guò),但是這種系統(tǒng)重啟是否是由于死機(jī)造成的,需要進(jìn)行確定。A、 通過(guò)同現(xiàn)場(chǎng)人員進(jìn)行溝通,確認(rèn)是否為人為的重啟?比如按電源、拔電源等人為動(dòng)作?B、 通過(guò)history中查詢(xún)?cè)谙到y(tǒng)重啟時(shí)的時(shí)間點(diǎn)附近有reboot或halt、shutdown、init?C、 通過(guò)在BMC日志中確認(rèn)是否有通過(guò)BMC的操作進(jìn)行系統(tǒng)的重啟操作?對(duì)于直接拔電源致使系統(tǒng)重啟的操作,在messges和boot.omsg中是

3、沒(méi)有相關(guān)的信息記錄的,表現(xiàn)為系統(tǒng)日志和業(yè)務(wù)運(yùn)行日志在同一時(shí)間全部消失。對(duì)于按電源、命令進(jìn)行重啟操作,在messages中能夠看到系統(tǒng)收到關(guān)機(jī)或者重啟的信息,同時(shí)在boot.omsg中會(huì)有關(guān)機(jī)時(shí)的關(guān)閉系統(tǒng)服務(wù)的關(guān)機(jī)過(guò)程信息。對(duì)于在BMC上直接進(jìn)行關(guān)機(jī)或者重啟操作,信息記錄就比較復(fù)雜了。而對(duì)于此種情況,在messages中和boot.omsg中是看不到相關(guān)的信息記錄,同直接拔電源一樣的。九、 處理步驟:1、日志盡快獲?。涸诂F(xiàn)場(chǎng)反饋出現(xiàn)死機(jī)問(wèn)題后,第一時(shí)間反饋相關(guān)日志,并盡量多盡量準(zhǔn)確全面,等待的時(shí)間越長(zhǎng)日志可能就已覆蓋,或清除,或環(huán)境重搭,致使定位工作受到阻礙。A、 死機(jī)問(wèn)題發(fā)生的時(shí)間點(diǎn)如果發(fā)生死

4、機(jī)問(wèn)題時(shí)測(cè)試或維護(hù)人員在場(chǎng),需反饋死機(jī)問(wèn)題發(fā)生的精確時(shí)間。B、 死機(jī)具體現(xiàn)象描述死機(jī)問(wèn)題的發(fā)生通常伴隨著系統(tǒng)和業(yè)務(wù)方面的異?,F(xiàn)象,系統(tǒng)異常包括服務(wù)器重啟、系統(tǒng)掛死(如BMC黑屏)、系統(tǒng)遲緩(如命令無(wú)法執(zhí)行或響應(yīng)時(shí)間過(guò)長(zhǎng))、網(wǎng)絡(luò)中斷(如Ping檢測(cè)失?。?、登陸失?。ㄈ鐭o(wú)法遠(yuǎn)程登陸或卡死在登陸界面)、文件系統(tǒng)異常(如文件只讀或系統(tǒng)命令失效)等等;操作失敗、超時(shí)、執(zhí)行無(wú)返回等。項(xiàng)目結(jié)果服務(wù)器重啟OK/NOK系統(tǒng)掛死(BMC或KVM黑屏)OK/NOK系統(tǒng)延緩(如命令無(wú)法執(zhí)行或響應(yīng)時(shí)間過(guò)長(zhǎng))OK/NOK網(wǎng)絡(luò)中斷(如Ping檢測(cè)失?。㎡K/NOK登陸失敗(如無(wú)法遠(yuǎn)程登陸或卡死在登陸界面)OK/NOK文件系

5、統(tǒng)異常(如文件只讀或系統(tǒng)命令失效)OK/NOK業(yè)務(wù)異常則包括主備HAOK/NOK操作失敗OK/NOK命令執(zhí)行超時(shí)OK/NOK此外,同樣現(xiàn)象的死機(jī)問(wèn)題是否多次出現(xiàn)、出現(xiàn)頻率也需要反饋。C、 死機(jī)時(shí)段具體操作主要指死機(jī)時(shí)段內(nèi)對(duì)整個(gè)系統(tǒng)(包括硬件和軟件)進(jìn)行的各種操作,包括但不限于對(duì)服務(wù)器上下電、更換硬件、拔插網(wǎng)線(xiàn)、更改交換機(jī)配置、監(jiān)控及日志查詢(xún)。此外還包括死機(jī)之前對(duì)問(wèn)題服務(wù)器的各種操作,如執(zhí)行腳本或系統(tǒng)命令、拷貝/刪除/修改文件、啟動(dòng)/停止系統(tǒng)服務(wù)、掛載本地或遠(yuǎn)端目錄等。2.組網(wǎng)、硬件和BMC信息反饋組網(wǎng)、硬件信息有助于定位人員從宏觀(guān)把握整個(gè)系統(tǒng)以及借鑒之前的經(jīng)驗(yàn),而內(nèi)置在服務(wù)器中BMC系統(tǒng)收集的

6、信息有時(shí)更能為死機(jī)問(wèn)題定位提供直接的依據(jù)。A、 組網(wǎng)信息組網(wǎng)信息主要包括網(wǎng)絡(luò)規(guī)模(服務(wù)器、交換機(jī)數(shù)目)、硬件類(lèi)型(防火墻、服務(wù)器、交換機(jī)型號(hào))、網(wǎng)絡(luò)配置(IP地址規(guī)劃、交換機(jī)配置)、物理連線(xiàn)圖等。B、 硬件信息硬件信息主要包括發(fā)生死機(jī)的服務(wù)器類(lèi)型(RH2285、E6000、T6000或其它服務(wù)器)、CPU型號(hào)與數(shù)目、內(nèi)存大小、本地硬盤(pán)容量與數(shù)目、BIOS配置等,此外建議信息收集人員盡可能反饋組網(wǎng)內(nèi)其它服務(wù)器、其它設(shè)備的硬件信息,便于定位人員橫向?qū)Ρ取7?wù)器各種硬件信息查詢(xún)?nèi)缦拢海?) CPU型號(hào)與數(shù)目對(duì)于管理、存儲(chǔ)節(jié)點(diǎn),使用“cat /proc/cpuinfo”命令獲得;對(duì)于計(jì)算節(jié)點(diǎn)使用“ca

7、t /proc/cpuinfo”僅能獲得domain0中的CPU信息,可以通過(guò)“xm dmesg”命令查看所有的CPU信息。(2) 內(nèi)存大小對(duì)于管理、存儲(chǔ)節(jié)點(diǎn),使用“cat /proc/meminfo”命令獲得;對(duì)于計(jì)算節(jié)點(diǎn)使用“cat /proc/meminfo”僅能獲得domain0中的內(nèi)存信息,可以通過(guò)“xm dmesg”命令查看內(nèi)存總大小。(3) 本地硬盤(pán)容量與數(shù)目本地硬盤(pán)容量可以通過(guò)“fdisk l”命令獲得,考慮RAID組以及掛載遠(yuǎn)端磁盤(pán)的因素,本地硬盤(pán)數(shù)目最好通過(guò)BMC界面直接查看,在BMC界面,系統(tǒng)信息->系統(tǒng)狀態(tài)中可以看到硬盤(pán)槽位和硬盤(pán)狀態(tài)。3、BMC信息BMC是公司自

8、研的RH2285、E6000、T6000等型號(hào)服務(wù)器內(nèi)嵌的服務(wù)器管理控制單元,能夠?qū)崿F(xiàn)對(duì)服務(wù)器的多種管理、查詢(xún)、監(jiān)控功能,發(fā)生死機(jī)問(wèn)題時(shí)需要從BMC收集的信息包括(1) BMC系統(tǒng)事件日志登陸B(tài)MC提供的web界面后,查看系統(tǒng)日志事件,反饋死機(jī)發(fā)生時(shí)間點(diǎn)前后一段時(shí)間(建議取死機(jī)發(fā)生前后12小時(shí))的日志截圖。通過(guò)ftp方式登陸B(tài)MC的文件系統(tǒng),反饋data目錄下的sel.bin文件。(2) BMC、BIOS版本號(hào)在BMC的web界面,選擇系統(tǒng)信息-> 固件版本查詢(xún),反饋版本信息:(3) BMC與OS的時(shí)間差由于BMC和OS使用不同的時(shí)間芯片,因此這兩者之間可能存在時(shí)間差,需要現(xiàn)場(chǎng)

9、人員通過(guò)登陸B(tài)MC系統(tǒng)和OS進(jìn)行時(shí)間的比對(duì),并截圖表示兩者之間的時(shí)間差異,這樣便于定位人員分析BMC日志和OS的日志(時(shí)間差)。十、 系統(tǒng)信息Linux的日志系統(tǒng)能夠記錄系統(tǒng)的登陸情況、操作記錄、異常事件等,多數(shù)情況下為系統(tǒng)側(cè)死機(jī)問(wèn)題提供重要的線(xiàn)索,發(fā)生死機(jī)問(wèn)題時(shí),建議從系統(tǒng)方面獲得如下信息:1.系統(tǒng)message日志系統(tǒng)的message日志會(huì)記錄在cd /var/log/目錄下,并根據(jù)日志產(chǎn)生時(shí)間和日志文件大小壓縮備份為“messages-<時(shí)間戳>.bz”的形式,請(qǐng)盡可能在反饋全部的日志文件(包括當(dāng)前日志文件/var/log/messages以及所有的bz壓縮文件)。3、 系統(tǒng)

10、boot日志操作系統(tǒng)能夠記錄當(dāng)前和前一次啟動(dòng)時(shí)的日志,兩次啟動(dòng)記錄保存在/var/log/boot.msg和/var/log/boot.omsg中,請(qǐng)全部反饋。4、 系統(tǒng)登錄和使用情況使用last可以查看系統(tǒng)每次啟動(dòng)的時(shí)間點(diǎn)、用戶(hù)登陸情況等,建議使用:“l(fā)ast reboot >> last.txt”命令將last命令的執(zhí)行結(jié)果保存為文本文件進(jìn)行反饋。5、 系統(tǒng)歷史操作記錄使用history可以查看系統(tǒng)的歷史操作信息,建議使用“history >> history.txt”命令將history命令的執(zhí)行結(jié)果保存為文本文件進(jìn)行反饋。6、 系統(tǒng)黑匣子記錄系統(tǒng)中提供黑匣子功能

11、收集節(jié)點(diǎn)操作系統(tǒng)Crash(如panic、oops、BUG、oom等)時(shí)的異常信息,黑匣子功能實(shí)現(xiàn)的機(jī)制和記錄存放位置不同,請(qǐng)注意按照不同的操作系統(tǒng)類(lèi)型和發(fā)生死機(jī)的時(shí)間反饋對(duì)應(yīng)的黑匣子日志。系統(tǒng)監(jiān)控記錄GalaX系統(tǒng)提供對(duì)操作系統(tǒng)各種資源進(jìn)行監(jiān)控的功能,并生成監(jiān)控日志保存在每個(gè)節(jié)點(diǎn)的/opt/osinfo/statistics/目錄中,監(jiān)控日志會(huì)根據(jù)大小和時(shí)間在同一目錄下保存為“statistics<時(shí)間戳>.tgz”格式,請(qǐng)注意按照發(fā)生死機(jī)的時(shí)間反饋對(duì)應(yīng)的系統(tǒng)監(jiān)控日志。A、 系統(tǒng)串口消息如果出于調(diào)測(cè)的目的開(kāi)放系統(tǒng)的串口,請(qǐng)反饋問(wèn)題服務(wù)器的串口打印信息,通常情況下GalaX系統(tǒng)中各

12、個(gè)節(jié)點(diǎn)的串口功能是關(guān)閉的。串口打印的堆棧信息、臨終遺言對(duì)死機(jī)定位非常有用,如果沒(méi)有部署串口,請(qǐng)盡量將串口部署上,串口信息對(duì)于死機(jī)問(wèn)題的定位很重要。B、底層日志:C、收集系統(tǒng)的打印信息:命令:cat /proc/sys/kernel/printk1、 定位方法1.是否硬件狗復(fù)位A.在死機(jī)問(wèn)題中,較多的死機(jī)問(wèn)題都是由于軟件狗未喂硬件狗,或者喂狗不成功,導(dǎo)致硬件狗超時(shí)(超時(shí)時(shí)間為20Min),從而重啟服務(wù)器,這樣就認(rèn)為系統(tǒng)死機(jī)后的重啟。B.因此查看watchdog的日志,看是否是喂狗的時(shí)候出現(xiàn)問(wèn)題。首先需要判定是否由于watchdog自身的原因或者某些規(guī)則導(dǎo)致硬件狗超時(shí)而重啟服務(wù)器,這樣的原因下就是

13、上層業(yè)務(wù)造成的,不是OS本身的問(wèn)題。C.同時(shí)在查看watchdog的日志時(shí),注意查看是否是喂狗的腳本執(zhí)行不成功?有無(wú)及時(shí)的返回喂狗腳本執(zhí)行的結(jié)果?這樣判定是否是由于喂狗腳本阻塞引起的硬件狗超時(shí)?同時(shí)比對(duì)是否在其它的業(yè)務(wù)模塊日志中也有執(zhí)行腳本不成功的情況?這樣如果所有的模塊都存在這種執(zhí)行腳本不成功、卡死的話(huà),那就不是watchdog本身的原因,而是在系統(tǒng)中的其它原因造成,需要向系統(tǒng)更深入的排查原因了。如果是由硬件狗復(fù)位服務(wù)器,在BMC界面日志中能夠記錄到相應(yīng)的日志,通過(guò)此可以進(jìn)行判定;2. 是否系統(tǒng)負(fù)載過(guò)高Linux系統(tǒng)不是孤立的存在的,其上往往是運(yùn)行這產(chǎn)品自身的業(yè)務(wù),而業(yè)務(wù)既然使用語(yǔ)言代碼編程

14、,那也就存在Bug,而對(duì)于這些Bug也可能引起Linux的崩潰或者類(lèi)似死機(jī)的現(xiàn)象。這類(lèi)問(wèn)題往往最常見(jiàn)的現(xiàn)象是系統(tǒng)響應(yīng)緩慢,或者無(wú)法響應(yīng),從而認(rèn)為系統(tǒng)死機(jī),這往往從監(jiān)控日志中能夠看到內(nèi)存和CPU使用飆高,而這往往是由于系統(tǒng)負(fù)載過(guò)高導(dǎo)致的。由于系統(tǒng)負(fù)載過(guò)高導(dǎo)致的卡死,一定是解決的越快越好!需要通過(guò)命令行終端進(jìn)行定位。通過(guò)CtrlAltF1(通常F1F6都可以進(jìn)行切換),此時(shí)可能鍵盤(pán)的輸入速度比較慢,請(qǐng)耐性等候,在提示符后輸入top回車(chē),看到一張動(dòng)態(tài)的表,上面列出了耗用資源最多的進(jìn)程。觀(guān)察到刷新幾次后,按q退出,然后輸入kill PID,其中PID為top中顯示的占用資源較多的進(jìn)程,此時(shí)系統(tǒng)應(yīng)該會(huì)快

15、不少,如果沒(méi)有結(jié)束掉進(jìn)程,通過(guò)kill -9,這樣基本上沒(méi)有問(wèn)題了(這個(gè)動(dòng)作一般不要做)。3. 是否業(yè)務(wù)導(dǎo)致判斷到是由于系統(tǒng)的負(fù)載過(guò)高導(dǎo)致系統(tǒng)的死機(jī),然后就是判定是否是由于業(yè)務(wù)導(dǎo)致的?業(yè)務(wù)模塊相對(duì)來(lái)說(shuō)是一個(gè)比較新開(kāi)發(fā)的,出現(xiàn)問(wèn)題的幾率還是相對(duì)來(lái)說(shuō)比較大的。因此首先是從業(yè)務(wù)模塊下手。1. 在出現(xiàn)問(wèn)題時(shí),現(xiàn)場(chǎng)是否做了哪些的操作?2. 而這些操作是否會(huì)引起某些系統(tǒng)資源的過(guò)載使用?3. 結(jié)合業(yè)務(wù)模塊的日志,分析在出現(xiàn)問(wèn)題時(shí)是否有某些異常的日志記錄?4. 如果有,則找到出現(xiàn)這些異常的原因,向上找到出現(xiàn)這些異常的起始點(diǎn),再向上查找比較長(zhǎng)的時(shí)間段日志,看是否有明顯的異常。4. 是否硬件相關(guān)因此首先需要同判定現(xiàn)場(chǎng)環(huán)境中的BIOS中的某些項(xiàng)的設(shè)置是否正確?看當(dāng)時(shí)配套版本中說(shuō)明的設(shè)置,以及此版本是否本身就存在此問(wèn)題?在判定完上述后,如果都不符合,則有可能是出現(xiàn)了新的問(wèn)題,獲取到messages和監(jiān)控日志等,在其中進(jìn)行查看是否有報(bào)硬件相關(guān)的錯(cuò)誤,針對(duì)這些錯(cuò)誤,判斷分析是否正常?而同時(shí)這些錯(cuò)誤有可能在出現(xiàn)問(wèn)題之前比較長(zhǎng)的時(shí)間,需要向上回溯。需要專(zhuān)業(yè)硬件人員來(lái)分析。5. 是否內(nèi)核問(wèn)題問(wèn)題與kernel可能也有關(guān)系了,而如果同kernel有較大關(guān)系的話(huà),系統(tǒng)會(huì)產(chǎn)生kbox文件,而管理節(jié)點(diǎn)由于使用LinuxIMG,則產(chǎn)生的黑匣子日志文件在本地/var目錄

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論