




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、【精品文檔】如有侵權(quán),請(qǐng)聯(lián)系網(wǎng)站刪除,僅供學(xué)習(xí)與交流一、二、三、四、五、六、七、 Linux死機(jī)問(wèn)題分析定位.精品文檔.八、 現(xiàn)象初步判斷:1、 判定是否死機(jī):首先需要確定是否真正的死機(jī)了,而往往有些現(xiàn)象被現(xiàn)場(chǎng)誤認(rèn)為是死機(jī)了。是否死機(jī)的確定方法有如下:A、 對(duì)于直接死掉的,沒(méi)有任何反應(yīng)的情況下,看看鍵盤(pán)輸入是否有效,putty是否能夠登陸,BMC是否能夠登錄;B、 通過(guò)last reboot確認(rèn)是否死機(jī)?死機(jī)的時(shí)間?C、 通過(guò)在messages中對(duì)應(yīng)的時(shí)間點(diǎn)看是否有imklog啟動(dòng)的日志?并在這個(gè)時(shí)間點(diǎn)前是否收到關(guān)機(jī)信號(hào)或者異常打???D、 通過(guò)在boot.msg中對(duì)應(yīng)時(shí)間點(diǎn)有啟動(dòng)的相關(guān)記錄,并
2、同時(shí)查看在boot.omsg中是否有關(guān)機(jī)的相關(guān)日志打印?搜索:Shutting down關(guān)鍵字看是否存在關(guān)機(jī)2、 是否人為操作出現(xiàn)系統(tǒng)重啟現(xiàn)象,往往被認(rèn)為是系統(tǒng)死機(jī)后然后重啟的,這就通過(guò)重啟現(xiàn)象了來(lái)認(rèn)為系統(tǒng)死機(jī)過(guò),但是這種系統(tǒng)重啟是否是由于死機(jī)造成的,需要進(jìn)行確定。A、 通過(guò)同現(xiàn)場(chǎng)人員進(jìn)行溝通,確認(rèn)是否為人為的重啟?比如按電源、拔電源等人為動(dòng)作?B、 通過(guò)history中查詢(xún)?cè)谙到y(tǒng)重啟時(shí)的時(shí)間點(diǎn)附近有reboot或halt、shutdown、init?C、 通過(guò)在BMC日志中確認(rèn)是否有通過(guò)BMC的操作進(jìn)行系統(tǒng)的重啟操作?對(duì)于直接拔電源致使系統(tǒng)重啟的操作,在messges和boot.omsg中是
3、沒(méi)有相關(guān)的信息記錄的,表現(xiàn)為系統(tǒng)日志和業(yè)務(wù)運(yùn)行日志在同一時(shí)間全部消失。對(duì)于按電源、命令進(jìn)行重啟操作,在messages中能夠看到系統(tǒng)收到關(guān)機(jī)或者重啟的信息,同時(shí)在boot.omsg中會(huì)有關(guān)機(jī)時(shí)的關(guān)閉系統(tǒng)服務(wù)的關(guān)機(jī)過(guò)程信息。對(duì)于在BMC上直接進(jìn)行關(guān)機(jī)或者重啟操作,信息記錄就比較復(fù)雜了。而對(duì)于此種情況,在messages中和boot.omsg中是看不到相關(guān)的信息記錄,同直接拔電源一樣的。九、 處理步驟:1、日志盡快獲?。涸诂F(xiàn)場(chǎng)反饋出現(xiàn)死機(jī)問(wèn)題后,第一時(shí)間反饋相關(guān)日志,并盡量多盡量準(zhǔn)確全面,等待的時(shí)間越長(zhǎng)日志可能就已覆蓋,或清除,或環(huán)境重搭,致使定位工作受到阻礙。A、 死機(jī)問(wèn)題發(fā)生的時(shí)間點(diǎn)如果發(fā)生死
4、機(jī)問(wèn)題時(shí)測(cè)試或維護(hù)人員在場(chǎng),需反饋死機(jī)問(wèn)題發(fā)生的精確時(shí)間。B、 死機(jī)具體現(xiàn)象描述死機(jī)問(wèn)題的發(fā)生通常伴隨著系統(tǒng)和業(yè)務(wù)方面的異?,F(xiàn)象,系統(tǒng)異常包括服務(wù)器重啟、系統(tǒng)掛死(如BMC黑屏)、系統(tǒng)遲緩(如命令無(wú)法執(zhí)行或響應(yīng)時(shí)間過(guò)長(zhǎng))、網(wǎng)絡(luò)中斷(如Ping檢測(cè)失?。?、登陸失?。ㄈ鐭o(wú)法遠(yuǎn)程登陸或卡死在登陸界面)、文件系統(tǒng)異常(如文件只讀或系統(tǒng)命令失效)等等;操作失敗、超時(shí)、執(zhí)行無(wú)返回等。項(xiàng)目結(jié)果服務(wù)器重啟OK/NOK系統(tǒng)掛死(BMC或KVM黑屏)OK/NOK系統(tǒng)延緩(如命令無(wú)法執(zhí)行或響應(yīng)時(shí)間過(guò)長(zhǎng))OK/NOK網(wǎng)絡(luò)中斷(如Ping檢測(cè)失?。㎡K/NOK登陸失敗(如無(wú)法遠(yuǎn)程登陸或卡死在登陸界面)OK/NOK文件系
5、統(tǒng)異常(如文件只讀或系統(tǒng)命令失效)OK/NOK業(yè)務(wù)異常則包括主備HAOK/NOK操作失敗OK/NOK命令執(zhí)行超時(shí)OK/NOK此外,同樣現(xiàn)象的死機(jī)問(wèn)題是否多次出現(xiàn)、出現(xiàn)頻率也需要反饋。C、 死機(jī)時(shí)段具體操作主要指死機(jī)時(shí)段內(nèi)對(duì)整個(gè)系統(tǒng)(包括硬件和軟件)進(jìn)行的各種操作,包括但不限于對(duì)服務(wù)器上下電、更換硬件、拔插網(wǎng)線(xiàn)、更改交換機(jī)配置、監(jiān)控及日志查詢(xún)。此外還包括死機(jī)之前對(duì)問(wèn)題服務(wù)器的各種操作,如執(zhí)行腳本或系統(tǒng)命令、拷貝/刪除/修改文件、啟動(dòng)/停止系統(tǒng)服務(wù)、掛載本地或遠(yuǎn)端目錄等。2.組網(wǎng)、硬件和BMC信息反饋組網(wǎng)、硬件信息有助于定位人員從宏觀(guān)把握整個(gè)系統(tǒng)以及借鑒之前的經(jīng)驗(yàn),而內(nèi)置在服務(wù)器中BMC系統(tǒng)收集的
6、信息有時(shí)更能為死機(jī)問(wèn)題定位提供直接的依據(jù)。A、 組網(wǎng)信息組網(wǎng)信息主要包括網(wǎng)絡(luò)規(guī)模(服務(wù)器、交換機(jī)數(shù)目)、硬件類(lèi)型(防火墻、服務(wù)器、交換機(jī)型號(hào))、網(wǎng)絡(luò)配置(IP地址規(guī)劃、交換機(jī)配置)、物理連線(xiàn)圖等。B、 硬件信息硬件信息主要包括發(fā)生死機(jī)的服務(wù)器類(lèi)型(RH2285、E6000、T6000或其它服務(wù)器)、CPU型號(hào)與數(shù)目、內(nèi)存大小、本地硬盤(pán)容量與數(shù)目、BIOS配置等,此外建議信息收集人員盡可能反饋組網(wǎng)內(nèi)其它服務(wù)器、其它設(shè)備的硬件信息,便于定位人員橫向?qū)Ρ取7?wù)器各種硬件信息查詢(xún)?nèi)缦拢海?) CPU型號(hào)與數(shù)目對(duì)于管理、存儲(chǔ)節(jié)點(diǎn),使用“cat /proc/cpuinfo”命令獲得;對(duì)于計(jì)算節(jié)點(diǎn)使用“ca
7、t /proc/cpuinfo”僅能獲得domain0中的CPU信息,可以通過(guò)“xm dmesg”命令查看所有的CPU信息。(2) 內(nèi)存大小對(duì)于管理、存儲(chǔ)節(jié)點(diǎn),使用“cat /proc/meminfo”命令獲得;對(duì)于計(jì)算節(jié)點(diǎn)使用“cat /proc/meminfo”僅能獲得domain0中的內(nèi)存信息,可以通過(guò)“xm dmesg”命令查看內(nèi)存總大小。(3) 本地硬盤(pán)容量與數(shù)目本地硬盤(pán)容量可以通過(guò)“fdisk l”命令獲得,考慮RAID組以及掛載遠(yuǎn)端磁盤(pán)的因素,本地硬盤(pán)數(shù)目最好通過(guò)BMC界面直接查看,在BMC界面,系統(tǒng)信息->系統(tǒng)狀態(tài)中可以看到硬盤(pán)槽位和硬盤(pán)狀態(tài)。3、BMC信息BMC是公司自
8、研的RH2285、E6000、T6000等型號(hào)服務(wù)器內(nèi)嵌的服務(wù)器管理控制單元,能夠?qū)崿F(xiàn)對(duì)服務(wù)器的多種管理、查詢(xún)、監(jiān)控功能,發(fā)生死機(jī)問(wèn)題時(shí)需要從BMC收集的信息包括(1) BMC系統(tǒng)事件日志登陸B(tài)MC提供的web界面后,查看系統(tǒng)日志事件,反饋死機(jī)發(fā)生時(shí)間點(diǎn)前后一段時(shí)間(建議取死機(jī)發(fā)生前后12小時(shí))的日志截圖。通過(guò)ftp方式登陸B(tài)MC的文件系統(tǒng),反饋data目錄下的sel.bin文件。(2) BMC、BIOS版本號(hào)在BMC的web界面,選擇系統(tǒng)信息-> 固件版本查詢(xún),反饋版本信息:(3) BMC與OS的時(shí)間差由于BMC和OS使用不同的時(shí)間芯片,因此這兩者之間可能存在時(shí)間差,需要現(xiàn)場(chǎng)
9、人員通過(guò)登陸B(tài)MC系統(tǒng)和OS進(jìn)行時(shí)間的比對(duì),并截圖表示兩者之間的時(shí)間差異,這樣便于定位人員分析BMC日志和OS的日志(時(shí)間差)。十、 系統(tǒng)信息Linux的日志系統(tǒng)能夠記錄系統(tǒng)的登陸情況、操作記錄、異常事件等,多數(shù)情況下為系統(tǒng)側(cè)死機(jī)問(wèn)題提供重要的線(xiàn)索,發(fā)生死機(jī)問(wèn)題時(shí),建議從系統(tǒng)方面獲得如下信息:1.系統(tǒng)message日志系統(tǒng)的message日志會(huì)記錄在cd /var/log/目錄下,并根據(jù)日志產(chǎn)生時(shí)間和日志文件大小壓縮備份為“messages-<時(shí)間戳>.bz”的形式,請(qǐng)盡可能在反饋全部的日志文件(包括當(dāng)前日志文件/var/log/messages以及所有的bz壓縮文件)。3、 系統(tǒng)
10、boot日志操作系統(tǒng)能夠記錄當(dāng)前和前一次啟動(dòng)時(shí)的日志,兩次啟動(dòng)記錄保存在/var/log/boot.msg和/var/log/boot.omsg中,請(qǐng)全部反饋。4、 系統(tǒng)登錄和使用情況使用last可以查看系統(tǒng)每次啟動(dòng)的時(shí)間點(diǎn)、用戶(hù)登陸情況等,建議使用:“l(fā)ast reboot >> last.txt”命令將last命令的執(zhí)行結(jié)果保存為文本文件進(jìn)行反饋。5、 系統(tǒng)歷史操作記錄使用history可以查看系統(tǒng)的歷史操作信息,建議使用“history >> history.txt”命令將history命令的執(zhí)行結(jié)果保存為文本文件進(jìn)行反饋。6、 系統(tǒng)黑匣子記錄系統(tǒng)中提供黑匣子功能
11、收集節(jié)點(diǎn)操作系統(tǒng)Crash(如panic、oops、BUG、oom等)時(shí)的異常信息,黑匣子功能實(shí)現(xiàn)的機(jī)制和記錄存放位置不同,請(qǐng)注意按照不同的操作系統(tǒng)類(lèi)型和發(fā)生死機(jī)的時(shí)間反饋對(duì)應(yīng)的黑匣子日志。系統(tǒng)監(jiān)控記錄GalaX系統(tǒng)提供對(duì)操作系統(tǒng)各種資源進(jìn)行監(jiān)控的功能,并生成監(jiān)控日志保存在每個(gè)節(jié)點(diǎn)的/opt/osinfo/statistics/目錄中,監(jiān)控日志會(huì)根據(jù)大小和時(shí)間在同一目錄下保存為“statistics<時(shí)間戳>.tgz”格式,請(qǐng)注意按照發(fā)生死機(jī)的時(shí)間反饋對(duì)應(yīng)的系統(tǒng)監(jiān)控日志。A、 系統(tǒng)串口消息如果出于調(diào)測(cè)的目的開(kāi)放系統(tǒng)的串口,請(qǐng)反饋問(wèn)題服務(wù)器的串口打印信息,通常情況下GalaX系統(tǒng)中各
12、個(gè)節(jié)點(diǎn)的串口功能是關(guān)閉的。串口打印的堆棧信息、臨終遺言對(duì)死機(jī)定位非常有用,如果沒(méi)有部署串口,請(qǐng)盡量將串口部署上,串口信息對(duì)于死機(jī)問(wèn)題的定位很重要。B、底層日志:C、收集系統(tǒng)的打印信息:命令:cat /proc/sys/kernel/printk1、 定位方法1.是否硬件狗復(fù)位A.在死機(jī)問(wèn)題中,較多的死機(jī)問(wèn)題都是由于軟件狗未喂硬件狗,或者喂狗不成功,導(dǎo)致硬件狗超時(shí)(超時(shí)時(shí)間為20Min),從而重啟服務(wù)器,這樣就認(rèn)為系統(tǒng)死機(jī)后的重啟。B.因此查看watchdog的日志,看是否是喂狗的時(shí)候出現(xiàn)問(wèn)題。首先需要判定是否由于watchdog自身的原因或者某些規(guī)則導(dǎo)致硬件狗超時(shí)而重啟服務(wù)器,這樣的原因下就是
13、上層業(yè)務(wù)造成的,不是OS本身的問(wèn)題。C.同時(shí)在查看watchdog的日志時(shí),注意查看是否是喂狗的腳本執(zhí)行不成功?有無(wú)及時(shí)的返回喂狗腳本執(zhí)行的結(jié)果?這樣判定是否是由于喂狗腳本阻塞引起的硬件狗超時(shí)?同時(shí)比對(duì)是否在其它的業(yè)務(wù)模塊日志中也有執(zhí)行腳本不成功的情況?這樣如果所有的模塊都存在這種執(zhí)行腳本不成功、卡死的話(huà),那就不是watchdog本身的原因,而是在系統(tǒng)中的其它原因造成,需要向系統(tǒng)更深入的排查原因了。如果是由硬件狗復(fù)位服務(wù)器,在BMC界面日志中能夠記錄到相應(yīng)的日志,通過(guò)此可以進(jìn)行判定;2. 是否系統(tǒng)負(fù)載過(guò)高Linux系統(tǒng)不是孤立的存在的,其上往往是運(yùn)行這產(chǎn)品自身的業(yè)務(wù),而業(yè)務(wù)既然使用語(yǔ)言代碼編程
14、,那也就存在Bug,而對(duì)于這些Bug也可能引起Linux的崩潰或者類(lèi)似死機(jī)的現(xiàn)象。這類(lèi)問(wèn)題往往最常見(jiàn)的現(xiàn)象是系統(tǒng)響應(yīng)緩慢,或者無(wú)法響應(yīng),從而認(rèn)為系統(tǒng)死機(jī),這往往從監(jiān)控日志中能夠看到內(nèi)存和CPU使用飆高,而這往往是由于系統(tǒng)負(fù)載過(guò)高導(dǎo)致的。由于系統(tǒng)負(fù)載過(guò)高導(dǎo)致的卡死,一定是解決的越快越好!需要通過(guò)命令行終端進(jìn)行定位。通過(guò)CtrlAltF1(通常F1F6都可以進(jìn)行切換),此時(shí)可能鍵盤(pán)的輸入速度比較慢,請(qǐng)耐性等候,在提示符后輸入top回車(chē),看到一張動(dòng)態(tài)的表,上面列出了耗用資源最多的進(jìn)程。觀(guān)察到刷新幾次后,按q退出,然后輸入kill PID,其中PID為top中顯示的占用資源較多的進(jìn)程,此時(shí)系統(tǒng)應(yīng)該會(huì)快
15、不少,如果沒(méi)有結(jié)束掉進(jìn)程,通過(guò)kill -9,這樣基本上沒(méi)有問(wèn)題了(這個(gè)動(dòng)作一般不要做)。3. 是否業(yè)務(wù)導(dǎo)致判斷到是由于系統(tǒng)的負(fù)載過(guò)高導(dǎo)致系統(tǒng)的死機(jī),然后就是判定是否是由于業(yè)務(wù)導(dǎo)致的?業(yè)務(wù)模塊相對(duì)來(lái)說(shuō)是一個(gè)比較新開(kāi)發(fā)的,出現(xiàn)問(wèn)題的幾率還是相對(duì)來(lái)說(shuō)比較大的。因此首先是從業(yè)務(wù)模塊下手。1. 在出現(xiàn)問(wèn)題時(shí),現(xiàn)場(chǎng)是否做了哪些的操作?2. 而這些操作是否會(huì)引起某些系統(tǒng)資源的過(guò)載使用?3. 結(jié)合業(yè)務(wù)模塊的日志,分析在出現(xiàn)問(wèn)題時(shí)是否有某些異常的日志記錄?4. 如果有,則找到出現(xiàn)這些異常的原因,向上找到出現(xiàn)這些異常的起始點(diǎn),再向上查找比較長(zhǎng)的時(shí)間段日志,看是否有明顯的異常。4. 是否硬件相關(guān)因此首先需要同判定現(xiàn)場(chǎng)環(huán)境中的BIOS中的某些項(xiàng)的設(shè)置是否正確?看當(dāng)時(shí)配套版本中說(shuō)明的設(shè)置,以及此版本是否本身就存在此問(wèn)題?在判定完上述后,如果都不符合,則有可能是出現(xiàn)了新的問(wèn)題,獲取到messages和監(jiān)控日志等,在其中進(jìn)行查看是否有報(bào)硬件相關(guān)的錯(cuò)誤,針對(duì)這些錯(cuò)誤,判斷分析是否正常?而同時(shí)這些錯(cuò)誤有可能在出現(xiàn)問(wèn)題之前比較長(zhǎng)的時(shí)間,需要向上回溯。需要專(zhuān)業(yè)硬件人員來(lái)分析。5. 是否內(nèi)核問(wèn)題問(wèn)題與kernel可能也有關(guān)系了,而如果同kernel有較大關(guān)系的話(huà),系統(tǒng)會(huì)產(chǎn)生kbox文件,而管理節(jié)點(diǎn)由于使用LinuxIMG,則產(chǎn)生的黑匣子日志文件在本地/var目錄
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療器械臨床試驗(yàn)質(zhì)量管理規(guī)范化在2025年的臨床試驗(yàn)監(jiān)管政策變化趨勢(shì)報(bào)告
- 2025年城市公園改造提升項(xiàng)目社會(huì)穩(wěn)定風(fēng)險(xiǎn)評(píng)估與風(fēng)險(xiǎn)評(píng)估方法改進(jìn)研究綜述報(bào)告
- 生態(tài)農(nóng)業(yè)可持續(xù)發(fā)展模式與技術(shù)創(chuàng)新報(bào)告
- 2025年元宇宙社交平臺(tái)虛擬現(xiàn)實(shí)與虛擬現(xiàn)實(shí)教育游戲化應(yīng)用研究報(bào)告
- 2025年元宇宙社交平臺(tái)虛擬現(xiàn)實(shí)社交平臺(tái)內(nèi)容創(chuàng)新研究報(bào)告
- 共享辦公空間增值服務(wù)在智慧旅游中的應(yīng)用策略報(bào)告
- 2025年醫(yī)院信息化建設(shè)電子病歷系統(tǒng)用戶(hù)體驗(yàn)優(yōu)化研究報(bào)告
- 2025年醫(yī)藥行業(yè)CRO模式下的臨床試驗(yàn)法規(guī)更新與合規(guī)應(yīng)對(duì)報(bào)告
- 醫(yī)藥流通行業(yè)供應(yīng)鏈優(yōu)化與成本控制實(shí)踐案例報(bào)告001
- 北京安全c試題及答案
- 2025年陜西省中考數(shù)學(xué)真題試卷及答案解析
- 呼吸機(jī)的維護(hù)與保養(yǎng)標(biāo)準(zhǔn)流程
- 2025年北方華創(chuàng)招聘筆試參考題庫(kù)含答案解析
- 期末綜合試題 2024-2025學(xué)年下期初中英語(yǔ)人教版七年級(jí)下冊(cè)(新教材)
- 2025年全國(guó)新高考I卷高考全國(guó)一卷真題英語(yǔ)試卷(真題+答案)
- 高中生物學(xué)業(yè)水平合格性考試:人教版必修1+必修2必背考點(diǎn)
- 安全生產(chǎn)應(yīng)急演練方案(合集)
- 公共組織績(jī)效評(píng)估-形考任務(wù)三(占10%)-國(guó)開(kāi)(ZJ)-參考資料
- 2025年廣東高中學(xué)業(yè)水平合格性考試化學(xué)試卷試題(含答案解析)
- JT∕T 795-2023 事故汽車(chē)修復(fù)技術(shù)規(guī)范
- 趣識(shí)古文字智慧樹(shù)知到期末考試答案章節(jié)答案2024年吉林師范大學(xué)
評(píng)論
0/150
提交評(píng)論