




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
11穩(wěn)定性保障工具演進歷程22CONTENTS穩(wěn)定性保障工具落地場景及成效CONTENTS33當前面臨的挑戰(zhàn)及未來展望幾個核心系統(tǒng)幾百套系統(tǒng)跨系統(tǒng)全鏈路幾個核心系統(tǒng)幾百套系統(tǒng)跨系統(tǒng)全鏈路定界診斷故障自愈n工具重復:工具按煙囪式建設,能力分散n能力割裂:運維工具能力割裂不成體系n數(shù)據(jù)孤島:應用、數(shù)據(jù)庫、中間件、云平臺、基礎設施各管自身故障發(fā)現(xiàn)單系統(tǒng)應用維度根因定位n維護對象:系統(tǒng)節(jié)點、微服務數(shù)量幾何級數(shù)增加應用維度根因定位n調用關系:從簡單對應到極其復雜,人力維護無法勝任n數(shù)據(jù)分片、異地存儲,傳統(tǒng)維護模式難以為繼故障點人工恢復故障恢復混沌工程系統(tǒng)具備應急預案混沌工程被動應急故障預防集團+分子公司整體態(tài)勢感知故障調度n故障調度n端到端穩(wěn)定性保障體系缺失,自動化、智能化故障處理能力不足n故障處理過多依賴專家經驗,故障沒有沉淀為有效的資產n故障處于被動防御,救火,運維大數(shù)據(jù)未被合理價值挖掘體系演進體系建設工具建設體系演進體系建設穩(wěn)定性保障工具建設歷程組織架構保障運營機制保障平臺工具保障監(jiān)控工具運營響應工具測試工具組織架構保障運營機制保障平臺工具保障監(jiān)控工具運營響應工具測試工具制度規(guī)范保障產品化建設基礎能力線故障管理產品線基礎能力線故障管理產品線自動化運維產品線配置管理產品線穩(wěn)定性測試產品線監(jiān)控管理產品線穩(wěn)定性保障工具建設歷程版本管理重保管理故障演練故障改進故障應急故障定位故障響應故障發(fā)現(xiàn)故障預防容量管理監(jiān)控管理鏈路識別變更管理研發(fā)測試版本管理重保管理故障演練故障改進故障應急故障定位故障響應故障發(fā)現(xiàn)故障預防容量管理監(jiān)控管理鏈路識別變更管理研發(fā)測試穩(wěn)定性架構設計穩(wěn)定性架構設計核心業(yè)務鏈路深度治理核心業(yè)務鏈路深度治理02穩(wěn)定性保障工具落地場景及成效PromethuesPromethuesexporter瀏覽器JS埋點APPSDK調用鏈agent采集Promethuesexporter云平臺健康度、集群節(jié)點、pod容網(wǎng)關:KONG、LB、Nginx等中間件:Kafka、MQ、Zookeeper數(shù)據(jù)庫:MySQL、Clickhouse、主機:內存、磁盤、CPU、網(wǎng)絡指PromethuesexportersnmpPromethuesexportersnmp協(xié)議+Promethuesexporter 標簽規(guī)標準+定義統(tǒng)Clickhouse應用時序指標、traceClickhouse應用時序指標、trace、方法調用明細Prometheus業(yè)務、服務、組件、資源時序指標Prometheus業(yè)務、服務、組件、資源時序指標Neo4j+Redis拓撲數(shù)據(jù)數(shù)據(jù)可視數(shù)據(jù)可視監(jiān)控告警監(jiān)控告警故障診斷故障診斷隱患分析隱患分析故障預防故障預防單級根因定位,接入應用6000+,日均處理600億數(shù)據(jù)。系統(tǒng)A系統(tǒng)B系統(tǒng)C系統(tǒng)E系統(tǒng)A系統(tǒng)B系統(tǒng)C系統(tǒng)EagentagentagentagentCMDBagentagentagentagentagentCMDBagentserverserverkafkaRediskafkaRedisserverNeo4jClickhouseNacosNeo4jClickhouseNacos云平臺Clickhouse主機Clickhouse主機ip、機房存儲集群調度轉發(fā)節(jié)點存儲集群Nacos存儲集群調度轉發(fā)節(jié)點存儲集群網(wǎng)絡設備網(wǎng)絡設備告警計算告警配置告警計算跨數(shù)據(jù)中心鏈路自動串連告警計算告警配置告警計算跨數(shù)據(jù)中心鏈路自動串連告警收斂根因定位業(yè)務、應用維度鏈路展現(xiàn)告警收斂根因定位指標聚合明細分析鏈路自動拓撲應用性能分析業(yè)務報文查詢業(yè)務配置打標指標聚合明細分析鏈路自動拓撲應用性能分析業(yè)務報文查詢業(yè)務配置打標全層級告警墻應用根因定位鏈路調用清單明細,方法級分析全層級告警墻應用根因定位鏈路自動拓撲應用性能分析應用實例、主機串聯(lián)AgentAgentSDKSDKKaa數(shù)據(jù)存儲數(shù)據(jù)存儲ClickhousePrometheusPrometheusPushgateway日志探針管控采集任務管理日志處理流程配置智能日志模版提取在系統(tǒng)縱向全層級方面實現(xiàn)觸點層、應用層、組件層、平臺層、主機層、網(wǎng)絡層縱向貫通,結合云化CMDB關單AGENT單AGENT指標、報文日志、鏈路三位一體報文Logs報文Logs報報日文文志報報日文文志ACDB觸點+業(yè)務監(jiān)控評估影響服務,如150個服務告警DBSCAN聚類算法判定停開機停開機繳費Redis1Redis2Redis1Redis2Redis3Redis集群3個實例,2出現(xiàn)問題負載均衡KONGmarathon-lbKONGmarathon-lb調用AC主機1主機2主機3ACB--DB--D分布于通過云化CMDB獲取實例、組件與主機的x2x3服務X有3個實例,X3出現(xiàn)問題x2x3服務X有3個實例,X3出現(xiàn)問題x1x1交換機路由器防火墻交換機路由器防火墻主機進程主機進程Top輔助信息變更關聯(lián)日志關聯(lián)當前一鍵故障診斷率達68%。2023-03-XXXX:XX應用實例所在主機CPU使用率過高引發(fā)故障根因2023-02-XXXX:XX根因應用下游調用快立方告警異常是故障根因ES事件異常:2022-05-XXXX:XXes進程負載率突增導致上游服務連接超時是故障根因2023-02-XXXX:XXoracle會話數(shù)突增導致應用連接超時增多是故障根因RDS事件異常:2023-04-XXXX:XXrds慢sql突增導致節(jié)點狀態(tài)異常是故障根2022-08-XXXX:XXlb所在主機宕機導致lb實例銷毀重啟服務波動是故障根因Redis事件異常:2022-08-XXXX:XXredis節(jié)點夯死,觸發(fā)高可用,切換master,大量流量進入導致redis性能下降,上游應用大面積告警是故障根因2022-03-XXXX:XX交換機帶寬使用率指標打滿引起訪問受限是故障根因告警+故障診斷+自動化運維+應急能力,實現(xiàn)事件根因自動診斷,診斷結果結合故障知識樹分析,自1000+次,自愈操作平均執(zhí)行耗時3s內。2023-09-0716:20:45應用告警2023-09-0716:20:45應用告警沉淀關聯(lián)運維場景自動化作業(yè)平臺運維場景自動化作業(yè)平臺探針能力應用系統(tǒng)運維場景業(yè)務服務運維場景基礎資源運維場景審批推送審批推送2023-09-0716:20:45自動觸發(fā)診斷自愈工單生成自愈工單審批自愈工單生成自愈工單審批任務調度平臺操作/腳本作業(yè)編排執(zhí)行計劃2023-09-0716:21:29運維人員確認操作2023-09-07任務調度平臺操作/腳本作業(yè)編排執(zhí)行計劃外部能力運維PaaS外部能力運維PaaS平臺云平臺自動化運維agent先查異常實例->登錄云平臺執(zhí)行查殺操作5min節(jié)省4分鐘從收到告警到恢復僅用47sl業(yè)務、應用、組件、基礎23l全鏈路壓測->容量標準達標、鏈路性能瓶頸評l日常流量方法級形成容量優(yōu)化提l制定容量優(yōu)化方l容量再評估直至符合預期容量標BCDBCDAAl鏈路節(jié)點RT增長->初步定位瓶頸節(jié)點ltrace明細分析->Gap等待時間長、l慢SQL分析lREDIS內存使用率/內存碎片比率lKAFKA消息積壓/topic副本lcpu使用率高風險指標中風險指標低風險指標實時監(jiān)控體檢實時監(jiān)控體檢隱患報告定時推送隱患報告定時推送風險問題閉環(huán)整改風險問題閉環(huán)整改性能對比性能對比前端觸點層前端觸點層、應用層、組件層、資源層系統(tǒng)全層級實時健康度評分健康度評價詳情風險項對比高、中、低風險隱患壓降風險項對比cBSS系統(tǒng)高風險隱患治理成效cBSS系統(tǒng)高風險隱患治理成效高風險隱隱患派單閉環(huán)治理one-agentone-agentone-agentone-agentone-agentone-agentMQMQ生產Topic影子Topicone-agentone-agentmysql創(chuàng)建壓力機mysqlSQL重復調用問題下游調用阻塞問題方法執(zhí)行自耗時高問題慢SQL問題HTTP連接池配置問題上下游應用調用分析GC分析活躍線程數(shù)分析容器負載分析主機負載分析路節(jié)點RTSQL重復調用問題下游調用阻塞問題方法執(zhí)行自耗時高問題慢SQL問題HTTP連接池配置問題上下游應用調用分析GC分析活躍線程數(shù)分析容器負載分析主機負載分析路節(jié)點RT增長指數(shù)與抖動分析定位性能瓶頸節(jié)點架構維度重復調用問題aceIaaS、PaaS、SaaS全層級變更軌跡追蹤。統(tǒng)一統(tǒng)一PCPC+移OAOAAPI自動化運維自動化運維WebhookWebhookk8s-kube-eventer維護方維護方APIal核心業(yè)務參數(shù)表變更數(shù)據(jù)l配置中心相關參數(shù)變更數(shù)據(jù)l鏡像倉庫鏡像變更數(shù)據(jù)l流水線變更數(shù)據(jù)lkong、lb等路由轉發(fā)平臺變更數(shù)據(jù)l云平臺容器變更數(shù)據(jù)l核心配置變更數(shù)據(jù)l實例變化數(shù)據(jù)l主機核心參數(shù)配置變更數(shù)據(jù)l網(wǎng)絡層防火墻、交換機、路由等網(wǎng)絡l設備的變更數(shù)據(jù)故障事前預防故障事中調度故障事前預防故障事中調度故障事后改進故障上報事件上報問題管理《線上統(tǒng)看板》組織投屏故障時間線故障發(fā)現(xiàn)故障演練故障改進被動發(fā)現(xiàn)演練特點主動發(fā)現(xiàn)兩個目標 調度負責人整體負責標準化故障復盤(24小時)故障報告(2個工作日)四項要求故障上報故障級別初判判斷業(yè)務影響變更識別影響判斷桌面演練實操演練啟動故簡報機故障定級整改落地故障報告評價故障演練啟動業(yè)務應急預案故障更新客服聯(lián)動故障初因定位故障定責典型故障分享專家審核業(yè)務場景SLO啟動技術應急預案輿情聯(lián)動業(yè)務驗證四不放過故障處罰預案提升抽查評審故障恢復故障受教育列入故障預算故障復盤準備故障響應與應急故障上報事件上報問題管理《線上統(tǒng)看板》組織投屏故障時間線故障發(fā)現(xiàn)故障演練故障改進被動發(fā)現(xiàn)演練特點主動發(fā)現(xiàn)兩個目標 調度負責人整體負責標準化故障復盤(24小時)故障報告(2個工作日)四項要求故障上報故障級別初判判斷業(yè)務影響變更識別影響判斷桌面演練實操演練啟動故簡報機故障定級整改落地故障報告評價故障演練啟動業(yè)務應急預案故障更新客服聯(lián)動故障初因定位故障定責典型故障分享專家審核業(yè)務場景SLO啟動技術應急預案輿情聯(lián)動業(yè)務驗
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- JG/T 167-2016結構加固修復用碳纖維片材
- GB 9706.275-2022醫(yī)用電氣設備第2-75部分:光動力治療和光動力診斷設備的基本安全和基本性能專用要求
- DZ 50-1987原油及有機抽提物族組分分析方法
- CJ/T 332-2016城市公用事業(yè)互聯(lián)互通卡清分清算技術要求
- CJ/T 165-2002高密度聚乙烯纏繞結構壁管材
- 信息管理考試資料分享與試題及答案
- 備考經驗豐富的多媒體設計師試題及答案
- 2025軟件評測師考試新知識試題及答案
- 2025年軟件評測師的技能要求試題及答案
- 醫(yī)院應急管理試題及答案
- 2025屆浙江省杭州市建蘭中學八年級英語第二學期期末綜合測試試題含答案
- 2023電氣裝置安裝工程 旋轉電機施工及驗收規(guī)范
- 施工項目資料管理試題及答案
- 2025年安全知識競賽題庫及答案(共150題)
- 第六單元 年、月、日 單元測試(含答案)2024-2025學年三年級下冊數(shù)學人教版
- 合資公司的組織結構與運營規(guī)范
- 成都設計咨詢集團有限公司2025年社會公開招聘(19人)筆試參考題庫附帶答案詳解
- 基層醫(yī)療衛(wèi)生機構信息化建設中的醫(yī)療信息化服務創(chuàng)新與產業(yè)鏈協(xié)同發(fā)展路徑報告
- 海南省歷年中考作文題與審題指導(2003-2023)
- 2025年度會計人員繼續(xù)教育會計法律法規(guī)答題活動測試100題答案
- 24秋國家開放大學《社會教育及管理》形考任務1-3參考答案
評論
0/150
提交評論