案例名稱
新一代智能運維系統(tǒng)
案例簡介
(相關資料圖)
新一代智能運維系統(tǒng)旨在解決傳統(tǒng)運維系統(tǒng)人工干預多、監(jiān)控手段單一、無法適應技術快速迭代等問題,打造一個自動化、智能化、可持續(xù)升級的全能型運維平臺?;谠圃奈⒎占軜嫞撈脚_實現(xiàn)了十余個高內(nèi)聚、低耦合的能力中心,涵蓋了日常運維工作的各個方面;同時通過應用質(zhì)量撥測、智能巡檢、全方位數(shù)據(jù)采集、自適應機器學習算法等創(chuàng)新技術,顯著地提高了運維人員的工作效率,保障了系統(tǒng)和應用的安全穩(wěn)定運行。
創(chuàng)新技術/模式應用
新一代智能運維系統(tǒng)在創(chuàng)新技術/模式應用上主要有五個方面。
(一)面向云原生,基于微服務架構
本系統(tǒng)在底層依托開源的Spring Cloud框架,對搭建在其上的應用按照業(yè)務范圍劃分為十余個能力中心。每個能力中心即是一個微服務,互相之間通過Restful API進行調(diào)用,方便了后續(xù)功能的擴展和架構的持續(xù)升級。另外,劃分的每個微服務都能以容器方式進行部署,并利用Kubernetes進行容器編排,實現(xiàn)微服務的動態(tài)擴容和自動運維。整體系統(tǒng)架構圖如圖1所示。
圖1 系統(tǒng)架構圖
(二)敏捷開發(fā),擁抱DevOps
在本系統(tǒng)的開發(fā)、測試、部署過程中,團隊使用了基于DevOps的軟件開發(fā)管理模式。DevOps是在敏捷開發(fā)模式的基礎上,將運維并入進來,是軟件開發(fā)、運維和質(zhì)量保證三個部門之間的一體化溝通機制?;诔掷m(xù)集成的軟件交付方式,編譯、打包、發(fā)布、測試等行為能夠更高效,更穩(wěn)定。整體研發(fā)流程如圖2所示。
圖2 DevOps流程圖
(三)主動出擊,應用質(zhì)量撥測
重慶農(nóng)商行在智能運維系統(tǒng)建設過程中敏銳地發(fā)現(xiàn)運維系統(tǒng)的智能化不僅體現(xiàn)在對系統(tǒng)、應用的被動監(jiān)控上,還應主動出擊,對應用進行質(zhì)量撥測。系統(tǒng)通過應用主動撥測技術來模擬各業(yè)務環(huán)節(jié)的訪問流程,化被動處置為主動感知,實時洞察客戶端存在的各類風險,并進行有效干預?,F(xiàn)階段,系統(tǒng)主要對應用及數(shù)據(jù)庫的健康狀態(tài)進行撥測,包括基于HTTP協(xié)議的RestFul請求,以及基于TCP的心跳指令。應用撥測架構如圖3所示。
圖3 質(zhì)量撥測架構圖
(四)智能巡檢,業(yè)務安全防護
盡早發(fā)現(xiàn)故障、處置風險是智能運維系統(tǒng)建設的目的之一。該行通過融合多維度業(yè)務安全指標實現(xiàn)對應用的智能防護,主要包含三個方面:一是交易鏈路時序分析;二是用戶異常交易檢測;三是敏感交易監(jiān)控。所有的業(yè)務安全指標既可自定義固定閾值,也可以基于智能運維系統(tǒng)生成的動態(tài)基線,實現(xiàn)智能化業(yè)務安全告警。
(五)應用預警,自適應式機器學習
該系統(tǒng)梳理各應用系統(tǒng)指標模型,形成標準化的指標拓撲圖和指標模板。通過引入自適應式的機器學習算法,根據(jù)歷史運行數(shù)據(jù)建立融合多種異常檢測模型,對指標曲線實現(xiàn)高準確率的異常檢測,系統(tǒng)生成各指標動態(tài)閾值基線,實現(xiàn)智能預警。目前可供融合的算法包括:Ripple、Dtmos、Spider等。同時,系統(tǒng)根據(jù)波動分析、根因量化,能夠智能地提供處理建議,有效地提高了問題處理效率。
項目效果評估
(一)打通各個系統(tǒng)運維信息孤島
該系統(tǒng)的建成解決了傳統(tǒng)運維場景分散建設,各種煙囪式的系統(tǒng)之間存在數(shù)據(jù)重復、數(shù)據(jù)割裂、數(shù)據(jù)不準等問題,實現(xiàn)有效整合,達到數(shù)據(jù)集中存儲,統(tǒng)一分析,集中展示,高效處置的目標。同時,各業(yè)務系統(tǒng)運維數(shù)據(jù)的統(tǒng)一歸集,也形成了海量的數(shù)據(jù)。在此基礎上,系統(tǒng)利用大數(shù)據(jù)、人工智能技術,能夠快速挖掘系統(tǒng)之間交易的關聯(lián)性,并由此構建場景特定的智能算法學件,實現(xiàn)智能運維功能,有效地打通各系統(tǒng)信息孤島,形成全行統(tǒng)一的智能數(shù)據(jù)湖。
(二)實現(xiàn)自動化作業(yè)代理的統(tǒng)一
系統(tǒng)采用統(tǒng)一的自動化作業(yè)代理agent,代替了以往為網(wǎng)絡、系統(tǒng)運維需求而開發(fā)的單一功能代理,實現(xiàn)了日志采集、指標巡檢、應用發(fā)布、運維工具箱等各業(yè)務模塊所需的底層能力,減少了因部署多個agent而導致的服務器性能損耗。目前行內(nèi)已經(jīng)部署2159臺agent,涵蓋150個應用系統(tǒng),制定了107條定制化日志采集規(guī)則,平均每日處理日志量為5.5TB。
(三)重要信息系統(tǒng)應用發(fā)布自動化
自動化應用發(fā)布依據(jù)傳統(tǒng)流水線操作流程,結(jié)合定制化的作業(yè)腳本進行優(yōu)化,實現(xiàn)應用版本發(fā)布自動化。目前已接入50余套業(yè)務系統(tǒng),實現(xiàn)了三百余次上線。固定的上線流程6個,可實現(xiàn)應用服務器的分批備份上線。應用發(fā)布時間由之前的90分鐘左右縮短至30分鐘之內(nèi),除去人工檢查上線結(jié)果所花費的時間外,自動化發(fā)布時間可縮短至15分鐘左右,發(fā)布效率提升了至少3倍,運行至今所有變更流程全部執(zhí)行成功,0失敗。
(四)智能預警實踐銀行AIOPS
應用智能預警服務通過融合多種機器學習算法生成動態(tài)基線,目前支持單指標異常檢測類算法6個,單指標預測類算法4個,多指標分析類算法2個,已監(jiān)控1963個指標,涉及55個系統(tǒng)。異常檢測準確率96%,5分鐘內(nèi)可完成根因定位,速度提升70%。平臺上線以來,準確預警因第三方機構重啟服務器導致行內(nèi)支付交易失敗的問題,使我行開發(fā)人員迅速定位處理問題,并與第三方機構取得聯(lián)系,盡快恢復服務,避免了用戶的投訴,提升了系統(tǒng)的穩(wěn)定性。
項目牽頭人
常學亮 科技信息部副總經(jīng)理
項目團隊成員
譚勇、李倩、廖偉、茍瑞、周濤、呂斌、范攀峰、田若坪、代斯科、吳昱君、邱昌良、張穎、馬藝、趙偲為、姚寅、蔡宇
關鍵詞: