《運維管理標準》由會員分享,可在線閱讀,更多相關(guān)《運維管理標準(9頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、運維管理標準
概述
運維是管理的核心和重點部分,也是內(nèi)容最多、最繁雜的部分,主要用于運
維部門內(nèi)部日常運營管理,涉及的對象分成兩大部分,即業(yè)務(wù)系統(tǒng)和運維人員。
其管理內(nèi)容又可細分為七個子系統(tǒng):
第一、設(shè)備管理:對網(wǎng)絡(luò)設(shè)備、服務(wù)器設(shè)備、操作系統(tǒng)運行狀況進行監(jiān)控,
對各種應(yīng)用支持軟件如數(shù)據(jù)庫、中間件、群件以及各種通用或特定服務(wù)的監(jiān)控管
理,如郵件系統(tǒng)、DNS Web^的監(jiān)控與管理;
第二、 數(shù)據(jù) /存儲 / 容災(zāi)管理: 對系統(tǒng)和業(yè)務(wù)數(shù)據(jù)進行統(tǒng)一存儲、 備份和恢復;
第三、業(yè)務(wù)管理:包含對企業(yè)自身核心業(yè)務(wù)系統(tǒng)運行情況的監(jiān)控與管理
第四、目錄 / 內(nèi)容管理:該部分主要對于企業(yè)需要統(tǒng)
2、一發(fā)布或因人定制的內(nèi)容
管理和對公共信息的管理;
第五、資源資產(chǎn)管理:管理企業(yè)中各 IT 系統(tǒng)的資源資產(chǎn)情況,這些資源資產(chǎn)
可以是物理存在的,也可以是邏輯存在的,并能夠與企業(yè)的財務(wù)部門進行數(shù)據(jù)交
互;
第六、信息安全管理:該部分包含了許多方面的內(nèi)容,目前信息安全管理主
要依據(jù)的國際標準是ISO17799,該標準涵蓋了信息安全管理的十大控制方面,如 企業(yè)安全組織方式、資產(chǎn)分類與控制、人員安全、物理與環(huán)境安全、通信與運營
安全、訪問控制、業(yè)務(wù)連續(xù)性管理等;
第七、日常工作管理:該部分主要用于規(guī)范和明確運維人員的崗位職責和工
作安排、提供績效考核量化依據(jù)、提供解決經(jīng)驗與知識的積累與
3、共享手段。
第一章 總則
1. 為加強公司各個項目后期的系統(tǒng)運維管理,確保系統(tǒng)能夠平穩(wěn)、可靠地運行,
更好地為客戶提供管理服務(wù),特制定本規(guī)定。
2. 實行預(yù)防性維護為主、 故障性維護為輔的運行維護管理原則, 預(yù)防性維護和故
障性維護都應(yīng)遵循事先設(shè)計好的程序進行。
3. 完善運維管理體系,建立健全運維規(guī)范,提高運維管理效率,并不斷提高運維
質(zhì)量。
4. 本規(guī)定適用所有進入運維環(huán)節(jié)的項目。
5. 運維人員應(yīng)根據(jù)授權(quán),處理本規(guī)定中所涉及的業(yè)務(wù)事項。
第二章 主機、服務(wù)器及數(shù)據(jù)庫系統(tǒng)的運維管理
1. 根據(jù)應(yīng)用需求,主機、服務(wù)器及數(shù)據(jù)庫系統(tǒng)的配備和安裝、以及系統(tǒng)資源的使
用等由公
4、司項目實施部統(tǒng)一規(guī)劃。
2. 應(yīng)指定專人作為系統(tǒng)管理員(系統(tǒng)工程師)和數(shù)據(jù)庫管理員,對系統(tǒng)的運行、
管理、維護和安全負責,并按照有關(guān)規(guī)定負責系統(tǒng)和數(shù)據(jù)的備份與恢復。
3. 系統(tǒng) / 數(shù)據(jù)庫管理員應(yīng)定時對系統(tǒng)進行監(jiān)控和定期的健康性檢查,分析系統(tǒng)運
行和資源使用狀況,并進行必要的優(yōu)化、調(diào)整和修正,及時消除隱患。如系統(tǒng)
設(shè)置發(fā)生變化,或重新安裝系統(tǒng),或安裝了新軟件,應(yīng)在此后 15 個工作日內(nèi)
對系統(tǒng)進行密切跟蹤。
4. 及時解決處理系統(tǒng)運行過程中出現(xiàn)的異常問題和軟硬件故障, 并采取必要措施,
最大限度地保護好系統(tǒng)資源和數(shù)據(jù)資源。
5. 對于重大軟硬件系統(tǒng)故障,應(yīng)立即通知部門領(lǐng)導,協(xié)
5、調(diào)服務(wù)商,使系統(tǒng)盡快得
以恢復運行;對于應(yīng)用系統(tǒng)引發(fā)的系統(tǒng)異常或故障,應(yīng)及時通知相關(guān)人員,并
協(xié)同解決處理。
6. 每季度應(yīng)對系統(tǒng)主機 / 服務(wù)器 / 數(shù)據(jù)庫進行一次停運維護, 其操作必須嚴格按照
操作規(guī)程進行。其他非正常性停運(故障引發(fā)的除外) ,應(yīng)提出書面申請,并
經(jīng)部門領(lǐng)導批準后方可進行。 同時做好相應(yīng)的準備工作, 最大限度地減少對業(yè)
務(wù)操作帶來的影響。
7. 具有系統(tǒng)操作或管理權(quán)限的人員調(diào)離工作崗位或離職, 應(yīng)立即從系統(tǒng)中刪除該
用戶;如該人員掌握超級用戶口令,應(yīng)立即更換口令。
第三章 軟件系統(tǒng)的運維管理
1. 避免在用戶工作時間進行軟件版本升級工作, 以免由于人為
6、失誤造成業(yè)務(wù)中斷。
2. 軟件系統(tǒng)的安裝、升級等操作應(yīng)保留完整的實施記錄。
3. 對軟件系統(tǒng)進行升級、更新補丁,應(yīng)首先進行相關(guān)的測試,并在確認無誤后實
施。
4. 對軟件系統(tǒng)進行升級、更新補丁,或進行系統(tǒng)的重新安裝等操作,應(yīng)在實施前
對原有系統(tǒng)及數(shù)據(jù)進行備份。
5. 變更系統(tǒng)配置,修改配置文件、參數(shù)文件時,應(yīng)對原始配置數(shù)據(jù)(或文件)進
行保留。
6. 軟件進行版本升級時, 對于不影響業(yè)務(wù)的升級工作, 須以書面形式詳細將計劃、
方案、措施等報上級主管部門備案;對于影響業(yè)務(wù)的升級工作,必須提前兩周
向上級通信主管部門以書面形式提出申請詳細報告計劃、方案、措施等,經(jīng)批
準后方可
7、實施。
7. 維護人員應(yīng)定期跟蹤所使用系統(tǒng)的軟件升級情況和升級后的新功能, 必要時提
出升級建議。
第四章 數(shù)據(jù)庫的運維管理
1. 對于數(shù)據(jù)庫的變更必須有記錄,可以回滾。
2. 無用表和字段要及時清理。
3. 從數(shù)據(jù)庫刪除數(shù)據(jù)一定要先備份再刪除。
4. 定期對數(shù)據(jù)庫數(shù)據(jù)進行自動備份, 以便在故障發(fā)生后盡快恢復最新的數(shù)據(jù)。 定 期檢查備份的執(zhí)行情況,確保備份操作正確執(zhí)行。
5. 指定專人定期進行備份數(shù)據(jù)的恢復性試驗。
1嚴格操作原則:在系統(tǒng)上進行可能影響系統(tǒng)運行的參數(shù)設(shè)置更改和維護等操
作時,須有 2 人以上在場進行監(jiān)護和確認,并作好詳細的操作記錄;
2提前溝通確認原則:軟
8、件進行版本升級時,對于不影響業(yè)務(wù)的升級工作,必須
提前與客戶方進行溝通,避免操作中人為失誤造成業(yè)務(wù)中斷;對于影響業(yè)務(wù)的
升級工作,須提前與客戶方進行確認,達成一致后方可實施。
3遵守保密原則:對被運維系統(tǒng)單位的網(wǎng)絡(luò)主機系統(tǒng)軟件應(yīng)用軟件等的密
碼核心參數(shù)業(yè)務(wù)數(shù)據(jù)等負有保密責任,不得隨意復制和傳播。
第五章 巡檢管理
定期了解設(shè)備的運轉(zhuǎn)情況,做好系統(tǒng)日常運行的基礎(chǔ)數(shù)據(jù)記錄,做到有問題
早發(fā)現(xiàn)、早解決,避免隱患,確保設(shè)備的完好率,保證系統(tǒng)運行質(zhì)量。
1. 對硬件設(shè)備進行定期巡檢, 是確保系統(tǒng)穩(wěn)定運行的重要措施, 巡檢工作包括例
行巡檢、節(jié)假日和重要事件前的巡檢
2. 維護人員應(yīng)根
9、據(jù)工作計劃, 對維護的設(shè)備定期進行預(yù)防性巡視檢查, 巡查過程
中應(yīng)認真負責,及時發(fā)現(xiàn)問題,重點注意處在惡劣環(huán)境下、存在潛在質(zhì)量故障
的設(shè)備,巡查要認真做記錄。
3. 巡檢過程中發(fā)現(xiàn)告警應(yīng)立即進入處理流程, 判定為故障的要立即進入故障處理
流程
4. 所有的巡檢都應(yīng)有詳細的記錄,包括時間、巡檢情況和責任人,并應(yīng)在巡檢紀
錄卡上簽字。
第六章 網(wǎng)絡(luò)管理規(guī)范
關(guān)鍵業(yè)務(wù)流程
對以下業(yè)務(wù)系統(tǒng)流程監(jiān)控,對業(yè)務(wù)系統(tǒng)是否正常運行、各項具體參數(shù)指標是 否超標等進行掌控,避免或降低業(yè)務(wù)系統(tǒng)故障的發(fā)生率。
1、單位內(nèi)部的關(guān)鍵業(yè)務(wù)流程。
2、網(wǎng)絡(luò)吞吐量大的業(yè)務(wù)流程。
3、對系統(tǒng)造成大的壓力,頻
10、繁使用數(shù)據(jù)庫的業(yè)務(wù)流程
4、同其它系統(tǒng)集成的業(yè)務(wù)流程,這些集成會提高應(yīng)用失敗的風險。
用戶體驗同系統(tǒng)性能指標相關(guān)聯(lián)
將網(wǎng)絡(luò)中的所有網(wǎng)絡(luò)基礎(chǔ)架構(gòu)都進行集中監(jiān)測,包括對數(shù)據(jù)庫服務(wù)器、應(yīng)用 服務(wù)器、路由器、交換機、防火墻的監(jiān)控,收集網(wǎng)絡(luò)運行信息,將性能數(shù)據(jù)同單 位內(nèi)部用戶的體驗相結(jié)合來分析網(wǎng)絡(luò)的性能狀況,診斷系統(tǒng)瓶頸。
建立網(wǎng)絡(luò)運行基準指標并觀察趨勢
長期監(jiān)測并通過對網(wǎng)絡(luò)運行的觀察,分析網(wǎng)絡(luò)性能的變化和流量等指標的運 行趨勢;及時發(fā)現(xiàn)網(wǎng)絡(luò)偏離系統(tǒng)基準模型時的異常狀況,分析故障,達到預(yù)警的目 的,防止更嚴重問題的發(fā)生。
設(shè)計報警策略,避免警報泛濫
配置報警的依據(jù)是根據(jù)信息服務(wù)管理網(wǎng)的網(wǎng)絡(luò)
11、運維管理目標,報警設(shè)置的原 則:
1、對影響網(wǎng)絡(luò)和業(yè)務(wù)的重要指標設(shè)置報警;
2、消除誤報和重復報警;
3、報警應(yīng)該以多種方式及時發(fā)送給相應(yīng)的負責人。
創(chuàng)建自動化、規(guī)范化事件處理程序
信息服務(wù)網(wǎng)絡(luò)運維,日常處理事務(wù)較多,需要在網(wǎng)絡(luò)、鏈路和系統(tǒng)運行出現(xiàn) 問題時能夠有自動化、規(guī)范化的處理問題程序,快速處理各種潛在故障并且分配 到相應(yīng)的負責人,提高工作效率。另外可將工程師長期積累的知識和工作經(jīng)驗系 統(tǒng)化和固化,達到快速定位故障的目的。
網(wǎng)絡(luò)服務(wù)質(zhì)量SLA的量化管理
提高網(wǎng)絡(luò)服務(wù)質(zhì)量的設(shè)立量化指標,將其作為整個網(wǎng)絡(luò)運維管理團隊的整體
目標。信息服務(wù)管理網(wǎng)網(wǎng)絡(luò)性能管理的總體目標包括網(wǎng)絡(luò)和設(shè)
12、備、 業(yè)務(wù)的可用性、
網(wǎng)絡(luò)的吞吐量、帶寬使用百分比、網(wǎng)絡(luò)延時、 CPUff口 MEMORY負載,對于不同的
網(wǎng)絡(luò)指標還要根據(jù)網(wǎng)絡(luò)的上下級連接關(guān)系分解到每一個子指標,作為對網(wǎng)絡(luò)故障 診斷和性能管理的依據(jù)。
制定網(wǎng)絡(luò)的升級和改進策略
網(wǎng)絡(luò)的升級和改進應(yīng)該以對現(xiàn)有網(wǎng)絡(luò)和系統(tǒng)性能數(shù)據(jù)的測量為前提,以對網(wǎng) 絡(luò)整體運行的現(xiàn)狀及趨勢分析為依據(jù)。通過對單一網(wǎng)絡(luò)系統(tǒng)和整體網(wǎng)絡(luò)系統(tǒng)性能 數(shù)據(jù)的比較、單一網(wǎng)絡(luò)組件和其它網(wǎng)絡(luò)組件的數(shù)據(jù)比較、系統(tǒng)負載量最大時的性 能數(shù)據(jù)和一般負載時的性能數(shù)據(jù)的比較等,判斷是否需要對系統(tǒng)的局部或者整體 進行升級,發(fā)現(xiàn)網(wǎng)絡(luò)系統(tǒng)性能的瓶頸,提出網(wǎng)絡(luò)系統(tǒng)改進的方法。
日常規(guī)范
1
13、.每天兩次進行業(yè)務(wù)系統(tǒng)、網(wǎng)絡(luò)運行狀況、業(yè)務(wù)流量及對外服務(wù)器服務(wù)狀況監(jiān)控 巡查;
2 .按照規(guī)定的時段巡統(tǒng)計并匯總運維表單。(流量統(tǒng)計、事件統(tǒng)計、問題統(tǒng)計、 手里投訴統(tǒng)計等)按照規(guī)定的時段查看路由、防火墻等關(guān)鍵系統(tǒng)運行情況,包 括網(wǎng)絡(luò)流量、帶寬占用率等,重點檢測關(guān)鍵設(shè)施,并記錄;
3 .處理產(chǎn)品組網(wǎng)絡(luò)問題應(yīng)做完整、詳細記錄,快速響應(yīng),及時確定原因,積極組 織處理,同時記錄解決問題的操作過程,問題解決后應(yīng)及時回復;
4 .對網(wǎng)絡(luò)資源調(diào)配管理(ip資源分配、設(shè)備端口劃分、鏈路傳輸、負載均衡等)、 核心和匯聚層等核心網(wǎng)絡(luò)運維的調(diào)試,做好匯報申請并記錄。
5 .故障分析及處理,網(wǎng)絡(luò)拓撲更新及網(wǎng)絡(luò)
14、優(yōu)化。網(wǎng)絡(luò)安全方案實施部署,更新維 護錄入知識庫。
6 .處理各種網(wǎng)絡(luò)故障,并作記錄,保障網(wǎng)絡(luò)正常運行。
7 .遇到不能處理的問題時,通知相關(guān)人員或及時匯報,并記錄;
8 .工作人員要有強烈的安全意識,巡查時應(yīng)注意發(fā)現(xiàn)各種可能的安全隱患并及時 排除。
第七章 請示報告制度
為加強相關(guān)信息處理和反饋管理,有效的控制系統(tǒng)和設(shè)備的運行狀態(tài),通過 規(guī)范的請示報告流程,提高運行維護的管理效率。
例行性請示報告
1. 按照規(guī)程和制度規(guī)定的周報、月報、季報和年報。
2. 系統(tǒng)升級、交接和重大數(shù)據(jù)變更請示報告。
3. 各類專項請示報告和合理化建議。 緊急性請示報告
1. 各種事故、嚴重設(shè)備故障、嚴重電路故障、系統(tǒng)運行異常等情況。
2. 各項工作中發(fā)現(xiàn)的嚴重泄密、安全性事故報告
3. 客戶要求的其他緊急性報告。
4.
5.