數(shù)據(jù)倉庫技術在企業(yè)信息系統(tǒng)建設中的應用.doc
《數(shù)據(jù)倉庫技術在企業(yè)信息系統(tǒng)建設中的應用.doc》由會員分享,可在線閱讀,更多相關《數(shù)據(jù)倉庫技術在企業(yè)信息系統(tǒng)建設中的應用.doc(6頁珍藏版)》請在裝配圖網(wǎng)上搜索。
數(shù)據(jù)倉庫技術在企業(yè)信息系統(tǒng)建設中的應用謝新建 宋曄 ( 北京理工大學 計算機科學系, 北京 100081)摘要:本文從建設原則、體系結構、關鍵環(huán)節(jié)等幾個方面并結合某電信運營商的具體案例說明了數(shù)據(jù)倉庫技術在國內(nèi)電信業(yè)的應用,其中重點說明了異種數(shù)據(jù)源集成、ODS層的設計、ETL過程的設計、倉庫模型設計、元數(shù)據(jù)管理以及專題數(shù)據(jù)挖掘等關鍵環(huán)節(jié),對企業(yè)數(shù)據(jù)倉庫項目的工程實施有一定的參考價值。關鍵詞: 數(shù)據(jù)倉庫;ETL;元數(shù)據(jù);遺留系統(tǒng)中圖分類號: TP311 文獻標識碼:A 1、 引言數(shù)據(jù)倉庫技術是經(jīng)過了十幾年的研究與發(fā)展,在理論與工程實踐上都取得了顯著的成果。國際上許多重要的學術會議,如超大型數(shù)據(jù)庫國際會議(VLDB),數(shù)據(jù)工程國際會議(Data Engineering)等,都出現(xiàn)了大量專門研究數(shù)據(jù)倉庫(Data Warehousing)、聯(lián)機分析處理(On-Line Analytical Processing)、數(shù)據(jù)挖掘(Data Mining)1的論文,同時各大數(shù)據(jù)庫廠商紛紛推出相應產(chǎn)品支持數(shù)據(jù)倉庫,比如NCR、SAS、Oracle、IBM、Informix、Sybase等都提出了相應的數(shù)據(jù)倉庫解決方案;另一方面 ,隨著信息技術的飛速發(fā)展,企業(yè)內(nèi)部產(chǎn)生了越來越多的數(shù)據(jù),但這些數(shù)據(jù)并沒有產(chǎn)生應有的信息,為此出現(xiàn)了“數(shù)據(jù)爆炸,知識貧乏”的窘迫局面,有效地整合與充分利用現(xiàn)有的信息資源成為企業(yè)提高核心競爭力的關鍵。本文以電信行業(yè)為例分析了企業(yè)經(jīng)營分析與決策支持系統(tǒng)的建設應用,重點闡述數(shù)據(jù)倉庫相關技術。2、 數(shù)據(jù)倉庫系統(tǒng)的設計2.1、系統(tǒng)設計原則 (1) 通用化性原則 企業(yè)各地分支機構在組織構架、業(yè)務劃分與側重、其所運行的OLTP系統(tǒng)所依賴RDBMS、電信數(shù)據(jù)綜合分析與決策支持系統(tǒng)所需要的數(shù)據(jù)源的類型與格式等不盡相同,這些都在企業(yè)數(shù)據(jù)綜合分析與決策支持系統(tǒng)通用化設計的考慮范圍之內(nèi)。(2) 可擴展性原則隨著業(yè)務內(nèi)容的變化,業(yè)務系統(tǒng)的信息范圍會發(fā)生變化,而對于作為統(tǒng)一信息服務平臺應設計性能良好的體系結構,保證系統(tǒng)靈活的功能可擴展性。即在保持系統(tǒng)架構與原業(yè)務分析邏輯的前提下,系統(tǒng)能實現(xiàn)簡潔的分析主題與功能性擴充。 (3) 技術開放性原則為保護用戶投資,通過透明訪問技術,要保證系統(tǒng)能夠獨立于具體平臺工具,對用戶形成統(tǒng)一的功能和界面。在工具和平臺的選擇上給用戶提供自由選擇的最大余地。 (4) 兼容性原則 企業(yè)在信息化建設的過程所積累的信息資源是企業(yè)最為寶貴的財富,新建的經(jīng)營決策分析系統(tǒng)應有效的兼容原系統(tǒng),尤其兼容原系統(tǒng)的數(shù)據(jù)資源。2.2、系統(tǒng)體系結構根據(jù)上述的設計原則,并結合系統(tǒng)設計目標,提出電信經(jīng)營分析與決策系統(tǒng)的總體結構如下: 圖1 經(jīng)營分析與決策支持系統(tǒng)總體結構如上圖所示,異種數(shù)據(jù)源的企業(yè)應用集成接口實現(xiàn)異種數(shù)據(jù)源的透明訪問,要支持各種關系數(shù)據(jù)庫、平面文件、XML文件等形式。根據(jù)企業(yè)的分析應用需求,通過設計與實現(xiàn)操作數(shù)據(jù)存儲(ODS)2層來達到面向應用的企業(yè)級數(shù)據(jù)視圖,系統(tǒng)也支持通過異種數(shù)據(jù)源的企業(yè)應用集成接口直接實施數(shù)據(jù)倉庫的ETL過程。在基于元數(shù)據(jù)的控制邏輯的驅動下,系統(tǒng)實現(xiàn)從業(yè)務數(shù)據(jù)源和ODS的數(shù)據(jù)抽取、清洗、轉換與加載的過程,以面向主題的形式來組織數(shù)據(jù)倉庫的數(shù)據(jù);數(shù)據(jù)集市是面向部門級分析而組織分析模型,一般組織成Cube立方體的形式向上支持在線多維分析。同時為了對特定問題(如欠費離網(wǎng))進行深入分析,系統(tǒng)要建立相應的分析挖掘模型,一般采用星型與挖掘寬表的形式進行處理。元數(shù)據(jù)是關于數(shù)據(jù)的數(shù)據(jù),即反映系統(tǒng)結構性本質(zhì)信息的數(shù)據(jù)描述。一般認為包括技術元數(shù)據(jù)與業(yè)務元數(shù)據(jù),為了實現(xiàn)系統(tǒng)應用層對物理層的透明訪問系統(tǒng)引入了元數(shù)據(jù)內(nèi)聯(lián)映射的概念,對于元數(shù)據(jù)的存儲系統(tǒng)采用兩層接口封裝實現(xiàn)元數(shù)據(jù)存儲的規(guī)范性與靈活性。從數(shù)據(jù)集市、挖掘模型以及從ODS獲取的數(shù)據(jù)集與以元數(shù)據(jù)存儲的報表模板、分析模板、門戶Portal模板、XML Schema等結合來生成滿足分析與決策需要的各種展現(xiàn)內(nèi)容,包括預定義報表、即席查詢(Ad Hoc)、OLAP分析、業(yè)務挖掘分析報告、企業(yè)經(jīng)營指標監(jiān)控Portal等,滿足企業(yè)經(jīng)營分析與決策支持的需要。系統(tǒng)實現(xiàn)了基于元數(shù)據(jù)的全程管理,涉及數(shù)據(jù)獲取層、數(shù)據(jù)整合層以及數(shù)據(jù)展現(xiàn)層的全過程,支持分析模型的維護以及數(shù)據(jù)源的結構性變化,通過經(jīng)營分析與決策支持監(jiān)控門戶提供包括展現(xiàn)報表定制、元數(shù)據(jù)維護、門戶定制、統(tǒng)一安全管理等管理服務。2.3、系統(tǒng)關鍵環(huán)節(jié) 2.3.1 異種數(shù)據(jù)源集成 企業(yè)在進行經(jīng)營分析與決策支持系統(tǒng)建設時必須將遺留系統(tǒng)(Legacy System)3進行高效全面地集成,由于遺留系統(tǒng)是在企業(yè)發(fā)展的不同時期建設的,往往缺乏全局的規(guī)劃,所以常表現(xiàn)為不同的操作系統(tǒng)平臺、不同的數(shù)據(jù)庫平臺、不同的網(wǎng)絡通信機制等等,形成了所謂的“信息孤島”;系統(tǒng)中采用異種數(shù)據(jù)源的企業(yè)應用集成接口來實現(xiàn)對異種數(shù)據(jù)源的透明訪問,包括數(shù)據(jù)源元數(shù)據(jù)訪問以及業(yè)務操作數(shù)據(jù)訪問。數(shù)據(jù)源分為在線數(shù)據(jù)源和離線數(shù)據(jù)源,在線數(shù)據(jù)源是指允許在線抽取的業(yè)務數(shù)據(jù)源,如營業(yè)數(shù)據(jù),離線數(shù)據(jù)源是指不允許直接在線抽取的數(shù)據(jù)源,如計費樣單數(shù)據(jù),采用以脫機平面文件數(shù)據(jù)的格式以FTP方式集成進本系統(tǒng)。對數(shù)據(jù)源實現(xiàn)元數(shù)據(jù)級的管理,數(shù)據(jù)源的連接類型(ODBC、OLEDB、JDBC、Native)、連接字符串以及該數(shù)據(jù)源的數(shù)據(jù)結構信息都以技術元數(shù)據(jù)的形式存儲于元數(shù)據(jù)庫中,通過控制臺對其進行業(yè)務語義定義,使用戶對整個企業(yè)的信息系統(tǒng)有了全面的掌握。 2.3.2 ODS層的設計 操作數(shù)據(jù)存儲ODS(Operation Data Storage)是一個集成了來自不同數(shù)據(jù)庫數(shù)據(jù)的環(huán)境。其目的是為終端用戶提供一致的企業(yè)數(shù)據(jù)集成視圖。它可以幫助用戶輕松應對跨多個商業(yè)功能的操作挑戰(zhàn)。它是面向主題的、集成的、近實時的數(shù)據(jù)存儲。設計ODS層的目的在于:改善了對關鍵操作數(shù)據(jù)庫的存?。挥脩裟塬@得對于收益、客戶等主題的企業(yè)級的完整視圖,有利于更好地通觀全局;近實時的數(shù)據(jù)存儲提供了查詢產(chǎn)品與服務的能力;以更高的性能生成操作報告。設計ODS的核心是實現(xiàn)焦點主題全局試圖應用,如企業(yè)的客戶管理系統(tǒng),可以CRM的理念建立以客戶為中心的ODS客戶主題視圖,向上層提供高效的服務。而對于話費結算則采取了從綜合結算系統(tǒng)中直接抽取到數(shù)據(jù)倉庫的方式,抽取周期為結算周期,能完全滿足決策分析的時間窗要求。 2.3.3 ETL過程的設計 數(shù)據(jù)抽取、轉換和加載,是數(shù)據(jù)倉庫實現(xiàn)過程中,進行數(shù)據(jù)由數(shù)據(jù)源系統(tǒng)向數(shù)據(jù)倉庫加載的主要方法,對于整個數(shù)據(jù)處理過程,實現(xiàn)如下: 數(shù)據(jù)抽?。簭臄?shù)據(jù)源系統(tǒng)抽取數(shù)據(jù)倉庫系統(tǒng)需要的數(shù)據(jù)。數(shù)據(jù)抽取采用統(tǒng)一的接口,可以從數(shù)據(jù)庫抽取數(shù)據(jù),也可以從文件抽取,對于不同數(shù)據(jù)平臺、不同的源數(shù)據(jù)形式、不同性能要求的業(yè)務系統(tǒng)以及不同數(shù)據(jù)量的源數(shù)據(jù),可能采用的接口方式不同。為保證抽取效率,同時減少對生產(chǎn)運營系統(tǒng)的影響,對于大數(shù)據(jù)量的抽取,采取“數(shù)據(jù)分割、縮短抽取周期”的原則,對于直接的數(shù)據(jù)庫抽取,采取協(xié)商接口表的方式,保障生產(chǎn)系統(tǒng)數(shù)據(jù)庫的安全。為了滿足經(jīng)營分析系統(tǒng)進行分析、挖掘的需要,同時保證不能影響業(yè)務系統(tǒng)的性能,設計抽取策略、抽取方式、抽取時機、抽取周期非常關鍵。數(shù)據(jù)轉換:數(shù)據(jù)轉換是指對抽取的源數(shù)據(jù)根據(jù)數(shù)據(jù)倉庫系統(tǒng)模型的要求,進行數(shù)據(jù)的轉換、清洗、拆分、匯總等處理,保證來自不同系統(tǒng)、不同格式的數(shù)據(jù)和信息模型的一致性和完整性,并按要求裝入數(shù)據(jù)倉庫。數(shù)據(jù)加載:數(shù)據(jù)加載就是將轉換后的數(shù)據(jù)加載到數(shù)據(jù)倉庫系統(tǒng)中。數(shù)據(jù)加載采用數(shù)據(jù)加載工具,也可以采用API編程進行數(shù)據(jù)加載。數(shù)據(jù)加載策略包括加載周期和數(shù)據(jù)追加策略。對于電信企業(yè)級應用我們采用對ETL工具DataStage進行功能封裝,向上提供監(jiān)控與調(diào)度接口。數(shù)據(jù)加載周期要綜合考慮經(jīng)營分析需求和系統(tǒng)加載的代價,對不同業(yè)務系統(tǒng)的數(shù)據(jù)采用不同的加載周期,但必須保持同一時間業(yè)務數(shù)據(jù)的完整性和一致性。 2.3.4 倉庫模型設計 由于經(jīng)營分析需求的不斷變化,數(shù)據(jù)倉庫中數(shù)據(jù)的存儲必須采用主題分域的方式和盡可能小的業(yè)務單元來進行數(shù)據(jù)的組織和存儲,這樣才能滿足數(shù)據(jù)倉庫的靈活性,適應需求的變化;同時任何一個信息系統(tǒng)都有整體性、結構性、層次性、相對性、可變性;將數(shù)據(jù)倉庫的目標邏輯結構的設計體現(xiàn)系統(tǒng)的這些特征,是對目標系統(tǒng)正確反映的客觀要求。 經(jīng)過詳細的業(yè)務需求分析,某電信運營商的業(yè)務可以按照不同的主題域分為八類:客戶、帳務、資源、服務、客服、營銷、服務使用、結算。其中,客戶主題包含了與客戶相關的基本信息,如客戶的自然屬性(姓名、年齡、職業(yè)等)、客戶的分類信息(現(xiàn)有客戶、潛在客戶、大客戶等)、客戶的重要屬性信息(信用度、忠誠度、消費層次等)。帳務主題中包含了與客戶相關的費用信息,如明細賬單、綜合帳單、帳本、帳戶、付費記錄、銷帳流水等信息。資源主題中包含了網(wǎng)絡資源和服務資源的信息及占用情況。服務主題中包含了產(chǎn)品、套餐、資費與優(yōu)惠規(guī)則等的信息??头黝}中包含了與客戶服務相關的部門信息、流程信息、分類信息等。營銷主題中包含了銷售機會、營銷渠道、促銷活動等相關信息。服務使用主題中描述客戶購買和使用電信服務產(chǎn)品的信息,主要包含了用戶、服務使用記錄、清單等。結算主題中包含了結算清單、結算明細賬單、合作服務方等信息。對于主題的建模采用星型結構,以事實表或概要表加相關維表來構成。 2.3.5 元數(shù)據(jù)管理元數(shù)據(jù)(Metadata)是關于數(shù)據(jù)、操縱數(shù)據(jù)的進程和應用程序的結構和意義的描述信息,其主要目標是提供數(shù)據(jù)資源的全面指南4。在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉庫管理員和數(shù)據(jù)倉庫的開發(fā)人員非常方便地找到他們所關心的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結構和建立方法的數(shù)據(jù),可將其按用途的不同分為兩類:技術元數(shù)據(jù)(Technical Metadata)、業(yè)務元數(shù)據(jù)(Business Metadata)和內(nèi)聯(lián)映射元數(shù)據(jù)(Inter-Mapping Metadata)。 技術元數(shù)據(jù)是存儲關于數(shù)據(jù)倉庫系統(tǒng)技術細節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它主要包括:數(shù)據(jù)倉庫結構的描述,包括各個主題的定義,星型模式或雪花型模式的描述定義等;ODS層的企業(yè)數(shù)據(jù)模型的描述,以描述關系表及其關聯(lián)關系為形式;對數(shù)據(jù)稽核規(guī)則的定義;數(shù)據(jù)集市的定義描述與裝載描述,包括Cube的維度、層次、度量以及相應事實表、概要表的抽取規(guī)則。由數(shù)據(jù)源的定義、ETL的抽取定規(guī)則的定義,包括源數(shù)據(jù)和它們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、清理、轉換規(guī)則和數(shù)據(jù)刷新規(guī)則;安全認證的數(shù)據(jù)也作為元數(shù)據(jù)的一個重要部分進行管理。業(yè)務元數(shù)據(jù)從業(yè)務角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),它提供了介于使用者和實際系統(tǒng)之間的語義層,使得不懂計算機技術的業(yè)務人員也能夠理解數(shù)據(jù)倉庫中的數(shù)據(jù)。業(yè)務元數(shù)據(jù)主要包括以下信息:使用者的業(yè)務術語所表達的數(shù)據(jù)模型、對象名和屬性名;訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;系統(tǒng)所提供的分析方法以及公式和報表的信息;具體包括:企業(yè)概念模型:這是業(yè)務元數(shù)據(jù)所應提供的重要的信息,它表示企業(yè)數(shù)據(jù)模型的高層信息、整個企業(yè)的業(yè)務概念和相互關系;多維數(shù)據(jù)模型:這是企業(yè)概念模型的重要組成部分,它告訴業(yè)務分析人員在數(shù)據(jù)集市當中有哪些維、維的類別、數(shù)據(jù)立方體以及數(shù)據(jù)集市中的聚合規(guī)則。這里的數(shù)據(jù)立方體表示某主題領域業(yè)務事實表和維表的多維組織形式。內(nèi)聯(lián)映射元數(shù)據(jù)(Inter-Mapping Metadata)實現(xiàn)技術元數(shù)據(jù)與業(yè)務元數(shù)據(jù)的層間映射,使得信息系統(tǒng)的概念模型與物理模型相互獨立,使得企業(yè)的概念、業(yè)務模型重組以及物理模型的變化相互透明;內(nèi)聯(lián)映射元數(shù)據(jù)從技術上為業(yè)務需求驅動、企業(yè)數(shù)據(jù)驅動的雙驅動信息系統(tǒng)建設模型提供了重要保證,使得信息系統(tǒng)的建設具有更高的靈活性與適應性。 基于元模型數(shù)據(jù)倉庫建模的過程如下圖所示: 圖2 基于元數(shù)據(jù)的數(shù)據(jù)倉庫建模2.3.6 專題數(shù)據(jù)挖掘電信企業(yè)在長期信息化建設過程中積累了大量的業(yè)務運營數(shù)據(jù)和業(yè)務管理數(shù)據(jù),一般企業(yè)級的數(shù)據(jù)量已超過了TB級以上;同時市場的激烈競爭和管理過程的復雜性,決定了一個企業(yè)為了生存與發(fā)展,需要對客戶關系、市場營銷、產(chǎn)品工程、投資分析等方面的歷史數(shù)據(jù)進行提取與分析,將數(shù)據(jù)轉化為有用的信息。數(shù)據(jù)挖掘一般用于在海量的數(shù)據(jù)集中發(fā)現(xiàn)間接的、隱藏的、新穎的規(guī)則、規(guī)律來輔助決策。數(shù)據(jù)挖掘技術的優(yōu)勢在于通過對數(shù)據(jù)集進行有限步驟的采集、整理、分析、推理、比較等分析手段來揭露埋在數(shù)據(jù)表面下的有用信息。數(shù)據(jù)挖掘又是對信息的一種高度歸納的技術,將大量的、豐富的數(shù)據(jù)集整理成可操作性的、能夠指導決策的若干條歸納結論或規(guī)則。數(shù)據(jù)挖掘常用的算法包括:關聯(lián)規(guī)則、聚類檢測、決策樹、神經(jīng)網(wǎng)絡、遺傳算法、支持向量機等,在SAS、IM8等數(shù)據(jù)挖掘工具中支持的算法包括決策樹、聚類分析、神經(jīng)網(wǎng)絡、回歸分析等。本項目中數(shù)據(jù)挖掘專題分析支持對電信經(jīng)營數(shù)據(jù)分類與預測分析。分類包括客戶分類、網(wǎng)元分類等;預測包括客戶發(fā)展分析與預測、業(yè)務量發(fā)展分析與預測、客戶流失分析與預測、營銷管理與銷售機會分析與預測、市場競爭分析與預測、大客戶分析與預測等。采用回歸分析業(yè)務量進行預測,如下圖所示: 圖3 某電信業(yè)務量預測分析結果 以2001年7月1日到29日的通話次數(shù)歷史數(shù)據(jù),預測2001年7月30日的通話次數(shù) ,結果為:2001年7月30日的預測通話次數(shù)為:31715.84323 ,2001年7月30日的實際通話次數(shù)為30926;應用中取得較好的預測準確率。 3、 結語大型企業(yè)的數(shù)據(jù)倉庫系統(tǒng)建設是一項復雜的系統(tǒng)工程,通過本項目的實施,用戶形成了一套有自己特色的涵蓋企業(yè)客戶、產(chǎn)品、帳務等主題的數(shù)據(jù)模型,建立了企業(yè)級的數(shù)據(jù)倉庫,并進行數(shù)據(jù)模型和數(shù)據(jù)倉庫的運行驗證,在產(chǎn)生報表的速度、質(zhì)量,數(shù)據(jù)分析的結論都基本上達到數(shù)據(jù)倉庫應有的效能,為企業(yè)的各項經(jīng)營分析與決策行為提供了科學的依據(jù)。參考文獻:1欒誠. 數(shù)據(jù)倉庫技術淺析. 山東通信技術,2003,01:32-34.2 Corinne Baragoin, Marty Marini, Andrew Perkins. http:/www-900.ibm.com/developerWorks/cn/dmdd/support/redbooks/abstract/sg246513.shtml.2001 123王英林,周潔,張申生. 遺留軟件系統(tǒng)的一種重構方法. 上海交通大學學報 2002 9(36)4戴超凡,陳文偉,鄧蘇,陸昌輝,唐九陽. 數(shù)據(jù)倉庫中元數(shù)據(jù)技術研究. 計算機工程與應用 2001,14: 85- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 數(shù)據(jù)倉庫 技術 企業(yè)信息 系統(tǒng) 建設 中的 應用
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。
鏈接地址:http://ioszen.com/p-9156602.html