數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)概述.ppt
《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)概述.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)概述.ppt(32頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)概述數(shù)據(jù)倉(cāng)庫(kù),參考教材,數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理及應(yīng)用技術(shù)王麗珍等,科學(xué)出版社,2004年其它參考書B(niǎo)uildingthedatawarehouse,W.HInmon,機(jī)械工業(yè)出版社2004TheDataWarehouseToolkit(2ndEdition)R.Kimball電子工業(yè)出版社2002DataMining:ConceptsandTechniques.JiaweiHanandMichelineKamber.機(jī)械工業(yè)出版社,2001.史忠植,知識(shí)發(fā)現(xiàn),清華大學(xué)出版社,2002,課程主要內(nèi)容,概述數(shù)據(jù)倉(cāng)庫(kù)聯(lián)機(jī)分析處理數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)數(shù)據(jù)預(yù)處理維度建模數(shù)據(jù)挖掘聚類關(guān)聯(lián)規(guī)則分類,概述-數(shù)據(jù)倉(cāng)庫(kù)基本概念,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)產(chǎn)生的背景什么是數(shù)據(jù)倉(cāng)庫(kù)技術(shù),信息技術(shù)發(fā)展的幾個(gè)階段,1960s:數(shù)據(jù)采集、數(shù)據(jù)庫(kù)創(chuàng)建階段集中于原始文件的處理層次數(shù)據(jù)庫(kù)和網(wǎng)狀數(shù)據(jù)庫(kù)1970s:關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)關(guān)系數(shù)據(jù)模型和關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)E-R模型、SQL語(yǔ)言、查詢處理和優(yōu)化、OLTP(恢復(fù)和并發(fā)技術(shù))1980s:高級(jí)數(shù)據(jù)庫(kù)管理系統(tǒng)面向?qū)ο髷?shù)據(jù)庫(kù)、對(duì)象關(guān)系數(shù)據(jù)庫(kù)、主動(dòng)數(shù)據(jù)庫(kù)、演繹數(shù)據(jù)庫(kù)、模糊數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)空數(shù)據(jù)庫(kù)、統(tǒng)計(jì)數(shù)據(jù)庫(kù)數(shù)據(jù)挖掘技術(shù)1990s:數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘,多媒體數(shù)據(jù)庫(kù),Web數(shù)據(jù)庫(kù)、DataStream,企業(yè)信息化建設(shè)現(xiàn)狀,在數(shù)據(jù)庫(kù)技術(shù)的支持下,一大批成熟的業(yè)務(wù)信息系統(tǒng)投入運(yùn)行,為企業(yè)發(fā)展作出了巨大貢獻(xiàn)各類信息系統(tǒng)大多屬于面向事務(wù)處理的OLTP系統(tǒng)信息系統(tǒng)多年運(yùn)行,積累了大量的數(shù)據(jù)數(shù)據(jù)是一種寶貴的資源,但沒(méi)有充分發(fā)揮作用管理決策層對(duì)數(shù)據(jù)分析基礎(chǔ)平臺(tái)的需求日益強(qiáng)烈,企業(yè)信息化建設(shè)提出了更高的要求,市場(chǎng)競(jìng)爭(zhēng)日益激烈創(chuàng)造競(jìng)爭(zhēng)優(yōu)勢(shì)需要及時(shí)、準(zhǔn)確的做出科學(xué)決策科學(xué)決策必須以準(zhǔn)確、有效的數(shù)據(jù)為基礎(chǔ)充分利用現(xiàn)有數(shù)據(jù),將它轉(zhuǎn)化為信息,分析人員典型的信息需求,覆蓋企業(yè)內(nèi)部信息、合作伙伴信息和市場(chǎng)信息覆蓋綜合信息和明細(xì)信息覆蓋當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù)高可用性高質(zhì)量的數(shù)據(jù)(一致性、完整性)支持各種不同的分析方法數(shù)據(jù)定義符合業(yè)務(wù)人員要求,組織內(nèi)部橫向共享信息數(shù)據(jù)的重構(gòu)個(gè)人授權(quán)服務(wù)和質(zhì)量管理組織之間合作伙伴客戶驅(qū)動(dòng)的解決方案戰(zhàn)略聯(lián)盟價(jià)值鏈和供應(yīng)鏈?zhǔn)袌?chǎng)競(jìng)爭(zhēng)對(duì)手市場(chǎng)分割實(shí)時(shí)的市場(chǎng)行情全球化,操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別,現(xiàn)有數(shù)據(jù)庫(kù)系統(tǒng)處理分析型應(yīng)用存在的問(wèn)題數(shù)據(jù)可信性,數(shù)據(jù)沒(méi)有同一時(shí)間基準(zhǔn)例如:一個(gè)企業(yè)的兩個(gè)部門向管理者呈送報(bào)表部門A,于星期天傍晚抽取了分析所需的數(shù)據(jù),結(jié)論為業(yè)績(jī)上升10%部門B,于星期三下午抽取了分析所需的數(shù)據(jù),結(jié)論為業(yè)績(jī)下降15%算法不同部門A使用的是舊帳號(hào)部門B使用的是大帳號(hào)多次抽取,擴(kuò)大了上述兩個(gè)問(wèn)題用抽取程序從數(shù)據(jù)庫(kù)/文件中抽取數(shù)據(jù),并存放起來(lái),然后又在此基礎(chǔ)上再次進(jìn)行抽取,從數(shù)據(jù)進(jìn)入系統(tǒng)到提供分析往往經(jīng)過(guò)8、9次的抽取。,在實(shí)際中經(jīng)常存在這樣,“蜘蛛網(wǎng)”問(wèn)題,沒(méi)有統(tǒng)一規(guī)劃和設(shè)計(jì)數(shù)據(jù)模型不一致數(shù)據(jù)定義不一致數(shù)據(jù)準(zhǔn)確性差,冗余度高業(yè)務(wù)流程發(fā)生變化歷史數(shù)據(jù)不統(tǒng)一、不規(guī)范解決方案:深入、全面、客觀的數(shù)據(jù)源分析建立數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),數(shù)據(jù)可信性(續(xù)),外部數(shù)據(jù)問(wèn)題一位分析員把華爾街日?qǐng)?bào)的數(shù)據(jù)帶進(jìn)系統(tǒng)另一位將商業(yè)周刊的數(shù)據(jù)進(jìn)入系統(tǒng)數(shù)據(jù)一旦進(jìn)入系統(tǒng),往往已失去“身份”,并且一位分析員也不知道另一位分析員所輸入的數(shù)據(jù)開(kāi)始時(shí)就不是同一個(gè)公共的數(shù)據(jù)源部門A最初來(lái)源于文件XYZ部門B最初來(lái)源于DBABC,現(xiàn)有數(shù)據(jù)庫(kù)系統(tǒng)處理分析型應(yīng)用存在的問(wèn)題從數(shù)據(jù)到信息,例如:“今年的帳戶情況與前五年比較”涉及大量應(yīng)用:儲(chǔ)蓄應(yīng)用、貸款、即期匯票管理、信托,而這些應(yīng)用并未集成。沒(méi)有足夠的歷史數(shù)據(jù):貸款部門,擁有二年的數(shù)據(jù)銀行存折處理,擁有一年的數(shù)據(jù)即期匯票管理只有60天的數(shù)據(jù)現(xiàn)金交易處理具有18個(gè)月的數(shù)據(jù)。數(shù)據(jù)不一致問(wèn)題:同名不同義、同義不同名,例如M/F,Male/Female外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),現(xiàn)有數(shù)據(jù)庫(kù)系統(tǒng)處理分析型應(yīng)用存在的問(wèn)題生產(chǎn)率,為了生成一個(gè)企業(yè)報(bào)表,必須經(jīng)過(guò)獲得源數(shù)據(jù)定位和分析數(shù)據(jù):由于同名不同義、同義不同名,很難準(zhǔn)確定位和分析,可能造成進(jìn)一步的混亂把數(shù)據(jù)加工成報(bào)告要寫許多程序,每個(gè)程序必須客戶化(與客戶環(huán)境有關(guān))程序會(huì)涉及公司具有的各種技術(shù)由于定位數(shù)據(jù)困難,檢索所要的數(shù)據(jù)是一件很麻煩的事完成任務(wù)需要很長(zhǎng)時(shí)間定位數(shù)據(jù)+獲得數(shù)據(jù)+集成報(bào)告,完成任務(wù)所需時(shí)間較長(zhǎng)每份報(bào)告各自需求不同,因此每份報(bào)告所需要的時(shí)間都很長(zhǎng)。,數(shù)據(jù)倉(cāng)庫(kù)要解決的基本問(wèn)題,全局范圍內(nèi)統(tǒng)一數(shù)據(jù)視圖數(shù)據(jù)內(nèi)容數(shù)據(jù)的完整性數(shù)據(jù)的準(zhǔn)確性數(shù)據(jù)的一致性數(shù)據(jù)組織面向分析決策,第一章數(shù)據(jù)倉(cāng)庫(kù)基本概念,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)產(chǎn)生的背景什么是數(shù)據(jù)倉(cāng)庫(kù)技術(shù),數(shù)據(jù)倉(cāng)庫(kù)的定義,對(duì)數(shù)據(jù)倉(cāng)庫(kù)的理解數(shù)據(jù)倉(cāng)庫(kù)用于支持管理和決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的面向交易的操作型數(shù)據(jù)庫(kù);數(shù)據(jù)倉(cāng)庫(kù)是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)是一個(gè)面向主題的(SubjectOriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策和信息的全局共享。W.H.Inmon,面向主題的數(shù)據(jù)組織,主題:宏觀分析領(lǐng)域所涉及的分析對(duì)象采用面向事務(wù)進(jìn)行數(shù)據(jù)組織,其特點(diǎn)為:充分考慮企業(yè)的部門組織結(jié)構(gòu)和業(yè)務(wù)活動(dòng)反映企業(yè)內(nèi)部數(shù)據(jù)流動(dòng)情況,業(yè)務(wù)處理的數(shù)據(jù)流程與業(yè)務(wù)處理流程中的單據(jù)、票證、文檔有良好的對(duì)應(yīng)數(shù)據(jù)與應(yīng)用(數(shù)據(jù)的處理)有一定的對(duì)應(yīng)例:保險(xiǎn)公司:面向應(yīng)用(操作):財(cái)產(chǎn)險(xiǎn)、壽險(xiǎn)、健康險(xiǎn)、意外險(xiǎn)。面向主題的數(shù)據(jù)組織方式:在較高的層次上對(duì)分析對(duì)象的數(shù)據(jù)的一個(gè)完整、一致的描述。例:保險(xiǎn)公司:面向主題:客戶、保單、保費(fèi)、理賠(賠款)。,面向主題數(shù)據(jù)組織的實(shí)現(xiàn)舉例,多個(gè)表,面向主題數(shù)據(jù)組織的實(shí)現(xiàn)舉例(續(xù)一),面向主題數(shù)據(jù)組織的實(shí)現(xiàn)舉例(續(xù)二),數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn):集成的,操作型數(shù)據(jù)庫(kù)面向特殊應(yīng)用每一個(gè)數(shù)據(jù)庫(kù)面向特定的應(yīng)用,各類應(yīng)用(包括其相關(guān)的數(shù)據(jù)庫(kù))之間相互獨(dú)立。系統(tǒng)的發(fā)展經(jīng)歷一個(gè)長(zhǎng)期的過(guò)程數(shù)據(jù)倉(cāng)庫(kù)集成的數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)從建立時(shí)開(kāi)始,面向整個(gè)企業(yè)的分析處理,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是已經(jīng)集成了的,消除了數(shù)據(jù)的不一致性.在某個(gè)時(shí)間點(diǎn)完成設(shè)計(jì),實(shí)現(xiàn)需要經(jīng)歷一個(gè)長(zhǎng)期的不斷迭代的過(guò)程,數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn):集成的,消除沖突:不一致,同名異義、異名同義、單位不統(tǒng)一等等,需要進(jìn)行數(shù)據(jù)清理(因?yàn)閬?lái)源于不同的子系統(tǒng),與不同的主要邏輯捆綁)數(shù)據(jù)的綜合和計(jì)算:可在抽取數(shù)據(jù)時(shí);也可在進(jìn)入DW以后。,數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn):相對(duì)穩(wěn)定的,數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn):相對(duì)穩(wěn)定的,一般不修改,只追加;過(guò)期限的數(shù)據(jù)可從DW中移走(刪去);對(duì)DW,主要是查詢,DWMS比DBMS要簡(jiǎn)單可不考慮并發(fā)控制要考慮性能(因?yàn)椴樵償?shù)據(jù)量大)和界面友好(對(duì)高層管理者),數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn):反映歷史變化,數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn):反映歷史變化,碼鍵包含時(shí)間項(xiàng)不斷增加新的數(shù)據(jù)內(nèi)容;刪去過(guò)時(shí)的數(shù)據(jù);例如:超過(guò)10年的數(shù)據(jù)與時(shí)間有關(guān)的綜合數(shù)據(jù):隨時(shí)間變化而重新組合,數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn):反映歷史變化,操作型數(shù)據(jù)與DW中的數(shù)據(jù)比較操作型環(huán)境60-90天數(shù)據(jù)記錄能被更新碼中不一定包括時(shí)間元素?cái)?shù)據(jù)倉(cāng)庫(kù)5-10年數(shù)據(jù)數(shù)據(jù)的復(fù)雜快照碼中包括時(shí)間元素,第一章數(shù)據(jù)倉(cāng)庫(kù)基本概念,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)產(chǎn)生的背景什么是數(shù)據(jù)倉(cāng)庫(kù)技術(shù),數(shù)據(jù)庫(kù)技術(shù)與數(shù)據(jù)倉(cāng)庫(kù)技術(shù),數(shù)據(jù)庫(kù)技術(shù)在系統(tǒng)功能和性能需求強(qiáng)調(diào)的是多用戶環(huán)境下如何針對(duì)并發(fā)用戶的增刪改操作,保證數(shù)據(jù)的一致性和可恢復(fù)性,并發(fā)用戶的吞吐量為數(shù)據(jù)庫(kù)管理系統(tǒng)的重要性能指標(biāo)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在系統(tǒng)功能和性能需求強(qiáng)調(diào)的是大數(shù)據(jù)量環(huán)境下的高效、快速查詢,查詢的吞吐量為數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)的重要性能指標(biāo),- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開(kāi)word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù) 挖掘 技術(shù) 概述
鏈接地址:http://ioszen.com/p-11543553.html