數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型

上傳人:功*** 文檔編號:248212567 上傳時間:2024-10-22 格式:PPT 頁數(shù):69 大?。?.48MB
收藏 版權(quán)申訴 舉報 下載
數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型_第1頁
第1頁 / 共69頁
數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型_第2頁
第2頁 / 共69頁
數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型_第3頁
第3頁 / 共69頁

下載文檔到電腦,查找使用更方便

10 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型(69頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,第,4,章,數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)與模型,Inmon,數(shù)據(jù)倉庫設(shè)計,體系結(jié)構(gòu)化環(huán)境,三級模型,高級模型,中級模型,低級模型,性能優(yōu)化,目錄,數(shù)據(jù)倉庫設(shè)計概述,與數(shù)據(jù)庫設(shè)計的區(qū)別,處理類型,應(yīng)用需求,設(shè)計目標(biāo),數(shù)據(jù)來源,設(shè)計方法,對比內(nèi)容,數(shù)據(jù)庫系統(tǒng)設(shè)計,數(shù)據(jù)倉庫系統(tǒng)設(shè)計,面向的處理類型,面向應(yīng)用,面向分析,應(yīng)用需求,比較明確,不太明確,系統(tǒng)設(shè)計的目標(biāo),事務(wù)處理的并發(fā)性、安全,性、高效性,保證數(shù)據(jù)的四個特征和全局,一致性,數(shù)據(jù)

2、來源,業(yè)務(wù)操作員的輸入,業(yè)務(wù)系統(tǒng),系統(tǒng)設(shè)計的方法,需求驅(qū)動,數(shù)據(jù)驅(qū)動,數(shù)據(jù)倉庫設(shè)計概述,數(shù)據(jù)倉庫與數(shù)據(jù)庫設(shè)計的區(qū)別,處理類型不同,數(shù)據(jù)庫系統(tǒng)設(shè)計,面向應(yīng)用來進(jìn)行設(shè)計,根據(jù)具體的操作事件和操作對象,(實體)來進(jìn)行設(shè)計;,目的是建立一個操作型的數(shù)據(jù)環(huán)境。,從,需求,開始,逐步展開,數(shù)據(jù)倉庫設(shè)計,面向分析的;,從最基本的,主題,開始,不斷完善已有主題,發(fā)展新主,題;,最終建立起一個面向主題的分析型數(shù)據(jù)環(huán)境。,應(yīng)用需求不同,數(shù)據(jù)庫系統(tǒng)設(shè)計,面向明確的應(yīng)用需求,設(shè)計人員能夠清晰地了解應(yīng)用的需求和數(shù)據(jù)流程,數(shù)據(jù)倉庫設(shè)計,很難獲得對用戶需求的確切了解,應(yīng)用人員往往是企業(yè)的中高層人員,他們自己一開始不知道想看

3、什么,,需要引導(dǎo),后期又想什么東西都看,,需要解釋,系統(tǒng)設(shè)計的目標(biāo),數(shù)據(jù)庫系統(tǒng)設(shè)計,為了進(jìn)行,OLTP,處理,通常是對一個或者一組記錄的查詢和修改,,“,一次一集合,”,主要為企業(yè)的特定應(yīng)用服務(wù)的,事務(wù)處理響應(yīng)時間、數(shù)據(jù)的安全性和完整性是系統(tǒng)的目標(biāo),數(shù)據(jù)倉庫設(shè)計,為了分析決策,主要目標(biāo)是保證數(shù)據(jù)的四個特征(面向主題、集成的、穩(wěn)定的、時,變的),建立起一個全局一致的數(shù)據(jù)環(huán)境,作為企業(yè)決策支持的基,礎(chǔ),只有查詢而無更新,,“,一次加載一批,”,對響應(yīng)時間不敏感,數(shù)據(jù)量大,海量數(shù)據(jù),數(shù)據(jù)來源不同,數(shù)據(jù)庫系統(tǒng)設(shè)計,數(shù)據(jù)來源主要是業(yè)務(wù)操作員的,輸入,描述如何通過操作員輸入獲取數(shù)據(jù),描述如何將獲取的數(shù)據(jù)按

4、照,OLAP,的需求合理存放,如何使得,OLTP,的性能更加優(yōu)化,如何保證事務(wù)處理的安全性,數(shù)據(jù)倉庫設(shè)計,數(shù)據(jù)主要,來源于業(yè)務(wù)系統(tǒng),主要解決如何從業(yè)務(wù)系統(tǒng)中得到完整一致的數(shù)據(jù),如何對數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗、綜合,,ETL,如何有效提高數(shù)據(jù)分析的效率與準(zhǔn)確性,系統(tǒng)設(shè)計方法不同,數(shù)據(jù)庫系統(tǒng)設(shè)計,“,需求驅(qū)動,”,;,先收集需求、分析需求,再進(jìn)行設(shè)計和開發(fā);,系統(tǒng)的需求在收集和分析需求階段之后就定下來了,一旦進(jìn)入構(gòu)建,數(shù)據(jù)庫階段,系統(tǒng)的需求就基本不變了。,數(shù)據(jù)倉庫設(shè)計,“,數(shù)據(jù)驅(qū)動,”,從業(yè)務(wù)系統(tǒng)已經(jīng)存在的數(shù)據(jù)出發(fā),獲取之后對數(shù)據(jù)進(jìn)行集成并檢查,數(shù)據(jù)的準(zhǔn)確性,按照分析領(lǐng)域?qū)?shù)據(jù)及數(shù)據(jù)之間的聯(lián)系重新考察,

5、組織數(shù)據(jù)倉庫中,的主題。,“,數(shù)據(jù)驅(qū)動,”,的系統(tǒng)設(shè)計方法的優(yōu)點是可以通過了解原有數(shù)據(jù)庫系統(tǒng),中的數(shù)據(jù)和需要建設(shè)的數(shù)據(jù)倉庫中主題的數(shù)據(jù)的共同性,最大限度,地利用現(xiàn)有系統(tǒng),減少系統(tǒng)建設(shè)的工作量。,開發(fā)生命周期,-CLDS,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)的,系統(tǒng)開發(fā)生命周期,(SDLC),是需,求驅(qū)動的,而,數(shù)據(jù)倉庫,系統(tǒng)的開發(fā)生命周期則是,數(shù)據(jù),驅(qū)動,的,,與,SDLC,相反,,一般寫作,CLDS,,這種寫法,沒有對應(yīng)的實際意義,是一種幽默的寫法。,CLDS,由數(shù)據(jù)開始,一旦數(shù)據(jù)到手就集成數(shù)據(jù)。然,后,如果數(shù)據(jù)有偏差,就檢驗看看數(shù)據(jù)存在什么偏差。,再針對數(shù)據(jù)寫程序,分析程序執(zhí)行結(jié)果。最后,系統(tǒng),需求才得到了理

6、解。,因此,,CASE,工具和技術(shù)用于數(shù)據(jù)倉庫領(lǐng)域是不合適,的。,促銷分析,銷售分析,市場分析,產(chǎn)品組合分析,財務(wù)績效分析,合并報表,EIS,管理報告,公司季報、年報,投資者報表,預(yù)測模型,指標(biāo)體系,業(yè)務(wù)模式規(guī)劃,What-if,分析,投資預(yù)算,長期發(fā)展預(yù)算,戰(zhàn)略規(guī)劃,日常運營預(yù)算,計劃,建模,分析,報表,數(shù)據(jù)倉庫,/ DM,螺旋式方式,業(yè)務(wù)需求分析,設(shè)計,建造,測試,培訓(xùn),試點,部署,使用運行,監(jiān)控,維護,確認(rèn)新需求,/,改進(jìn),實施范圍,業(yè)務(wù)驅(qū)動的,需求分析,設(shè)計,建造,測試,培訓(xùn),試點應(yīng)用,部署,使用,監(jiān)控,維護,發(fā)掘新需求,和改進(jìn),階段,1,階段,2,階段,3,兩種數(shù)據(jù)倉庫設(shè)計,Inmo

7、n,數(shù)據(jù)倉庫,數(shù)據(jù)庫設(shè)計的模式,三級模型(高級、中級、低級),存儲:關(guān)系數(shù)據(jù)庫,Kimball,數(shù)據(jù)倉庫,維度建模技術(shù),維度設(shè)計,/,度量設(shè)計,存儲:多維數(shù)據(jù)庫,/,關(guān)系數(shù)據(jù)庫,兩種數(shù)據(jù)倉庫都需要面臨的主要設(shè)計問題,粒度與分割,元數(shù)據(jù),ETL,索引,小結(jié),數(shù)據(jù)倉庫的設(shè)計不同于事務(wù)處理的數(shù)據(jù)庫的設(shè)計,是,一個循序漸近的過程。,數(shù)據(jù)倉庫的選型是一個非常重要的問題,當(dāng)前,選用,Kimball,數(shù)據(jù)倉庫進(jìn)行設(shè)計是很流行的,因此,實踐,中可優(yōu)先考慮。,面對復(fù)雜的數(shù)據(jù),基于維度建模技術(shù)的,Kimball,數(shù)據(jù),倉庫顯得無能為力,還需要深入探索,因此,,面向復(fù),雜數(shù)據(jù)類型的數(shù)據(jù)倉庫,是目前的研究熱點。,數(shù)據(jù)

8、庫,設(shè)計的三級模型,概念模型,從客觀世界到主觀認(rèn)識的映射,首先將現(xiàn)實世界抽象為概念模型,然后再用適合計算機世界的模型,和語言來描述,ER,圖,邏輯模型,ER,模型關(guān)系模型,規(guī)范化,視圖,約束,物理模型,DBMS,選型,選擇數(shù)據(jù)庫文件的存儲結(jié)構(gòu),索引,分配存儲空間,Inmon,的三級模型,高級模型(高層模型),(數(shù)據(jù)庫設(shè)計-概念模型),即概念模型,用E-R圖表示,首先將現(xiàn)實世界抽象為概念模型,然后再用適合計算機世界的模型,和語言來描述,中級模型(中層模型),(數(shù)據(jù)庫設(shè)計-邏輯模型),數(shù)據(jù)項(Data,item,set,DIS)模型,ER圖的細(xì)分,每個主題都與一個DIS對應(yīng),DIS中的數(shù)據(jù)分為4個

9、組別:基本數(shù)據(jù)組、二級數(shù)據(jù)組、連接數(shù)據(jù),組和類型數(shù)據(jù)組,關(guān)系表(原模型不存在,補充的),低級模型(底層模型),(數(shù)據(jù)庫設(shè)計-物理模型),物理數(shù)據(jù)模型,每個企業(yè)的業(yè)務(wù)模型只有一個,父,子,1,子,2,概念模型與實現(xiàn)無關(guān),只有一個,邏輯模型:概念模型的映射,多個,物理模型:與邏輯模型對應(yīng),為其實現(xiàn)方式,實體,主題,DIS,表,實體 對應(yīng) 主題?,目錄,Inmon數(shù)據(jù)倉庫設(shè)計,體系結(jié)構(gòu)化環(huán)境,三級模型,高級模型,中級模型,低級模型,性能優(yōu)化,中級模型,-DIS,中層模型通過所謂的,DIS,(,Data,Item,Set,數(shù)據(jù)項集),描述,,DIS,是對高層模型的細(xì)分,高層模型中的每個,主題域,(,或

10、實體,),都要建立一個中間層模型,即對,ER,模,型的細(xì)分。,在中層數(shù)據(jù)模型上,有四個基本構(gòu)造:,初始數(shù)據(jù)組,二次數(shù)據(jù)組,連接件,表示主要主題域間的數(shù)據(jù)關(guān)系,數(shù)據(jù),“,類型,”,數(shù)據(jù)組之間通過鍵連接。,數(shù)據(jù)組劃分標(biāo)準(zhǔn):,穩(wěn)定性,穩(wěn)定性順序,:初始數(shù)據(jù)組二次數(shù)據(jù)組類型數(shù)據(jù)組,分組的目的:,根據(jù)穩(wěn)定性將數(shù)據(jù)分開,提高加載效率,13,高級模型,中級模型映射,一個實體,/,主題,對應(yīng),一個,DIS,一個實,體,/,主題,一個,DIS,初始數(shù)據(jù)組(主要數(shù)據(jù)組),每個主要主題域有且只有一個主要數(shù)據(jù)組,其中包含,了每個主要主題域只出現(xiàn)一次的屬性(穩(wěn)定)。,同所有的數(shù)據(jù)組一樣,初始數(shù)據(jù)組有屬性和鍵碼。,一個,

11、主要數(shù)據(jù)組,對應(yīng)一個,主題域,。,初始數(shù)據(jù)組的數(shù)據(jù)穩(wěn)定性最高,一般情況下是,不變化,的,。,姓名、性別、住址,二級數(shù)據(jù)分組,包含對每個主要主題域可以存在多次的屬性。有多少,可以出現(xiàn)多次的不同數(shù)據(jù)組,就含有多少二級數(shù)據(jù)組。,如,一對多,。,二級數(shù)據(jù)分組的數(shù)據(jù)穩(wěn)定性相對初級數(shù)據(jù)組要弱一,些,但比類型數(shù)據(jù)組的數(shù)據(jù)穩(wěn)定性要高。,連接件,表示兩個主要主題域間的數(shù)據(jù)關(guān)系,兩個主題的聯(lián)系。,將數(shù)據(jù)從一個組到另一個組聯(lián)系起來。在,E-R,圖層確,定的關(guān)系在,DIS,層都必須有與其對應(yīng)的連接件。主鍵,與外鍵。,連接器表明,,數(shù)據(jù)倉庫中的主題域之間是關(guān)聯(lián)的,可,見,通過連接件實現(xiàn),Inmon,數(shù)據(jù)倉庫,成為,有機

12、整,體,這在,Kimball,數(shù)據(jù)倉庫中是不存在的。,討論:如果用于連接一個主題的不同數(shù)據(jù)組,連接件,就是就是,ER,模型中的聯(lián)系,連接不同主題域也是,ER,模型中的聯(lián)系。具體通過鍵(無論,ER,模型中還是邏,輯模型都有這個概念)連接實現(xiàn)。結(jié)論:連接件,=,聯(lián),系。,數(shù)據(jù)的,“,類型,”,數(shù)據(jù)的,“,類型,”,由指向數(shù)據(jù)組的線段指示。左邊的數(shù)據(jù),組是超類型,右邊的數(shù)據(jù)組是子類型。,類型數(shù)據(jù)組的數(shù)據(jù)的穩(wěn)定性最低,會,經(jīng)常變化,。,如,一個人的信息(主要數(shù)據(jù)分組)與他所做的事情,(類型,分類了:工作、生活、情感)。,DIS,中的各組件,連接件,例子:,DIS,中數(shù)據(jù)組的穩(wěn)定性,顧客的顧客號、姓名、

13、性別等描述信息基本報紙不,變,比較穩(wěn)定,可作為,主要數(shù)據(jù)組,顧客的住址、文化程度、電話等也基本穩(wěn)定,但存在,改變的可能,相對主要數(shù)據(jù)組中的信息穩(wěn)定性要弱一,些,可作為,二級數(shù)據(jù)組,顧客的采購記錄則經(jīng)常發(fā)生變化,其穩(wěn)定性低,因,此,作為,類型數(shù)據(jù)組,這樣劃分的好處:結(jié)構(gòu)清晰、減少冗余,例子:一個,DIS,連接件,基本數(shù)據(jù)組,商品,ID,客戶,ID,姓名,性別,身份證號碼,住址,文化程度,電話,Email,交易,ID,商品金額,購買時間,交易,ID,商品金額,購買時間,交易,ID,商品金額,購買時間,類型數(shù)據(jù)組,電器,服裝,圖書,一個主題,商品,ID,連接件,二級數(shù)據(jù)組,另一個主題,局部,DIS,

14、與全局,DIS,與企業(yè),ERD,構(gòu)建方,法一樣(由反映不,同用戶群體的不同,ERD,所建成,局部,ER,全局,ER,),,企業(yè),DIS,由多個,DIS,建成,在進(jìn)行對個,別用戶的訪問或,JAD,(,聯(lián)合應(yīng)用程序,設(shè)計,),會議時,就要,生成一個,DIS,和一個,ERD,。,小范圍的,DIS,和其他,所有,DIS,一起形成一,個反映企業(yè)觀點的,DIS,。,目錄,Inmon,數(shù)據(jù)倉庫設(shè)計,體系結(jié)構(gòu)化環(huán)境,三級模型,高級模型,中級模型,低級模型,性能優(yōu)化,低級模型,底層模型是邏輯模型在數(shù)據(jù)倉庫中的具體實現(xiàn),如物,理存取方式、數(shù)據(jù)存儲結(jié)構(gòu)、數(shù)據(jù)存儲位置、存儲分,配等。,低級模型具體表現(xiàn)為一系列的,關(guān)系

15、表,。,低級模型設(shè)計所要考慮的主要因素有,I/O,存取時間、空間利用率和維護代價,數(shù)據(jù)倉庫性能優(yōu)化,如合并表、引入冗余等技術(shù),討論:,DIS,能直接實現(xiàn)嗎?,Inmon,的設(shè)計模型沒有探討,DIS,是如何過渡到低級模,型的,中間似乎缺了一個重要的環(huán)節(jié)。,這個環(huán)節(jié)是:,關(guān)系表,。,關(guān)系表在原設(shè)計模型中沒有深入討論,,遺憾!,DIS,仍,然處于概念模型階段,無非是細(xì)化了,低級模型則直,接實現(xiàn)了,關(guān)系表在哪里設(shè)計的?,缺憾!,應(yīng)該放在中,間模型比較合適。,補充,:,DIS,到,關(guān)系表,的映射,參考,ER,模型到關(guān)系,模型的轉(zhuǎn)化。有了關(guān)系表,具體實現(xiàn)(低級模型)就,沒有問題。,了解:低級模型,-,存儲

16、結(jié)構(gòu),分布式存儲,采用磁盤陣列在多個節(jié)點間以分布的方式來存儲數(shù)據(jù),物理上是分布的,但是邏輯上是統(tǒng)一的,集中式存儲,將現(xiàn)有,SAN,(存儲局域網(wǎng))或者,NAS,(網(wǎng)絡(luò)連接存儲)作為,服務(wù)器的存儲部分,直接通過,FC,交換機來直接訪問所有的數(shù)據(jù)而不需要通過其他,節(jié)點,可以將節(jié)點從數(shù)據(jù)存儲管理的負(fù)擔(dān)中解脫出來,實現(xiàn)數(shù)據(jù)處,理和數(shù)據(jù)存儲的分離。,分布式存儲,集中式存儲,RAID,思想,RAID,:,R,edundant,A,rrays,of,I,nexpensive,D,isks,(,冗余,廉價磁,盤陣列,),多盤聯(lián)合,,統(tǒng)一對外,,高速,高容量,,高可靠性,high,capacity,high,sp

17、eed,high,reliability,生活中的,RAID,,,“,三個臭皮匠抵上一個諸葛亮,”,,雇傭,三個,臭皮匠,還是雇傭,諸葛亮?三個臭皮匠的成本要低,攔截導(dǎo)彈,A,型,命中率,0.7,,,100,萬美元,B,型,命中率,0.9,,,1000,萬美元,用兩個,A,型,至少一個命中的概率,1-,(,1-0.7),2,=,0.91,用,3,個,A,型,至少一個命中的概率,1-,(,1-0.7),3,=,0.97,可用機關(guān)炮打巡航導(dǎo)彈(合算),用多個低價盤代高價盤,思想:,冗余,提高可靠性,并行提高速度,后面的推理基于一個假定:,兩個廉價磁盤,在同一個,修復(fù)時,間(幾小時),內(nèi)同時發(fā)生故障

18、,的概率,很低。,數(shù)據(jù)拆分,這么多冗余磁盤,怎么存儲數(shù)據(jù)?數(shù)據(jù)拆分,塊拆分,邏輯第,I,塊,放到(I,mod,N)+1號磁盤上,排排,坐,位拆分,當(dāng)塊的大小為1bit時,稱為,Bit-Level,Striping,位拆分(比特級拆分),,將字節(jié)按bit拆分,存儲到多,個磁盤上(如分到8個磁盤上),這樣多個磁盤就形,成一個邏輯上磁盤。讀取的數(shù)據(jù)量成倍放大,(如每,次訪問讀取一個磁盤的8倍數(shù)據(jù)量,I/O一次(并行),,數(shù)據(jù)量8倍,可觀!),RAID,RAID,磁盤陣列,廉價,冗余,磁盤陣列是一種采用,多磁盤驅(qū)動器,來存儲數(shù)據(jù)的數(shù),據(jù)存儲系統(tǒng),分為,6,個級別:,RAID0,、,1,、,2,、,3,

19、、,4,、,5,及,RAID0+1,2,、,3,、,4,使用頻率較低,,5,、,0,、,1,、,0+1,使用較多。,在,RAID,的各個級別中,,RAID,1,和,RAID,0+1,提供最佳的,數(shù)據(jù)保護和最佳性能,但是就所需的磁盤而言會需要更多的,成本。當(dāng)硬盤成本不是限制因素時,就兼顧性能和容錯而,言,,RAID,1,或,RAID,0+1,是最佳選擇。,RAID,5,的成本比,RAID,1,或,RAID,0+1,低,但是它提供的容,錯和寫入性能較差。,RAID,5,的寫入性能大約只是,RAID,1,或,RAID,0+1,的一半,這是因為,RAID,5,讀取和寫入奇偶校驗,信息需要額外的,I/O

20、,。,RAID,0,塊級拆分,,無冗余,多盤并發(fā),(實用中,,只用,Level,1,和,5,),因為該級別使用名為條帶集的磁盤文件系統(tǒng),所以又將它稱作,磁盤條帶。數(shù)據(jù)被劃分成多個塊并按固定順序分布到陣列中的,所有磁盤上。,RAID,0,將多個操作分布到多個磁盤上,以便可以,同時獨立地執(zhí)行這些操作,從而改善了讀取,/,寫入性能。,RAID,0,類似于,RAID,5,,但是,RAID,5,還提供容錯功能。,RAID,1-,寫雙份,讀一份,因為該級別使用名為鏡像集的磁盤文件系統(tǒng),所以又,將它稱作,磁盤鏡像,。磁盤鏡像可提供一個與所選磁盤,完全相同的,冗余副本,。寫入主磁盤的所有數(shù)據(jù)都會寫,入鏡像磁盤

21、。,RAID,1,提供了容錯功能,而且通常可,以改進(jìn)讀取性能(但是可能會降低寫入性能),RAID1,RAID,2,、,3,、,4,RAID2-,按位拆分,+,校驗位,該級別通過使用將奇偶校驗分布到所有磁盤上的糾錯方法來添加冗,余。它還利用磁盤條帶策略將一個文件分成多個字節(jié)并將該文件分,布到多個磁盤上。與鏡像,(RAID,1),相比,該策略在磁盤利用率和,讀取,/,寫入性能方面只帶來了很小的改進(jìn)。,RAID,2,不如其他,RAID,級別效率高,通常不使用它。,RAID3-,按位拆分,交錯,帶,奇偶校驗,,,糾正錯誤是用校驗碼和鏡像,恢復(fù),該級別使用與,RAID,2,相同的條帶化方法,但是糾錯方法

22、只需一個,磁盤用于奇偶校驗數(shù)據(jù)。磁盤空間的使用情況因數(shù)據(jù)磁盤的數(shù)量而,異。,RAID,3,在讀取,/,寫入性能方面提供一些改進(jìn)。,RAID,3,也極少,使用。,RAID4-,按塊拆分,校驗恢復(fù):鏡像,和,校驗,該級別使用的條帶數(shù)據(jù)塊或段比,RAID,2,或,RAID,3,大得多。與,RAID,3,一樣,糾錯方法只需一個磁盤用于奇偶校驗數(shù)據(jù)。它將用,戶數(shù)據(jù)與糾錯數(shù)據(jù)分開。,RAID,4,不如其他,RAID,級別效率高,通,常不使用。,RAID,5,寫雙份,+,奇偶校驗頁。,以改善可,靠性。是新設(shè)計中最常用的策略。,與,RAID,4,相似,它將數(shù)據(jù)以大塊,形式條帶化到陣列中的磁盤上。,不同之處在于

23、它在所有磁盤之間,寫入奇偶校驗的方式。數(shù)據(jù)冗余,通過奇偶校驗信息提供。數(shù)據(jù)和,奇偶校驗信息會在磁盤陣列上排,列,所以這兩種信息總是位于不,同的磁盤上。,與磁盤鏡像,(RAID,1),相比,具有,奇偶校驗的條帶化可提供更好的,性能。但是,當(dāng)條帶成員丟失時,(例如,當(dāng)磁盤發(fā)生故障時),,讀取性能會下降。,RAID,5,是最常,用的,RAID,配置之一。,RAID5,RAID,0+1,該級別又稱作具有條帶化的鏡像。該級別使用條帶化的磁盤陣列,而,該陣列又鏡像到另一組相同的條帶化磁盤。,例如,可使用四個磁盤創(chuàng)建一個條帶化的陣列。然后,條帶化的磁盤,陣列使用另一組(四個)條帶化的磁盤進(jìn)行鏡像。,RAID

24、,10,提供磁盤條帶化帶來的性能益處以及鏡像帶來的磁盤冗余。,在所有的,RAID,級別中,,RAID,10,提供的讀取,/,寫入性能最高,代價,是使用的磁盤數(shù)量是其他級別的兩倍。,RAID0+1,鏡像,低級模型,-,索引策略,B,樹及,B+,樹索引、位圖索引等依然有效。,廣義索引,對于一些經(jīng)常性的查詢,利用一個規(guī)模小得多的,“,廣義索引,”,,比去,針對所有數(shù)據(jù)建立索引效率高,如,上司的電話,廣義索引是在數(shù)據(jù)裝載的同時建立,它是一種元數(shù)據(jù),廣義索引涉及的是用戶最關(guān)心的問題,需要在數(shù)據(jù)加載前進(jìn)行調(diào)查,了解。比如使用頻率最高的,10,種藥物,使用頻率最低的藥物等。,比較適合經(jīng)常性的查詢,開銷比較小

25、,目錄,Inmon,數(shù)據(jù)倉庫設(shè)計,體系結(jié)構(gòu)化環(huán)境,三級模型,高級模型,中級模型,低級模型,性能優(yōu)化,數(shù)據(jù)倉庫的物理性能優(yōu)化,數(shù)據(jù)倉庫的具有數(shù)據(jù)量大,操作簡單(主要為查詢操作),的特點,因此,數(shù)據(jù)倉庫的性能優(yōu)化主要集中在物理,I/O,的性能上,應(yīng)盡量減少,I/O,次數(shù),使每次,I/O,能夠返回盡量,多的記錄。,數(shù)據(jù)倉庫性能優(yōu)化所采取的措施有,劃分粒度,數(shù)據(jù)分割,表優(yōu)化,合并表,建立數(shù)據(jù)序列,引入冗余,表的物理分割,生成導(dǎo)出數(shù)據(jù),建立廣義索引,數(shù)據(jù)倉庫中的數(shù)據(jù)是細(xì)節(jié)還是綜合?細(xì)節(jié)到,什么程度?綜合到什么程度?,綜合越高,數(shù)據(jù)量相對越小,查詢效率會更,高。故,合適的粒度設(shè)計會提高查詢效率。,性能優(yōu)化

26、,1,:粒度設(shè)計,粒度是數(shù)據(jù)倉庫的重要概念。,粒度,指的是數(shù)據(jù)倉,庫中數(shù)據(jù)單元的細(xì)節(jié)程度或綜合程度的級別,數(shù)據(jù)倉庫中存在著不同的綜合級別,粒度越大,,表示細(xì)節(jié)程度越低,綜合程度越高。,高細(xì)節(jié)級,高粒度級,低細(xì)節(jié)級,一個顧客一個,月的電話綜合,低粒度級,一個顧客一個,月的電話明細(xì),粒度影響數(shù)據(jù)倉庫的數(shù)據(jù)量的大小、查詢類型以,及效率,粒度具體表現(xiàn)為不同的層次,如時間、,組織結(jié)構(gòu)等,高粒度級,數(shù)據(jù)是經(jīng)過壓縮后的,數(shù)據(jù)量小,查詢,效率高,但是查詢類型受到一定的限制,低粒度級,的數(shù)據(jù)量大,查詢效率低,但支持的查,詢類型多,例如,對于高粒度級的數(shù)據(jù)倉庫可以回答,“,上個月,John,從北京打出的長途電話有

27、多少個?,”,,而不能,回答,“,今天,John,是否從北京打出長途電話?,”,這樣,的問題需要低粒度級的數(shù)據(jù)倉庫,因此,采用高粒度還是低粒度需要做出權(quán)衡。,對,于決策信息查詢,一般,采用高粒度級更為合適,。,理解:粒度,粒度,與,官職,對應(yīng),,大官,看,大粒度,(大方向),,小官,看,小粒度,(細(xì)節(jié)),為,總理,設(shè)計,粒度,面向,全國,高粒度,超大粒度;,為,省長,設(shè)計,粒度,面向,全省,較大粒度;,為,縣長,設(shè)計,粒度,面向,全縣,大粒度;,為,鄉(xiāng)長,設(shè)計,粒度,面向,全鄉(xiāng),小粒度,細(xì)粒度;,為,村長,設(shè)計(別拿村長不當(dāng)干部),粒度,面向,全村,,超細(xì)粒度,張家有田幾畝?李家人丁幾何?,,

28、都,要有。,把,村長,用的粒度與,總理,用的粒度調(diào)換一下便知粒度的,重要性了,兩個肯定都叫苦。,實際設(shè)計中,一般我們要確認(rèn)最低粒度,高粒度可以,由低粒度綜合而來。,粒度的形式,粒度可以分為三種形式,一般意義的粒度(指最低粒度,常用),多重粒度(常用,效率高),活樣本數(shù)據(jù)庫(效率高),在實際中,三種形式的粒度都有可能存在,第一種形式的粒度是對數(shù)據(jù)倉庫中的數(shù)據(jù)的綜合,程度高低的一個度量,指的是最低粒度。它既影,響數(shù)據(jù)倉庫中的數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉庫,所能回答詢問的種類。,細(xì)節(jié)程度越高,粒度級就,越低,回答查詢的種類就越多,,(官越?。?。相,反,細(xì)節(jié)程度越低,粒度級就越高,,(官越大),,查詢

29、效率將會提高。,數(shù)據(jù)倉庫的主要作用是,DSS,分析,因而其絕大部分,查詢都基于一定程度的綜合數(shù)據(jù)之上,而只有極,少的查詢涉及細(xì)節(jié)。所以,可以考慮將綜合數(shù)據(jù),物化,即采用第二種粒度形式,多重粒度,。,雙重粒度,當(dāng)一個企業(yè)或組織的數(shù)據(jù)倉庫中擁有大量數(shù)據(jù)、,資源足夠,并需要多種類型的查詢以及追求高效,率的情況下,可以考慮多重粒度。,常用的是雙重粒度,即輕度綜合級(高粒度)和最,低粒度級(低粒度,當(dāng)前細(xì)節(jié)級),輕度綜合級,April,John,Count:45,Average:14min,最低粒度級,John,4.12,p.m.,6:01-6:12,4.12,p.m.,6:15-6:16,4.12,a

30、.m.,9:12-9:23,對于數(shù)據(jù)分析員來說,大部分時間是針對輕度綜合,級別,(,高粒度,),的數(shù)據(jù)進(jìn)行分析,所以,數(shù)據(jù)可以存,儲在,I/O,效率高的介質(zhì),上。,低粒度級的數(shù)據(jù)可以存儲在,I/O,效率相對較低的介,質(zhì)上,,當(dāng),DSS,分析員需要分析更低的數(shù)據(jù)時,可以,對這些數(shù)據(jù)進(jìn)行操作。但是,需要犧牲效率。,雙重粒度,適合大多數(shù)機構(gòu)或組織的數(shù)據(jù)倉庫構(gòu)建,,單重粒度則只適用于相對較少的數(shù)據(jù)情況。,這樣,對于絕大多數(shù)查詢,性能將大大提高。而萬,一需要對細(xì)節(jié)查詢,小粒度數(shù)據(jù)也可以滿足。,采用多重粒度的目標(biāo),是提高效率,不同級別物化,,當(dāng)然會提高查詢效率,如果軟件硬件技術(shù)足夠先,進(jìn),則另當(dāng)別論。,C

31、ube,中的粒度設(shè)計,維度粒度,:維度一般是有層次結(jié)構(gòu)的,而粒度一般是,指最細(xì)粒度。,如,時間維度:年、季度、月、周、日是有層次的,其中,,首先需要確定的是最細(xì)粒度,“,日,”,,只有這個粒度確定了其他,層次的粒度才可以確定。,事實粒度,:事實是由事實單元(度量)構(gòu)成的,每個,度量與參與維度的最細(xì)粒度相對應(yīng),所以,事實存儲,的是所有參與維度的最細(xì)粒度的度量值。,如,一個事實單元為:,2019,年,10,月,20,日(時間維度最細(xì)粒,度)、玉泉路物美超市,食品部,冷鮮柜組(部門維度最細(xì)粒,度)、食品類,海鮮,海蝦、銷售量:,350kg,。,350kg,為最細(xì)粒,度的度量值。,活樣本數(shù)據(jù),活樣本數(shù)

32、據(jù)是指從,數(shù)據(jù)倉庫,中取得的真實檔案數(shù)據(jù),或輕度綜合數(shù)據(jù)的一個,子集,“,樣本,”,的含義是指一個更大的數(shù)據(jù)庫的一個子集,“,活,”,是指這個數(shù)據(jù)需要進(jìn)行周期刷新,與通常意義的粒度不同,活樣本數(shù)據(jù)庫的粒度級別,不是根據(jù)綜合程度的不同來劃分的,而是根據(jù),采樣,率的高低,來劃分的,采樣粒度,不同的樣本數(shù)據(jù)庫可以具有相同的綜合級,別,一般它是以一定的采樣率從細(xì)節(jié)檔案數(shù)據(jù)或輕,度綜合數(shù)據(jù)中抽取的一個子集。,活樣本數(shù)據(jù)庫不能回答一些細(xì)節(jié)性的問題,抽樣的方法很多,一般是隨機抽取?;顦颖緮?shù)據(jù)可以代,替源數(shù)據(jù)進(jìn)行模擬分析,經(jīng)驗證明,在源數(shù)據(jù)量很大的情況下,抽樣數(shù)據(jù)量可大,大下降,如源數(shù)據(jù)量的,1/100,或,

33、1/1000,,源數(shù)據(jù)量越大,,數(shù)據(jù)量下降的量越大,而得出的分析結(jié)果誤差極小,,具,有很高的效率,活樣本數(shù)據(jù)庫的抽取可以按照數(shù)據(jù)的重要程度不同來進(jìn),行。并不是所有的數(shù)據(jù)對于具體的分析來說都具有相同,的價值,不能不分主次地對數(shù)據(jù)進(jìn)行分析(選代表)。,利用活樣本數(shù)據(jù)庫的概念,可以收集重要的數(shù)據(jù)來進(jìn)行,分析,,既可提高分析效率,也有助于抓住主要因素和主,要矛盾,。,活樣本數(shù)據(jù)的特點,活樣本數(shù)據(jù)庫的主要用途,特別是在分析工作中,有許多探索的過程,有時分析,的目的只是要建立起分析模型或是得到相對準(zhǔn)確、能,反映趨勢的數(shù)據(jù),從而驗證用戶的猜想,為下一步的,策略確定方向或?qū)Ξ?dāng)前分析程序做出相應(yīng)調(diào)整,而,并,不

34、要求精確的結(jié)果,。,這種情況下樣本數(shù)據(jù)就大有用武之地!,性能優(yōu)化,2,:分區(qū),分區(qū)又稱,分割,,與數(shù)據(jù)庫系統(tǒng)中的,分片,概念近,似,是將一個表模式按照一定標(biāo)準(zhǔn)分成兩個或多,個表的模式,將數(shù)據(jù)分割稱小的物理單元(分片),的過程。,與數(shù)據(jù)庫系統(tǒng)的分片相似,數(shù)據(jù)倉庫的分割也分,為水平分割、垂直分割、混合分割和導(dǎo)出分割。,把數(shù)據(jù)庫分區(qū)的技術(shù),“,拿來主義,”,。,分區(qū)的目標(biāo),仍然是提高數(shù)據(jù)倉庫的訪問效率,是,一種系統(tǒng)性能優(yōu)化策略。,優(yōu)點:分區(qū)可以使數(shù)據(jù)裝載、數(shù)據(jù)訪問、數(shù)據(jù)存,檔、數(shù)據(jù)重組、數(shù)據(jù)監(jiān)控、數(shù)據(jù)存儲等操作變得,簡單高效。,分割方法,數(shù)據(jù)量決定是否需要分割,規(guī)則:,小的,主題不分大的分,;,不同

35、主題的數(shù)據(jù)分割方法也不同,如商品按品類,供應(yīng)商,按地址;,分割標(biāo)準(zhǔn)要簡單可行,一般與現(xiàn)實業(yè)務(wù)對應(yīng)比較適合作為,標(biāo)準(zhǔn);,分割與,粒度,掛鉤,即分片,對應(yīng),粒度級別,恰當(dāng)?shù)臄?shù)據(jù)分區(qū)使得數(shù)據(jù)增長便于管理,如果數(shù)據(jù)分區(qū)不合理則會為數(shù)據(jù)增長和管理造成許多困難,簡單地說,數(shù)據(jù)倉庫的本質(zhì)之一是使數(shù)據(jù)訪問變得,靈活高,效,,如果都是大塊的數(shù)據(jù)就達(dá)不到這一目標(biāo),因此,一般情況下,對所有當(dāng)前細(xì)節(jié)的數(shù)據(jù)倉庫都要進(jìn)行,分區(qū)。,分區(qū)標(biāo)準(zhǔn),數(shù)據(jù)分區(qū)的標(biāo)準(zhǔn)可以根據(jù)實際情況來確定,通常,可選擇按,日期,、,地域,、,業(yè)務(wù)領(lǐng)域,或,組織單位,等來,進(jìn)行分區(qū),也可以按多個分區(qū)標(biāo)準(zhǔn)的組合來進(jìn)行,一般而言,分區(qū)標(biāo)準(zhǔn)應(yīng)包括日期項,它十

36、分自然,而且分區(qū)均勻,分區(qū)之后,小單元內(nèi)的數(shù)據(jù)相對獨立,處理起來,更快、更容易,例子,一個按時間(年)和商品類型作為標(biāo)準(zhǔn)來組織的,分區(qū)例子,分區(qū),14,分區(qū),24,分區(qū),34,分區(qū),44,分區(qū),13,分區(qū),23,分區(qū),33,分區(qū),43,分區(qū),12,分區(qū),22,分區(qū),32,分區(qū),42,分區(qū),11,分區(qū),21,分區(qū),31,分區(qū),41,2000,年,2019,年,2019,年,2019,年,流行品,專用品,日用百貨,日用雜品,數(shù)據(jù),小結(jié):粒度與分區(qū),粒度,解決的是數(shù)據(jù)倉庫中數(shù)據(jù)綜合的程度,因,此,任何細(xì)節(jié)的數(shù)據(jù)都可以構(gòu)成數(shù)據(jù)倉庫,粒度可以根據(jù)數(shù)據(jù)倉庫結(jié)構(gòu)劃分為多個層次,但,是實際應(yīng)用中更多地采用雙重

37、粒度,活樣本數(shù)據(jù)庫不是綜合而是,抽樣,,以小數(shù)據(jù)量的,樣本來推斷總體,統(tǒng)計學(xué),分區(qū),是指將數(shù)據(jù)倉庫物理上分割存儲,目標(biāo)是提,高訪問效率,分區(qū)需要按照一定的標(biāo)準(zhǔn)進(jìn)行,一般符合業(yè)務(wù)邏,輯和習(xí)慣,性能優(yōu)化,3,:表優(yōu)化,-,合并表,合并表,例行分析處理時,相關(guān)的表存儲時放到一起,可大大減少磁,頭定位時間,提高,I/O,效率。(與,DBMS,管理數(shù)據(jù),同),這種將多個表中相互關(guān)聯(lián)的記錄相鄰存儲的方式稱為合并表,性能優(yōu)化,3,:表優(yōu)化,-,數(shù)據(jù)序列,數(shù)據(jù)序列,把經(jīng)常按照某一序列訪問并處理的一組表存儲在一,起可減少,I/O,次數(shù),性能優(yōu)化,3,:表優(yōu)化,-,引入冗余,數(shù)據(jù)分析處理的數(shù)據(jù)是廣泛的,數(shù)據(jù)源中的

38、數(shù)據(jù)可能在多個地,方出現(xiàn),如有些表的屬性不經(jīng)常發(fā)生變化,可以將某些屬性復(fù),制到多個主題中。,與合并表不同,合并表沒有增加冗余,引入冗余的方法改變了,表的關(guān)聯(lián)模式,出現(xiàn)了冗余的屬性。,由于存在事務(wù)處理,操作型數(shù)據(jù)中不適合引入冗余,否則會導(dǎo),致數(shù)據(jù)的不一致性;而數(shù)據(jù)倉庫中不存在事務(wù)管理的問題,因,此可以采用引入冗余的技術(shù)。,但是,數(shù)據(jù)倉庫的中冗余仍然要保證數(shù)據(jù)的一致性,好在數(shù)據(jù),倉庫的數(shù)據(jù)是穩(wěn)定的,維護代價很低。,增加冗余,減少連接,提高效率,性能優(yōu)化,3,:表優(yōu)化,-,利用導(dǎo)出數(shù)據(jù),有些匯總計算所得數(shù)據(jù)可以進(jìn)行物化處理,這種數(shù)據(jù),為導(dǎo)出數(shù)據(jù)。,導(dǎo)出數(shù)據(jù)的利用可以節(jié)省計算代價而,提高效率,,同時,

39、可以建立的公共數(shù)據(jù)源,避免不同用戶重復(fù)計算可能,產(chǎn)生偏差(,避免數(shù)據(jù)不一致,)。,討論:規(guī)范化,/,反規(guī)范化,規(guī)范化是,OLTP,系統(tǒng)中為避免數(shù)據(jù)不一致(解決數(shù)據(jù),依賴,更新異常)和減少冗余的一種重要技術(shù)。,而在數(shù)據(jù)倉庫中,上述,引入冗余、利用導(dǎo)出數(shù)據(jù),等方,法技術(shù)已經(jīng)明目張膽地違反,OLTP,系統(tǒng)中規(guī)范化的原,則,但并沒有產(chǎn)生數(shù)據(jù)不一致的問題。,原因:數(shù)據(jù)倉庫中沒有更新操作,所以不會引起更新,異常問題。,因此,在數(shù)據(jù)倉庫設(shè)計中,為提高效率,可以違反規(guī),范化的原則。,性能優(yōu)化,3,:表優(yōu)化,-,建立廣義索引,思想:常用的數(shù)據(jù)建索引,具體內(nèi)容略。,參考,低級模型,索引策略。,小結(jié),數(shù)據(jù)倉庫系統(tǒng)的性能優(yōu)化方法很多,可以借鑒數(shù)據(jù)庫,系統(tǒng)的優(yōu)化方法。,上述為常見的優(yōu)化方法,其中,粒度、分區(qū)、冗余等,方法在實際中應(yīng)用廣泛,這些方法應(yīng)用有交叉,需綜,合應(yīng)用才會達(dá)到較好的優(yōu)化效果。,另外,需要針對具體的系統(tǒng)和應(yīng)用情況而制定優(yōu)化策,略。,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!