歡迎來到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁 裝配圖網(wǎng) > 資源分類 > DOC文檔下載  

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘實驗報告-焦永贊.doc

  • 資源ID:9156861       資源大?。?span id="0rnqeiz" class="font-tahoma">1.79MB        全文頁數(shù):34頁
  • 資源格式: DOC        下載積分:9.9積分
快捷下載 游客一鍵下載
會員登錄下載
微信登錄下載
三方登錄下載: 微信開放平臺登錄 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要9.9積分
郵箱/手機:
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機號,方便查詢和重復下載(系統(tǒng)自動生成)
支付方式: 支付寶    微信支付   
驗證碼:   換一換

 
賬號:
密碼:
驗證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網(wǎng)頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無水印,預覽文檔經(jīng)過壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標題沒有明確說明有答案則都視為沒有答案,請知曉。

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘實驗報告-焦永贊.doc

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘實驗報告冊2013- 2014學年 第 一 學期班 級: T1153-8 學 號: 20110530816 姓 名: 焦 永 贊 授課教師: 楊麗華 實驗教師: 楊麗華 實驗學時: 16 實驗組號: 1 信息管理系目錄實驗一 Microsoft SQL Server Analysis Services的使用3實驗二 使用WEKA進行分類與預測15實驗三 使用WEKA進行關聯(lián)規(guī)則與聚類分析22實驗四 數(shù)據(jù)挖掘算法的程序實現(xiàn)28實驗一 Microsoft SQL Server Analysis Services的使用實驗類型:驗證性 實驗學時:4實驗目的:學習并掌握Analysis Services的操作,加深理解數(shù)據(jù)倉庫中涉及的一些概念,如多維數(shù)據(jù)集,事實表,維表,星型模型,雪花模型,聯(lián)機分析處理等。實驗內容:在實驗之前,先通讀自學SQL SERVER自帶的Analysis Manager概念與教程。按照自學教程的步驟,完成對FoodMart數(shù)據(jù)源的聯(lián)機分析。建立、編輯多維數(shù)據(jù)集,進行OLAP操作,看懂OLAP的分析數(shù)據(jù)。實驗步驟(寫主要步驟,可以打?。?、 啟動聯(lián)機分析管理器:開始->程序>Microsoft SQL Server>Analysis Manager。2、 按照 Analysis Service的自學教程完成對FoodMart數(shù)據(jù)源的聯(lián)機分析。3、 在開始-設置-控制面板-管理工具-數(shù)據(jù)源(ODBC),數(shù)據(jù)源管理器中設置和源數(shù)據(jù)的連接,“數(shù)據(jù)源名”為你的班級+學號+姓名,如T3730101張雨。(1)打開管理工具中的數(shù)據(jù)源:(2)選擇系統(tǒng)DNS(3)建立名為“.”的數(shù)據(jù)源(4)添加,選擇“Microsoft Access 驅動程序 (*.mdb)”,然后單擊“完成”按鈕(5)選擇數(shù)據(jù)庫(6)在“ODBC Microsoft Access 安裝”對話框中單擊“確定”按鈕。 在“ODBC 數(shù)據(jù)源管理器”對話框中單擊“確定”按鈕。4、在開始-設置-控制面板-管理工具-服務-MSSQLServerOLAPService, 啟動該項服務。在Analysis Manager中,單擊服務器名稱,即可建立與 Analysis Servers 的連接;否則,在Analysis Servers 上單擊右鍵,注冊服務器,在服務器名稱中輸入本地計算機的名字,如pc56。本地計算機的名字可右擊:我的電腦,選擇屬性,網(wǎng)絡標志,里面有本地計算機的名字。建立新的數(shù)據(jù)庫,數(shù)據(jù)庫名與數(shù)據(jù)源名相同,如T3730101張雨。在你所建立的數(shù)據(jù)庫中,單擊“新數(shù)據(jù)源”,和早期在 ODBC 數(shù)據(jù)源管理器中建立的數(shù)據(jù)源連接。(1)啟動MSSQLServerOLAPService服務(2)注冊服務器(3)建立名為“”的新數(shù)據(jù)庫(4)建立數(shù)據(jù)源5、假設你是 FoodMart Corporation 的數(shù)據(jù)庫管理員。FoodMart 是一家大型的連鎖店,在美國、墨西哥和加拿大有銷售業(yè)務。市場部想要按產品和顧客分析 1998 年進行的所有銷售業(yè)務數(shù)據(jù)。要求建立Sales多維數(shù)據(jù)集,多維數(shù)據(jù)集是由維度和事實定義的。其維度有“Time”維度、“Product”維度、“Customer”維度、“Store”維度和“Promotion” 維度,事實表為sales_fact_1998,事實表中的度量為:store_sales、store_cost、unit_sales。理解每個維度的級別。(1) “Time”維度(2)Product維度(3)“Customer”維度(4)“Store”維度(5)“Promotion” 維度6、可以使用多維數(shù)據(jù)集編輯器對現(xiàn)有多維數(shù)據(jù)集進行更改。在使用或瀏覽多維數(shù)據(jù)集中的數(shù)據(jù)之前,要求設計多維數(shù)據(jù)集中的數(shù)據(jù)和聚合的存儲選項。即設計好 Sales 多維數(shù)據(jù)集的結構之后,需要選擇要使用的存儲模式并指定要存儲的預先計算好的值的數(shù)量。完成此項操作之后,需要用數(shù)據(jù)填充多維數(shù)據(jù)集。這里選擇 MOLAP 作為存儲模式,創(chuàng)建 Sales 多維數(shù)據(jù)集的聚合設計,然后處理該多維數(shù)據(jù)集。處理 Sales 多維數(shù)據(jù)集時將從 ODBC 源中裝載數(shù)據(jù)并按照聚合設計中的定義計算匯總值。7、使用多維數(shù)據(jù)集瀏覽器,可以用不同的方式查看數(shù)據(jù):可以篩選出可見的維度數(shù)據(jù)量,可以深化以看到數(shù)據(jù)的細節(jié),還可以淺化以看到較為概括的數(shù)據(jù)。這里可以使用多維數(shù)據(jù)集瀏覽器對 Sales 數(shù)據(jù)進行切片和切塊操作。要求理解OLAP操作下數(shù)據(jù)的含義,從而可以分析數(shù)據(jù)。8、人力資源部想按商店來分析雇員的工資。本節(jié)將建立一個 HR(人力資源)多維數(shù)據(jù)集,以進行雇員工資分析。將把 Employee(雇員)維度創(chuàng)建為父子維度。然后使用該維度以及常規(guī)維度來生成 HR 多維數(shù)據(jù)集。其中,事實數(shù)據(jù)表為salary(工資), 維度為Employee(雇員)、Store(商店)、Time(時間)。了解如何建立父子維度。9、建立計算成員和成員屬性。在Sales 多維數(shù)據(jù)集中建立“Average price” 計算成員,思考建立該計算成員的目的。市場部希望將 Sales 多維數(shù)據(jù)集分析功能擴展到根據(jù)客戶的下列特征分析客戶銷售數(shù)據(jù):性別、婚姻狀況、教育程度、年收入、在家子女數(shù)和會員卡。需要向 Customer 維度添加以下六個成員屬性:Gender(性別)、Marital status(婚姻狀況)、Education(教育程度)、Yearly Income(年收入)、Num Children At Home(在家子女數(shù))和 Member Card(會員卡)。這些成員屬性將限制 Customer 維度中的每個成員。理解什么是計算成員和成員屬性,為什么要建立?10、已經(jīng)為客戶維度添加了六個成員屬性,可以創(chuàng)建一個帶有 Yearly Income(年收入)成員屬性的虛擬維度,然后將這個新創(chuàng)建的維度添加到 Sales 多維數(shù)據(jù)集中。使用虛擬維度,可以基于多維數(shù)據(jù)集中的維度成員的成員屬性對多維數(shù)據(jù)集數(shù)據(jù)進行分析。 其優(yōu)點是不占用磁盤空間或處理時間。(1)為客戶維度添加屬性 (2)創(chuàng)建Yearly Income虛擬維度11、理解多維數(shù)據(jù)集角色和數(shù)據(jù)庫角色的聯(lián)系和區(qū)別、建立角色的目的。(1)在sales中創(chuàng)建marketing角色(2)在HR中創(chuàng)建HR角色12、查看銷售多維數(shù)據(jù)集的元數(shù)據(jù)和維度的元數(shù)據(jù),加深對元數(shù)據(jù)概念和分類的理解。(1)查看銷售元數(shù)據(jù)(2)查看Customer元數(shù)據(jù)思考題(要求手寫)給出一個數(shù)據(jù)倉庫成功應用的案例,包括所解決的問題,功能等。實驗小結(要求手寫):實驗中遇到的問題及解決辦法、心得、體會等等.實驗二 使用WEKA進行分類與預測實驗類型:綜合性 實驗學時:4實驗目的:掌握數(shù)據(jù)挖掘平臺WEKA的使用。綜合運用數(shù)據(jù)預處理、分類與預測的挖掘算法、結果的解釋等知識進行數(shù)據(jù)挖掘。從而加深理解課程中的相關知識點。實驗內容:閱讀并理解WEKA的相關中英文資料,熟悉數(shù)據(jù)挖掘平臺WEKA,針對實際數(shù)據(jù),能夠使用WEKA進行數(shù)據(jù)的預處理,能選擇合適的分類與預測算法對數(shù)據(jù)進行分析,并能解釋分析結果。實驗步驟(可以打?。?、 在開始->程序->啟動WEKA,進入Explorer界面,熟悉WEKA的界面功能。2、 選擇數(shù)據(jù)集(實驗中的數(shù)據(jù)可以從網(wǎng)絡獲?。缣┨鼓峥颂枖?shù)據(jù)集,將要處理的數(shù)據(jù)集轉換成WEKA能處理的格式,如.ARFF格式。思考:如何將其它格式的數(shù)據(jù)文件(如.XLS)轉換為.ARFF格式?3、 根據(jù)選擇的數(shù)據(jù)挖掘算法,如果有必要,在Weka Explorer界面,Preprocess選項中,進行相應的數(shù)據(jù)預處理。要求:熟悉Preprocess界面中各個功能選項的含義,理解數(shù)據(jù)的特征。思考:在filter中,supervised和unsupervised的區(qū)別?4、 在Weka Explorer界面,單擊Visualize選項,進入WEKA 的可視化頁面,可以對當前的關系作二維散點圖式的可視化瀏覽。要求: 熟悉Visualize界面中各個功能選項的含義,理解可視化圖形的意義。5、 選擇相應的分類與預測挖掘算法對數(shù)據(jù)集進行分析,進行算法參數(shù)的具體設置。如利用WEKA->Classifier->trees->J48 決策樹算法,對泰坦尼克號數(shù)據(jù)集進行分析;如利用回歸模型對連續(xù)數(shù)值進行預測。要求:對你選擇的分類和預測算法思想分別進行介紹,熟悉classify界面的內容,對classifier中的參數(shù)含義分別進行介紹。思考:classifier->trees->J48算法與classifier->trees->id3算法的區(qū)別與聯(lián)系。ID3算法:J48算法:6、 對分析所獲得的結果進行解釋。如,根據(jù)決策樹和分類規(guī)則嘗試討論泰坦尼克號幸存者的特征。理解評估分類和預測優(yōu)劣的一些準則。思考題(要求手寫)給出數(shù)據(jù)挖掘中分類與預測成功應用的案例,并簡要介紹。實驗小結(要求手寫):實驗中遇到的問題及解決辦法、心得、體會等等.實驗三 使用WEKA進行關聯(lián)規(guī)則與聚類分析實驗類型:綜合性 實驗學時:4實驗目的:掌握數(shù)據(jù)挖掘平臺WEKA的使用。綜合運用數(shù)據(jù)預處理、關聯(lián)規(guī)則與聚類的挖掘算法、結果的解釋等知識進行數(shù)據(jù)挖掘。從而加深理解課程中的相關知識點。實驗內容:閱讀并理解WEKA的相關中英文資料,熟悉數(shù)據(jù)挖掘平臺WEKA,針對實際數(shù)據(jù),能夠使用WEKA進行數(shù)據(jù)的預處理,了解屬性選擇,能選擇合適的關聯(lián)規(guī)則與聚類算法對數(shù)據(jù)進行分析,并能解釋分析結果。實驗步驟(可以打?。?、 在開始->程序->啟動WEKA,進入Explorer界面,熟悉WEKA的界面功能。2、 選擇數(shù)據(jù)集(實驗中的數(shù)據(jù)可以從網(wǎng)絡獲?。?,將要處理的數(shù)據(jù)集轉換成WEKA能處理的格式,如 .ARFF格式。根據(jù)選擇的數(shù)據(jù)挖掘算法,如果有必要,在Weka Explorer界面,Preprocess選項中,進行相應的數(shù)據(jù)預處理。3、 在Weka Explorer界面,單擊Select attributes選項,進入WEKA 的屬性選擇頁面。要求: 了解該界面中主要功能選項的含義,理解該界面的功能。4、 在Weka Explorer界面,單擊Associate選項,進入WEKA 的關聯(lián)規(guī)則頁面。選擇一個關聯(lián)規(guī)則算法對數(shù)據(jù)集進行分析,進行算法參數(shù)的具體設置。要求:對你選擇的關聯(lián)規(guī)則算法思想進行介紹,熟悉Associate界面的內容,對Associate中的參數(shù)含義分別進行介紹。理解用來衡量規(guī)則的關聯(lián)程度的幾個度量指標。理解并解釋分析所獲得的結果。5、 在Weka Explorer界面,單擊Cluster選項,進入WEKA 的聚類頁面。選擇一個聚類算法(如K均值)對數(shù)據(jù)集進行分析,進行算法參數(shù)的具體設置。要求:對你選擇的聚類算法思想進行介紹,熟悉Cluster界面的內容,對Cluster中的參數(shù)含義進行介紹。理解并解釋分析所獲得的結果。思考題(要求手寫)給出數(shù)據(jù)挖掘中關聯(lián)規(guī)則與聚類成功應用的一些案例,并簡要介紹。實驗小結(要求手寫):實驗中遇到的問題及解決辦法、心得、體會等等.實驗四 數(shù)據(jù)挖掘算法的程序實現(xiàn)實驗類型:設計性 實驗學時:4實驗目的:運用數(shù)據(jù)挖掘、程序設計等相關知識,選擇一個數(shù)據(jù)挖掘的常用算法進行程序設計實現(xiàn)。加深對數(shù)據(jù)挖掘算法基本原理、詳細執(zhí)行過程和具體應用情況的理解。實驗內容:采用任何一種自己熟悉的編程語言,完成算法的程序設計,并在每個程序設計語句后面進行詳細的注釋。能夠運用實現(xiàn)的算法來解決某個具體的問題,得到并解釋程序運行的結果。推薦的算法: 1 關聯(lián)規(guī)則:Apriori算法2 分類與預測:ID3, C4.5, KNN, BP,3 聚類:k-means實驗步驟(可以打印):1. 提前預習,選擇算法,理解原理。2. 針對具體問題,選擇熟悉的編程平臺,進行算法的程序實現(xiàn),盡量在每個程序語句后面進行詳細注釋。C+程序源代碼:/* 這個程序是數(shù)據(jù)挖掘中的Apriori算法*/#include <stdio.h>#include<string.h>#define D 9 /*D數(shù)事務的個數(shù)*/#define MinSupCount 2 /*最小事務支持度數(shù)*/void main()/*這里的a,b,c,d,e 分別代表著書上數(shù)據(jù)挖掘那章的I1,I2,I3,I4,I5 */ char a1010=a,b,e,b,d,b,c,a,b,d,a,c,b,c,a,c,a,b,c,e,a,b,c; char b20,d100,t,b210010,b2110010; int i,j,k,x=0,flag=1,c20=0,x1=0,i1=0,j1,counter=0,c1100=0,flag1=1,j2,u=0,c2100=0,n20,v=1;int count100,temp; for(i=0;i<D;i+) for(j=0;aij!=0;j+) /*這個循環(huán)是用來判斷之前保存的是否和aij一樣,不一樣就保存,一樣就不保存*/ for(k=0;k<x;k+) if(bk!=aij) ; else flag=0;break; /*這個if是用來判斷是否相等*/ if(flag=1) bx=aij; x+; else flag=1;/*這個不保存,那就跳到下一個數(shù)*/ /*計算篩選出的元素的支持度計數(shù)*/ for(i=0;i<D;i+) for(j=0;aij!=0;j+) for(k=0;k<x;k+)/*這個x是上面b數(shù)組中元素個數(shù),用b數(shù)組和aij數(shù)組中的每一行和每一列進行比較,用來記錄b數(shù)組每一個元素的支持度計數(shù)*/ if(aij=bk) ck+;break; /*對選出的項集進行篩選,選出支持度計數(shù)大于2的,并且保存到dx1數(shù)組中*/ for(k=0;k<x;k+) if(ck>=MinSupCount) dx1=bk;countx1=ck; x1+; /*對選出的項集中的元素進行排序*/ for(i=0;i<x1-1;i+) for(j=0;j<x1-i-1;j+) if(dj>dj+1) t=dj;dj=dj+1;dj+1=t;temp=countj;countj=countj+1;countj+1=temp; /*打印出L1*/ printf("L1 elements are:n"); for(i=0;i<x1;i+) printf("%c = %d ",di,counti);if(0=(i+1)%3) printf("n"); printf("b n");/*計算每一行的元素個數(shù),并且保存到n數(shù)組中*/ for(i=0;i<D;i+) for(j=0;aij!=0;j+); ni=j; /*對a數(shù)組的每一行進行排序*/ for(i=0;i<D;i+) for(j=0;j<ni-1;j+) for(k=0;k<ni-j-1;k+) if(aik>aik+1) t=aik; aik=aik+1; aik+1=t; /*把L1中的每一個元素都放在b2i0中*/ j1=x1; for(i=0;i<j1;i+) b2i0=di; /*把L1中的元素進行組合,K=2開始,表示x1個元素選K個元素的組合*/ for(k=2;b200!=0;k+) /*u是用來計數(shù)組合總數(shù)的*/ u=0;v=1;/*v 是用來在進行輸出各種組合的標識數(shù) v=1 說明正在進行輸出*/ for(i=0;i<100;i+) c2i=0; for(i=0;i<j1;i+) for(i1=i+1;i1<j1;i1+) for(j=0;j<k-2;j+) if(b2ij!=b2i1j) flag1=0;break; /*進行組合的部分*/ if(flag1=1&&b2ik-2!=b2i1k-2) for(j2=0;j2<k-1;j2+) b21uj2=b2ij2; b21uk-1=b2i1k-2; u+; flag1=1; counter=0; for(i=0;i<D;i+)/*a數(shù)組有5行元素*/ for(i1=0;i1<u;i1+)/*U 代表x1個元素選K個元素的所有組合總數(shù)*/ for(j1=0;j1<k;j1+)/*K 代表一個組合中的元素個數(shù)*/ for(j=0;aij!=0;j+)/*逐個比較每一行的元素*/ if(aij=b21i1j1) counter+; if(counter=k) c2i1+; /*把每種組合數(shù)記錄在c2數(shù)組中*/counter=0; j1=0;temp=0;/*這里的temp 是用來分行*/*對u種情況進行選擇,選出支持度計數(shù)大于2的*/ for(i=0;i<u;i+) if(c2i>=MinSupCount) if(v=1) printf("L%d elements are:n",k); v=0; printf(""); for(j=0;j<k;j+)/*輸出每種組合k 個元素*/ b2j1j=b21ij; printf("%c,",b2j1j); j1+; printf("b"); printf(" = %d ",c2i);if(0=(temp+1)%3) printf("n");temp+; b2j10=0; if(b200!=0) printf("b n"); 程序運行結果:3. 自己選擇某個數(shù)據(jù)集,應用實現(xiàn)的算法得到結果并解釋。實驗小結(要求手寫):實驗中遇到的問題及解決辦法、心得、體會等等.

注意事項

本文(數(shù)據(jù)倉庫與數(shù)據(jù)挖掘實驗報告-焦永贊.doc)為本站會員(jian****018)主動上傳,裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知裝配圖網(wǎng)(點擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因為網(wǎng)速或其他原因下載失敗請重新下載,重復下載不扣分。




關于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對上載內容本身不做任何修改或編輯。若文檔所含內容侵犯了您的版權或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!