《數(shù)據(jù)挖掘?qū)嶒?yàn)指南part.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘?qū)嶒?yàn)指南part.ppt(17頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、數(shù)據(jù)挖掘?qū)嶒?yàn)指南,本ppt主要為08 屆信科胡旭靈根據(jù)實(shí)驗(yàn)課內(nèi)容制作,10屆統(tǒng)計(jì)曠英蘭參與部分修改,特表感謝!,2020/7/30,1,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,本ppt使用說明,標(biāo)為紅色字體為課程涉及的主要操作 此ppt主要為方便大家熟悉weka的基本使用,如果要深入學(xué)習(xí),可參考其他書籍,歡迎和大家一起共同學(xué)習(xí)進(jìn)步。 軟件中提到的軟件自帶數(shù)據(jù),是指在軟件安裝文件夾中有個(gè)data的文件夾里面的數(shù)據(jù)。,2020/7/30,2,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,總體框架,2020/7/30,3,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,Weka軟件,Weka軟件是著名的免費(fèi)數(shù)據(jù)挖掘軟件,各位同學(xué)可到官方網(wǎng)站下載http://www.cs.wai
2、kato.ac.nz/ml/weka/ 共有兩種類型,一種以jre結(jié)尾,表示軟件自帶java虛擬機(jī),另一種不帶(適合pc上已安裝java虛擬機(jī))。,2020/7/30,4,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,安裝運(yùn)行weka,下載安裝包后,解壓安裝。 注:安裝后若發(fā)現(xiàn)運(yùn)行軟件出現(xiàn)一閃而過,則說明java環(huán)境變量沒設(shè)置好(鑒于大家都學(xué)過java,設(shè)環(huán)境變量的步驟是大家應(yīng)該會(huì)的)。,2020/7/30,5,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,設(shè)置java環(huán)境變量后運(yùn)行,,2020/7/30,6,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,Weka功能簡介,Weka介紹 菜單欄里program里有個(gè)重要的logwindow日志窗口選項(xiàng)卡,用來顯示包括出錯(cuò)信息等
3、。 Visualization是進(jìn)行 數(shù)據(jù)可視化操作 Tools是與查看文件 有關(guān)的功能,2020/7/30,7,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,四大主要應(yīng)用程序,Explorer是探索數(shù)據(jù)的環(huán)境,在本課程中將主要介紹。 Experimenter是用來運(yùn)行算法試驗(yàn),算法檢驗(yàn)等的環(huán)境。 Knowledgefolw這個(gè)環(huán)境與explorer相似,但支持拖放。 simpleCLI是命令行界面,可以直接執(zhí)行weka命令,其實(shí)在cmd命令窗里也可直接運(yùn)行weka的命令,前提是設(shè)好環(huán)境變量等。,2020/7/30,8,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,讀取數(shù)據(jù),舉例:Exploreropenfile(選擇本機(jī)安裝文件夾里自帶的數(shù)據(jù))選
4、擇weather.arff,,2020/7/30,9,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,(注:.arff文件是weka識(shí)別的主要類型,weka還識(shí)別spss的.cvs類型的數(shù)據(jù),故數(shù)據(jù)轉(zhuǎn)換 為普通數(shù)據(jù)-spss.csv-.arff,也可以用寫字板和記事本打開arff文件以觀察數(shù)據(jù)),2020/7/30,10,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,Explorer的process界面簡介,,點(diǎn)擊edit可修改數(shù)據(jù),,選擇屬性后點(diǎn)擊remove可刪除屬性,可進(jìn)行數(shù)據(jù)的變換如離散化的數(shù)據(jù)預(yù)處理,數(shù)據(jù)預(yù)處理的主要選項(xiàng),2020/7/30,11,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,數(shù)據(jù)預(yù)處理,數(shù)據(jù)預(yù)處理作為數(shù)據(jù)挖掘的前奏,起著奠基石的作用,希望引起各位同學(xué)
5、的重視。,2020/7/30,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,12,數(shù)據(jù)預(yù)處理舉例:離散化,打開C:Program FilesWeka-3-6dataweather.arff后點(diǎn)擊choose,點(diǎn)擊,2020/7/30,13,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,選擇choose后選擇過濾規(guī)則:離散化,Choose-filters-unsupervised-attribute-discretize,discretize,2020/7/30,14,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,選擇規(guī)則后,應(yīng)用規(guī)則進(jìn)行離散化,1、雙擊所選規(guī)則可進(jìn)行規(guī)則的參數(shù)設(shè)置,見右框,2、此框可調(diào)整參數(shù),4、點(diǎn)擊apply則應(yīng)用規(guī)則,3、進(jìn)行選擇要離散化的屬性,2020/7/30,15,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,離散化后的結(jié)果,2、應(yīng)用規(guī)則后,離散化分為10類,如下圖所示,1、應(yīng)用規(guī)則后再點(diǎn)擊該屬性,可視化,2020/7/30,16,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,數(shù)據(jù)預(yù)處理總結(jié),數(shù)據(jù)預(yù)處理的方式非常多,但基本流程跟離散化差不多,請各位同學(xué)自行嘗試,多實(shí)踐。,2020/7/30,17,數(shù)據(jù)挖掘?qū)嶒?yàn)指南,