數(shù)據(jù)挖掘機器學(xué)習(xí) 考試簡答題

資源ID：153857926 資源大?。?span id="0aeufh5" class="font-tahoma">241KB 全文頁數(shù)：7頁
資源格式： DOC 下載積分：10積分

快捷下載

會員登錄下載

微信登錄下載

三方登錄下載：

微信掃一掃登錄

下載資源需要10積分

郵箱/手機：
溫馨提示：	用戶名和密碼都是您填寫的郵箱或者手機號，方便查詢和重復(fù)下載（系統(tǒng)自動生成）
支付方式：
驗證碼：	換一換

賬號：
密碼：
驗證碼：	換一換
當(dāng)日自動登錄忘記密碼？

友情提示

1、下載資料失敗解決辦法

2、PDF文件下載后，可能會被瀏覽器默認(rèn)打開，此種情況可以點擊瀏覽器菜單，保存網(wǎng)頁到桌面，就可以正常下載了。

3、本站不支持迅雷下載，請使用電腦自帶的IE瀏覽器，或者360瀏覽器、谷歌瀏覽器下載即可。

4、本站資源下載后的文檔和圖紙-無水印,預(yù)覽文檔經(jīng)過壓縮，下載后原文更清晰。

5、試題試卷類文檔，如果標(biāo)題沒有明確說明有答案則都視為沒有答案，請知曉。

網(wǎng)站客服

侵權(quán)投訴

數(shù)據(jù)挖掘機器學(xué)習(xí) 考試簡答題

1.何謂數(shù)據(jù)挖掘？它有哪些方面的功能？答：從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數(shù)據(jù)挖掘；（3分）數(shù)據(jù)挖掘的功能包括：概念描述、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、趨勢分析、孤立點分析以及偏差分析等（3 分）2. 列舉 4 種監(jiān)督式學(xué)習(xí)算法？答：K-近鄰算法（k-Nearest Neighbors）（1 分）線性回歸（Linear Regression）（1 分）邏輯回歸（Logistic Regression）（1 分）支持向量機（1 分）（備注：列出任意 4 種即可得分）3. 過擬合問題產(chǎn)生的原因有哪些以及解決過擬合的辦法有哪些？答：產(chǎn)生的原因：（1）使用的模型比較復(fù)雜，學(xué)習(xí)能力過強。（1 分)（2）有噪聲存在（1 分)（3）數(shù)據(jù)量有限（1 分)解決過擬合的辦法：（1）提前終止（當(dāng)驗證集上的效果變差的時候）（1 分)（2）數(shù)據(jù)集擴增（1 分)（3）尋找最優(yōu)參數(shù) （1 分)4.支持向量機有哪些優(yōu)缺點？答：優(yōu)勢：（1）在高維空間非常高效（1 分)（2）即使在數(shù)據(jù)維度比樣本大的情況下仍然有效（1 分)（3）在決策函數(shù)中使用訓(xùn)練集的子集，因此它也是高效利用內(nèi)存的（1 分) 缺點：（1）如果特征數(shù)量比樣本數(shù)量大得多，在選擇核函數(shù)時要避免過擬合（1 分) （2）支持向量機通過尋找支持向量找到最優(yōu)分割平面，是典型的二分類問題，因此無法解決多分類問題。（1 分)（3）不直接提供概率估計（1 分)5、數(shù)據(jù)挖掘的兩大目標(biāo)分為預(yù)測和描述，監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)分別對應(yīng)哪類目標(biāo)？監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的定義是什么？分別從監(jiān)督類學(xué)習(xí)和無監(jiān)督類學(xué)習(xí)中找一類算法的實例應(yīng)用進(jìn)行舉例說明。答：1.監(jiān)督學(xué)習(xí)對應(yīng)預(yù)測，無監(jiān)督學(xué)習(xí)對應(yīng)描述2.監(jiān)督學(xué)習(xí)：從標(biāo)記的訓(xùn)練數(shù)據(jù)來推斷一個功能的機器學(xué)習(xí)任務(wù)無監(jiān)督學(xué)習(xí):根據(jù)類別未知（沒有標(biāo)記）的訓(xùn)練樣本解決模式識別中的各種問題。3.監(jiān)督學(xué)習(xí)舉例：分類算法，利用分類算法進(jìn)行垃圾電子郵件的分類。無監(jiān)督學(xué)習(xí)舉例：聚類算法。利用聚類算法，如網(wǎng)購平臺，通過用戶購物喜好等進(jìn)行聚類，即客戶群體的劃分1.請談?wù)?K 近鄰算法的優(yōu)缺點有哪些？答：優(yōu)點：簡單，易于理解，易于實現(xiàn)；只需保存訓(xùn)練樣本和標(biāo)記，無須估計參數(shù)，無須訓(xùn)練。不易受最小錯誤概率的影響。（3 分）缺點：K 的選擇不固定；預(yù)測結(jié)果容易受含噪聲數(shù)據(jù)的影響；當(dāng)樣本不平衡時，新樣本的類別偏向于訓(xùn)練樣本中數(shù)量占優(yōu)的類別，容易導(dǎo)致預(yù) 測錯誤；具有較高的計算復(fù)雜度和內(nèi)存消耗，因為對每一個未知樣本，都要計算它到全體已知樣本的距離，才能求得它的 K 個最近鄰。（3 分）2.何謂聚類？它與分類有什么異同？答：聚類是將物理或抽象對象的集合分組成為多個類或簇的過程，使得在同一個簇中的對象之間具有較高的相似度，而不同簇中的對象差別較大。（2 分）聚類與分類的不同，聚類要劃分的類是未知的，分類則是可按已知規(guī)則進(jìn)行；聚類是一種無指導(dǎo)學(xué)習(xí)，它不依賴預(yù)先定義的類和帶類標(biāo)號的訓(xùn)練實例，屬于觀察式學(xué)習(xí)，分類則屬于有指導(dǎo)的學(xué)習(xí)，是示例式學(xué)習(xí)。（2 分）3.請用偽代碼的形式描述 K-Means 算法的過程？答：（1）從一系列數(shù)據(jù) D 中任意選擇 K 個對象作為初始簇的中心（1 分）（2）根據(jù)數(shù)據(jù)到聚類中心的距離，對每個對象進(jìn)行分配（1 分）（3）更新聚類中心位置，即計算每個簇中所有對象的質(zhì)心，將聚類中心移動到質(zhì)心位置（1 分）（4）重復(fù)過程（2）（3）（1 分）（5）直到聚類中心不再發(fā)生變化（2 分）4.什么是降維分析？以及常用的降維算法有哪些？答：降維分析是指從高維數(shù)據(jù)空間到低維數(shù)據(jù)空間的變化過程，其目的是為了降低時間復(fù)雜度和空間復(fù)雜度，或者是去掉數(shù)據(jù)集中夾雜的噪聲，或者是為了使用較少的特征進(jìn)行解釋，方便我們更好地解釋數(shù)據(jù)以及實現(xiàn)數(shù)據(jù)的可視化（3 分）常用的降維算法有：主成分分析，因子分析，獨立成分分析（3 分）1、請描述下數(shù)據(jù)挖掘的工作流程和步驟一般包括哪些？答：問題設(shè)定->特征工程->模型選擇->模型訓(xùn)練->模型評測->模型應(yīng)用2、請談?wù)勀銓ω惾~斯算法中先驗概率、后驗概率、條件概率的理解，以及怎么利用后驗概率計算條件概率（可用公式表達(dá)）？答：先驗概率事件發(fā)生前的預(yù)判概率?？梢允腔跉v史數(shù)據(jù)的統(tǒng)計，可以由背景常識得出，也可以是人的主觀觀點給出。后驗概率結(jié)果發(fā)生后反推事件發(fā)生原因的概率；或者說，基于先驗概率求得的反向條件概率。條件概率一個事件發(fā)生后另一個事件發(fā)生的概率。一般的形式為 P(x|y)表示 y 發(fā)生的條件下 x 發(fā)生的概率?？捎秘惾~斯公式把后驗概率和條件概率、先驗概率聯(lián)系起來，相互推算：3、你對于人工智能的未來怎么看？請談?wù)勊赡軐θ祟惿鐣斐赡男├祝?答：開放式回答，沒有標(biāo)準(zhǔn)答案。主要看學(xué)生對知識的綜合理解以及邏輯思維能力4、技術(shù)性元數(shù)據(jù) MataData 一般包括哪些信息？答：數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換的描述，數(shù)據(jù)倉庫內(nèi)對象和數(shù)據(jù)結(jié)構(gòu)的定義，數(shù)據(jù)清理和數(shù)據(jù)更新時使用的規(guī)則，源數(shù)據(jù)到目的數(shù)據(jù)的映射表，以及用戶訪問權(quán)限，數(shù)據(jù) 備份歷史記錄，數(shù)據(jù)導(dǎo)入歷史記錄和信息發(fā)布?xì)v史記錄3、數(shù)據(jù)倉庫和數(shù)據(jù)集市有什么相同和區(qū)別之處？答：對比內(nèi)容范圍數(shù)據(jù)主題源其他特征數(shù)據(jù)倉庫應(yīng)用獨立集中式，企業(yè)級（可能）規(guī)劃的歷史的，詳細(xì)的和概括的輕微不規(guī)范的多個主題多個內(nèi)部和外部源靈活的面向數(shù)據(jù)長期大單一的復(fù)雜結(jié)構(gòu)數(shù)據(jù)集市特定的 DSS 應(yīng)用用戶域的離散化可能是臨時組織的（無規(guī)劃）一些歷史的、詳細(xì)的和概括的高度不規(guī)范用戶關(guān)心的某一個中心主題很少的內(nèi)部和外部源嚴(yán)格的面向工程短期開始小，逐步變大多，半復(fù)雜性結(jié)構(gòu)，合并復(fù)雜1、請說明 OLAP 和 OLTP 的區(qū)別？答：OLTPOLAP用戶功能操作人員，底層管理人員日常操作型事務(wù)處理決策人員、高級管理人員分析和決策數(shù)據(jù)庫設(shè)計目標(biāo)數(shù)據(jù)特征存取規(guī)模工作單元用戶數(shù)數(shù)據(jù)庫大小面向應(yīng)用當(dāng)前的，最新的，細(xì)節(jié)的，二維的與分立的通常一次讀或?qū)憯?shù)十條記錄一個事務(wù)通常是成千上萬個用戶通常是在 GB 級（100MB1GB）面向主題歷史的、聚集的、多維的、集成的與統(tǒng)一的可能讀取百萬條以上記錄一個復(fù)雜查詢可能只有幾十個或上百個用戶通常在 TB 級（100G1TB 及以上）第 7 章管理規(guī)則與協(xié)同過濾1)簡述 Apriori 算法原理。Apriori 性質(zhì)：一個項集是頻繁的，那么它的所有子集都是頻繁的。一個項集的支持度不會超過其任何子集的支持度。該算法采用逐層的方法找出頻繁項集，首先找出 1 頻繁-項集，通過迭代方法利用頻繁 k-1-項集生成 k 候選項集，掃描數(shù) 據(jù)庫后從候選 k-項集中指出頻繁 k-項集，直到生成的候選項集為空。2)為什么說強關(guān)聯(lián)規(guī)則不一定都是有效的，請舉例說明之。并不是所有的強關(guān)聯(lián)規(guī)則都是有效的。例如，一個谷類早餐的零售商對 5000 名學(xué)生的調(diào)查的案例。數(shù)據(jù)表明： 60% 的學(xué)生打籃球， 75% 的學(xué)生吃這類早餐， 40%的學(xué)生即打籃球吃這類早餐。假設(shè)支持度閾值 s=0.4 ，置信度閾值 c=60%?；?于上面數(shù)據(jù)和假設(shè)我們可挖掘出強關(guān)聯(lián)規(guī)則 “(打籃球 )( 吃早餐)” ，因為其 (打籃球 ) 和 ( 吃早餐 ) 的支持度都大于支持度閾值，都是頻繁項，而規(guī)則的置信度 c=40%/60%=66.6% 也大于置信度閾值。然而，以上的關(guān)聯(lián)規(guī)則很容易產(chǎn)生誤解，因為吃早餐的比例為 75%，大于 66%。也就是說，打籃球與吃早餐實際上是負(fù)關(guān)聯(lián)的。3)證明頻繁集的所有非空子集必須也是頻繁的。min_ supmin_ supconf =n(l ) / n( s 證明 1反證法。根據(jù)定義，如果項集I滿足最小支持度閾值，則I不是頻繁的，即p( I ) <min_ sup。如果項 A 添加到 I ,則結(jié)果項集間（即 I È A ）不可能比 I 更頻繁出現(xiàn)。因此，I È A 也不是頻繁的，即 P（ I È A ）min_sup。矛盾。證明 2設(shè) X 是一個項目集，事務(wù)數(shù)據(jù)庫 T 中支持 X 的元組數(shù)為 s。對 X 的任一非空子集為 Y，設(shè) T 中支持 Y 的元組數(shù)為 s1。根據(jù)項目集支持?jǐn)?shù)的定義，很容易知道支持 X 的元組一定支持 Y，所以 s1 s，即 support （Y） support （X）。按假設(shè)：項目集 X 是頻繁項目集，即 support(X) minsupport，所以 support （Y ） support（X） minsupport，因此 Y 是頻繁項目集。4)Apriori 的一種變形將事務(wù)數(shù)據(jù)庫 D 中的事務(wù)劃分為若干個不重疊的部分。證明在 D 中是頻繁的任何項集至少在 D 中的一個部分中是頻繁的。證明：給定頻繁項集 l 和 l 的子集 s ，證明規(guī)則“s¢Þ(l -s¢)”的置信度不可能大于“s Þ (l -s )”的置信度。其中， s ¢是s 的子集。根據(jù)定義，規(guī)則 A Þ B 的置信度為：conf =n ( A È B ) / n ( A) n( A)表示項集A出現(xiàn) 的次數(shù)規(guī)則s¢Þ(l -s¢)的置信度為：conf =n ( s¢È(l -s¢)/ n ( s¢)=n(l ) / n( s¢)規(guī)則s Þ (l -s )的置信度同理可得：，又因為 s ¢是s 的子集，n( s¢)>n( s )，所以規(guī)則“s¢Þ(l -s¢)”的置信度不可能大于“s Þ (l -s )”的置信度。5)名詞解釋：孤立點、頻繁項集、支持度、可信度、關(guān)聯(lián)規(guī)則孤立點：指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。頻繁項集：指滿足最小支持度的項集，是挖掘關(guān)聯(lián)規(guī)則的基本條件之一。支持度：規(guī)則 AB 的支持度指的是所有事件中 A 與 B 同地發(fā)生的的概率，即 P(A B)，是 AB 同時發(fā)生的次數(shù)與事件總次數(shù)之比。支持度是對關(guān)聯(lián)規(guī)則重要性的衡量?？尚哦龋阂?guī)則 AB 的可信度指的是包含 A 項集的同時也包含 B 項集的條件概率 P(B|A)，是 AB 同時發(fā)生的次數(shù)與 A 發(fā)生的所有次數(shù)之比?？尚哦仁菍﹃P(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。

注意事項

本文（數(shù)據(jù)挖掘機器學(xué)習(xí) 考試簡答題）為本站會員（熏**）主動上傳，裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對上載內(nèi)容本身不做任何修改或編輯。若此文所含內(nèi)容侵犯了您的版權(quán)或隱私，請立即通知裝配圖網(wǎng)（點擊聯(lián)系客服），我們立即給予刪除！

溫馨提示：如果因為網(wǎng)速或其他原因下載失敗請重新下載，重復(fù)下載不扣分。

數(shù)據(jù)挖掘 機器學(xué)習(xí) 考試簡答題

數(shù)據(jù)挖掘 機器學(xué)習(xí) 考試簡答題

數(shù)據(jù)挖掘機器學(xué)習(xí) 考試簡答題

數(shù)據(jù)挖掘機器學(xué)習(xí) 考試簡答題