文本挖掘核心技術(shù)及其應(yīng)用.ppt
《文本挖掘核心技術(shù)及其應(yīng)用.ppt》由會員分享,可在線閱讀,更多相關(guān)《文本挖掘核心技術(shù)及其應(yīng)用.ppt(30頁珍藏版)》請在裝配圖網(wǎng)上搜索。
文本挖掘核心技術(shù)及其應(yīng)用,2,目錄,文本挖掘步驟文本挖掘功能文本挖掘應(yīng)用,3,文本挖掘步驟,文本挖掘的一般處理過程,4,文本源,原始數(shù)據(jù),預(yù)處理,過濾虛詞,合并詞根,分詞,特征表示,計算權(quán)值,合并特征,過濾特征,特征提取,權(quán)值調(diào)整,特征約減,文本挖掘,文本分類,文本聚類,關(guān)聯(lián)分析,模式提取,分類模式,聚類模式,關(guān)聯(lián)規(guī)則,結(jié)果展示,展示界面,文本挖掘步驟,5,文本挖掘主要功能及應(yīng)用,文本挖掘,應(yīng)用,實現(xiàn)功能,自動分詞,文檔歸類,自動分類,自動聚類,信息抽取,文本相似性檢索,自動摘要,輿情監(jiān)控,垃圾郵件過濾,企業(yè)競爭情報系統(tǒng),電子商務(wù),客戶自動問答,6,目錄,文本挖掘步驟文本挖掘功能文本挖掘應(yīng)用,7,自動分詞,8,自動分類,莫言對話楊振寧:來生學(xué)物理,當(dāng)下夢飛天,時政,社會,軍事,評論,文化,國際,歷史,9,自動聚類,自動對大量無類別的文檔進(jìn)行歸類,把內(nèi)容相近的文檔歸為一類,并自動為該類生成主題詞,為用戶確定類目名稱提供方便。,文本1文本2文本3文本4文本5,類別1:關(guān)鍵詞:比賽、賽季、聯(lián)賽、球隊、比分、太陽、NBA、球員隊員、領(lǐng)先,類別2:關(guān)鍵詞:旅游、黃金、游客、記者、旅行社、中國、國家、假日、北京、線路,類別3:關(guān)鍵詞:公司、企業(yè)、招聘、面試、求職、專業(yè)、職業(yè)、學(xué)生、大學(xué)、人才,10,信息抽取,信息抽取是從文本中抽取指定的一類信息(事件、事實)并將其形成結(jié)構(gòu)化的數(shù)據(jù),填入一個數(shù)據(jù)庫中以供用戶查詢使用。,11,信息抽取,12,文本相似性檢索,文本相似性檢索式對一篇文檔到索引庫中查找與其內(nèi)容重復(fù)率高的文檔和相似的文檔。目前應(yīng)用最廣的是論文查重。,13,自動摘要,對文章中的所有句子進(jìn)行權(quán)值運算,對所有的句子按權(quán)值排列,提取出權(quán)值大的作為關(guān)鍵句,進(jìn)而形成摘要。,14,目錄,文本挖掘步驟文本挖掘功能文本挖掘應(yīng)用,15,應(yīng)用,文檔自動歸類,文本源,原始數(shù)據(jù),預(yù)處理,過濾虛詞,合并詞根,分詞,特征表示,計算權(quán)值,合并特征,過濾特征,特征提取,權(quán)值調(diào)整,特征約減,文本挖掘,文本分類,模式提取,分類模式,結(jié)果展示,展示界面,16,應(yīng)用,文檔自動歸類,17,應(yīng)用,垃圾郵件過濾,商家利用電子郵件傳播大量廣告垃圾郵件持續(xù)攀升逐一查看郵件浪費時間,面臨的問題,對垃圾郵件進(jìn)行過濾對郵件進(jìn)行歸類郵件自動回復(fù),關(guān)鍵需求,18,應(yīng)用,網(wǎng)絡(luò)輿情監(jiān)控,互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)輿論熱點層出不窮;民意表達(dá)向網(wǎng)絡(luò)傾斜;網(wǎng)絡(luò)輿論一旦被錯誤控制和引導(dǎo),影響社會穩(wěn)定;,面臨的挑戰(zhàn),輿情信息的采集與提取話題發(fā)現(xiàn)與追蹤網(wǎng)絡(luò)輿情傾向性分析,關(guān)鍵需求,20,論壇,新聞,引擎,垂直頁面,采集和提取,博客,應(yīng)用,網(wǎng)絡(luò)輿情監(jiān)控,難點,熱點分析,21,應(yīng)用,網(wǎng)絡(luò)輿情監(jiān)控,所采集的網(wǎng)絡(luò)范圍內(nèi)重復(fù)程度最高的話題,22,應(yīng)用,網(wǎng)絡(luò)輿情監(jiān)控,網(wǎng)絡(luò)輿情摘要,提取出幾條最重要的新聞,自動生成摘要,生成簡報。,23,傾向性分析,自動聚合網(wǎng)絡(luò)新聞并自動進(jìn)行褒貶傾向性的分析。對文章的觀點進(jìn)行傾向性分析和統(tǒng)計,識別正負(fù)面信息。,應(yīng)用,網(wǎng)絡(luò)輿情監(jiān)控,24,通過對網(wǎng)絡(luò)信息中的犯罪信息量的分析計算來反映網(wǎng)民的安全感,并進(jìn)行分級;,通過對政府工作相關(guān)語料的褒貶分析計算來描述公眾對政府工作的滿意程度,并進(jìn)行分級。,網(wǎng)絡(luò)輿情監(jiān)控,應(yīng)用,25,應(yīng)用,企業(yè)競爭情報系統(tǒng),企業(yè)情報采集效率低和實時性差信息孤島,缺少跨部門情報資源共享情報內(nèi)容存在重復(fù)性,資源沒有得到有效整合,面臨的問題,自動化收集商業(yè)信息對情報內(nèi)容進(jìn)行統(tǒng)一管理根據(jù)情報內(nèi)容,確定潛在威脅,及時預(yù)警,并制定相應(yīng)策略,關(guān)鍵需求,26,應(yīng)用,企業(yè)競爭情報系統(tǒng),伊利作為中國乳業(yè)巨頭之一,面臨多方競爭,必須密切關(guān)注對手動態(tài),其最大的競爭對手是蒙牛,因此,蒙牛公司的動態(tài)對伊利公司有很大的影響。采集2010年6月至11月蒙牛官網(wǎng)的信息,對其進(jìn)行分析。,激增詞頻警報,遞增詞頻警報,27,發(fā)現(xiàn)共線詞關(guān)系:君樂寶低溫;華北;蒙牛奶源,奶源君樂寶,警情:蒙牛整合君樂寶,實現(xiàn)戰(zhàn)略合作,警情分析:整合事件極大程度轉(zhuǎn)變蒙牛低溫市場地位,并提升蒙牛競爭力,對伊利構(gòu)成極大威脅;提升蒙牛在華北地位,威脅伊利華北市場戰(zhàn)略地位;極大提升蒙牛奶源優(yōu)勢,對伊利在奶源的競爭造成威脅。,應(yīng)用,企業(yè)競爭情報系統(tǒng),28,電子商務(wù)網(wǎng)站,應(yīng)用,數(shù)據(jù)激增,且有大量的非結(jié)構(gòu)化數(shù)據(jù)如何從大量數(shù)據(jù)中發(fā)現(xiàn)有價值的客戶挖掘其內(nèi)在規(guī)律,面臨的問題,分析商品之間的內(nèi)在關(guān)聯(lián)發(fā)現(xiàn)有價值客戶對用戶行為進(jìn)行預(yù)測,關(guān)鍵需求,電子商務(wù)網(wǎng)站,應(yīng)用,網(wǎng)站產(chǎn)品評論挖掘:IT168網(wǎng)站是中國指導(dǎo)IT產(chǎn)品采購的知名媒體品牌,是國內(nèi)最大、最權(quán)威的導(dǎo)購咨詢網(wǎng)站之一。從IT168網(wǎng)站下載三種產(chǎn)品的評論,分別是:諾基亞5320XM的206篇評論、諾基亞5800XM的205篇評論和富士S5205EXR的72篇評論。如,以下是諾基亞5320XM的一篇評論:,步驟:,文本源,原始數(shù)據(jù),預(yù)處理,詞性標(biāo)注,去除停用詞,分詞,特征識別,特征標(biāo)注,特征詞提取,語義極性分析,句子極性分析,極性詞識別和強(qiáng)度確定,分類和結(jié)果評價,結(jié)果評價,分類,程度副詞和極性詞,分:褒、中、貶強(qiáng)度:良好、優(yōu)秀,如功能、價格、屏幕等,30,電子商務(wù)網(wǎng)站,應(yīng)用,挖掘結(jié)果及分析:,數(shù)字代表特征的極性平均值,幫助消費者作出購買決策;給商家提供客戶滿意度信息,并獲得產(chǎn)品優(yōu)缺點,幫助商家改進(jìn)營銷策略或者生產(chǎn)決策。,- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 文本 挖掘 核心技術(shù) 及其 應(yīng)用
鏈接地址:http://ioszen.com/p-3277437.html