文本挖掘核心技術及其應用.ppt
文本挖掘核心技術及其應用,2,目錄,文本挖掘步驟文本挖掘功能文本挖掘應用,3,文本挖掘步驟,文本挖掘的一般處理過程,4,文本源,原始數(shù)據(jù),預處理,過濾虛詞,合并詞根,分詞,特征表示,計算權值,合并特征,過濾特征,特征提取,權值調整,特征約減,文本挖掘,文本分類,文本聚類,關聯(lián)分析,模式提取,分類模式,聚類模式,關聯(lián)規(guī)則,結果展示,展示界面,文本挖掘步驟,5,文本挖掘主要功能及應用,文本挖掘,應用,實現(xiàn)功能,自動分詞,文檔歸類,自動分類,自動聚類,信息抽取,文本相似性檢索,自動摘要,輿情監(jiān)控,垃圾郵件過濾,企業(yè)競爭情報系統(tǒng),電子商務,客戶自動問答,6,目錄,文本挖掘步驟文本挖掘功能文本挖掘應用,7,自動分詞,8,自動分類,莫言對話楊振寧:來生學物理,當下夢飛天,時政,社會,軍事,評論,文化,國際,歷史,9,自動聚類,自動對大量無類別的文檔進行歸類,把內容相近的文檔歸為一類,并自動為該類生成主題詞,為用戶確定類目名稱提供方便。,文本1文本2文本3文本4文本5,類別1:關鍵詞:比賽、賽季、聯(lián)賽、球隊、比分、太陽、NBA、球員隊員、領先,類別2:關鍵詞:旅游、黃金、游客、記者、旅行社、中國、國家、假日、北京、線路,類別3:關鍵詞:公司、企業(yè)、招聘、面試、求職、專業(yè)、職業(yè)、學生、大學、人才,10,信息抽取,信息抽取是從文本中抽取指定的一類信息(事件、事實)并將其形成結構化的數(shù)據(jù),填入一個數(shù)據(jù)庫中以供用戶查詢使用。,11,信息抽取,12,文本相似性檢索,文本相似性檢索式對一篇文檔到索引庫中查找與其內容重復率高的文檔和相似的文檔。目前應用最廣的是論文查重。,13,自動摘要,對文章中的所有句子進行權值運算,對所有的句子按權值排列,提取出權值大的作為關鍵句,進而形成摘要。,14,目錄,文本挖掘步驟文本挖掘功能文本挖掘應用,15,應用,文檔自動歸類,文本源,原始數(shù)據(jù),預處理,過濾虛詞,合并詞根,分詞,特征表示,計算權值,合并特征,過濾特征,特征提取,權值調整,特征約減,文本挖掘,文本分類,模式提取,分類模式,結果展示,展示界面,16,應用,文檔自動歸類,17,應用,垃圾郵件過濾,商家利用電子郵件傳播大量廣告垃圾郵件持續(xù)攀升逐一查看郵件浪費時間,面臨的問題,對垃圾郵件進行過濾對郵件進行歸類郵件自動回復,關鍵需求,18,應用,網(wǎng)絡輿情監(jiān)控,互聯(lián)網(wǎng)的普及,網(wǎng)絡輿論熱點層出不窮;民意表達向網(wǎng)絡傾斜;網(wǎng)絡輿論一旦被錯誤控制和引導,影響社會穩(wěn)定;,面臨的挑戰(zhàn),輿情信息的采集與提取話題發(fā)現(xiàn)與追蹤網(wǎng)絡輿情傾向性分析,關鍵需求,20,論壇,新聞,引擎,垂直頁面,采集和提取,博客,應用,網(wǎng)絡輿情監(jiān)控,難點,熱點分析,21,應用,網(wǎng)絡輿情監(jiān)控,所采集的網(wǎng)絡范圍內重復程度最高的話題,22,應用,網(wǎng)絡輿情監(jiān)控,網(wǎng)絡輿情摘要,提取出幾條最重要的新聞,自動生成摘要,生成簡報。,23,傾向性分析,自動聚合網(wǎng)絡新聞并自動進行褒貶傾向性的分析。對文章的觀點進行傾向性分析和統(tǒng)計,識別正負面信息。,應用,網(wǎng)絡輿情監(jiān)控,24,通過對網(wǎng)絡信息中的犯罪信息量的分析計算來反映網(wǎng)民的安全感,并進行分級;,通過對政府工作相關語料的褒貶分析計算來描述公眾對政府工作的滿意程度,并進行分級。,網(wǎng)絡輿情監(jiān)控,應用,25,應用,企業(yè)競爭情報系統(tǒng),企業(yè)情報采集效率低和實時性差信息孤島,缺少跨部門情報資源共享情報內容存在重復性,資源沒有得到有效整合,面臨的問題,自動化收集商業(yè)信息對情報內容進行統(tǒng)一管理根據(jù)情報內容,確定潛在威脅,及時預警,并制定相應策略,關鍵需求,26,應用,企業(yè)競爭情報系統(tǒng),伊利作為中國乳業(yè)巨頭之一,面臨多方競爭,必須密切關注對手動態(tài),其最大的競爭對手是蒙牛,因此,蒙牛公司的動態(tài)對伊利公司有很大的影響。采集2010年6月至11月蒙牛官網(wǎng)的信息,對其進行分析。,激增詞頻警報,遞增詞頻警報,27,發(fā)現(xiàn)共線詞關系:君樂寶低溫;華北;蒙牛奶源,奶源君樂寶,警情:蒙牛整合君樂寶,實現(xiàn)戰(zhàn)略合作,警情分析:整合事件極大程度轉變蒙牛低溫市場地位,并提升蒙牛競爭力,對伊利構成極大威脅;提升蒙牛在華北地位,威脅伊利華北市場戰(zhàn)略地位;極大提升蒙牛奶源優(yōu)勢,對伊利在奶源的競爭造成威脅。,應用,企業(yè)競爭情報系統(tǒng),28,電子商務網(wǎng)站,應用,數(shù)據(jù)激增,且有大量的非結構化數(shù)據(jù)如何從大量數(shù)據(jù)中發(fā)現(xiàn)有價值的客戶挖掘其內在規(guī)律,面臨的問題,分析商品之間的內在關聯(lián)發(fā)現(xiàn)有價值客戶對用戶行為進行預測,關鍵需求,電子商務網(wǎng)站,應用,網(wǎng)站產(chǎn)品評論挖掘:IT168網(wǎng)站是中國指導IT產(chǎn)品采購的知名媒體品牌,是國內最大、最權威的導購咨詢網(wǎng)站之一。從IT168網(wǎng)站下載三種產(chǎn)品的評論,分別是:諾基亞5320XM的206篇評論、諾基亞5800XM的205篇評論和富士S5205EXR的72篇評論。如,以下是諾基亞5320XM的一篇評論:,步驟:,文本源,原始數(shù)據(jù),預處理,詞性標注,去除停用詞,分詞,特征識別,特征標注,特征詞提取,語義極性分析,句子極性分析,極性詞識別和強度確定,分類和結果評價,結果評價,分類,程度副詞和極性詞,分:褒、中、貶強度:良好、優(yōu)秀,如功能、價格、屏幕等,30,電子商務網(wǎng)站,應用,挖掘結果及分析:,數(shù)字代表特征的極性平均值,幫助消費者作出購買決策;給商家提供客戶滿意度信息,并獲得產(chǎn)品優(yōu)缺點,幫助商家改進營銷策略或者生產(chǎn)決策。,