歡迎來(lái)到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁(yè) 裝配圖網(wǎng) > 資源分類(lèi) > DOC文檔下載  

搜索引擎調(diào)查報(bào)告探測(cè)大眾心中的秘密隱私.doc

  • 資源ID:1244978       資源大?。?span id="zm0kvu0" class="font-tahoma">17.13KB        全文頁(yè)數(shù):7頁(yè)
  • 資源格式: DOC        下載積分:10積分
快捷下載 游客一鍵下載
會(huì)員登錄下載
微信登錄下載
三方登錄下載: 微信開(kāi)放平臺(tái)登錄 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要10積分
郵箱/手機(jī):
溫馨提示:
用戶(hù)名和密碼都是您填寫(xiě)的郵箱或者手機(jī)號(hào),方便查詢(xún)和重復(fù)下載(系統(tǒng)自動(dòng)生成)
支付方式: 支付寶    微信支付   
驗(yàn)證碼:   換一換

 
賬號(hào):
密碼:
驗(yàn)證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會(huì)被瀏覽器默認(rèn)打開(kāi),此種情況可以點(diǎn)擊瀏覽器菜單,保存網(wǎng)頁(yè)到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請(qǐng)使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無(wú)水印,預(yù)覽文檔經(jīng)過(guò)壓縮,下載后原文更清晰。
5、試題試卷類(lèi)文檔,如果標(biāo)題沒(méi)有明確說(shuō)明有答案則都視為沒(méi)有答案,請(qǐng)知曉。

搜索引擎調(diào)查報(bào)告探測(cè)大眾心中的秘密隱私.doc

工作報(bào)告/社會(huì)實(shí)踐報(bào)告 搜索引擎調(diào)查報(bào)告探測(cè)大眾心中的秘密隱私 二月初,珍妮·杰克遜(Janet Jackson)因?yàn)樽吖馐录仙秊閅ahoo搜索的人氣冠軍,其搜索請(qǐng)求達(dá)到總數(shù)的20%,創(chuàng)下了Yahoo搜索關(guān)鍵詞的歷史最高記錄。這一數(shù)字是艷星Paris Hilton曾經(jīng)所創(chuàng)記錄的60倍,是歌星小甜甜布萊妮的80倍。 互聯(lián)網(wǎng)上的搜索引擎已經(jīng)成為反映大眾趣味和關(guān)注焦點(diǎn)的最好工具, 也許比任何其他調(diào)查統(tǒng)計(jì)都更為真實(shí)。 高頻詞與社會(huì)熱點(diǎn) 縱觀歷史,熱門(mén)詞匯反映了短期內(nèi)大眾關(guān)注的焦點(diǎn),長(zhǎng)期來(lái)看可以連綴出世事的發(fā)展脈絡(luò)。美國(guó)康奈爾大學(xué)的研究人員Jon Kleinberg曾經(jīng)做過(guò)一項(xiàng)調(diào)查,通過(guò)統(tǒng)計(jì)1790年后每年的美國(guó)國(guó)情咨文的用詞,發(fā)現(xiàn)了不同歷史時(shí)期的熱門(mén)詞匯。例如美國(guó)獨(dú)立戰(zhàn)爭(zhēng)期間出現(xiàn)頻率最高的是“民兵”和“英軍”;而在1947年到1959年這段時(shí)間內(nèi),“原子彈”則被反復(fù)地提起。 如今,搜索引擎聲稱(chēng)自己知道大眾心中的秘密。搜索引擎不只是被動(dòng)地答疑解惑;事實(shí)上,各大搜索引擎提供了包羅萬(wàn)象的統(tǒng)計(jì)數(shù)據(jù),這些結(jié)果也許十分有趣。Keinberg認(rèn)為:雖然計(jì)算機(jī)并不懂歷史,但是可以通過(guò)統(tǒng)計(jì)Blog(網(wǎng)頁(yè)訪問(wèn)記錄)、E-mail和網(wǎng)頁(yè)中的文本“學(xué)習(xí)”到相關(guān)的背景知識(shí),從而更好地理解搜索請(qǐng)求的含義。此外,這些統(tǒng)計(jì)數(shù)據(jù)還可以幫助社會(huì)學(xué)者和營(yíng)銷(xiāo)人員發(fā)現(xiàn)某些正在顯露出的大眾趨勢(shì),為他們的研究或者經(jīng)營(yíng)提供參考信息。 在國(guó)內(nèi),搜索引擎甚至借助這種反映大眾趨向的能力,向更廣的商業(yè)領(lǐng)域主動(dòng)出擊。2004年2月12日,百度搜索和光線傳媒共同發(fā)布了“2003年全球華人明星人氣榜”。熱門(mén)詞匯周杰倫、無(wú)間道、天龍八部、代言人、緋聞和黑幕等榜上有名。在此之前的1月8日,百度搜索還與胡潤(rùn)聯(lián)手發(fā)布了“2003中國(guó)大陸百富人氣榜”。 但是,搜索引擎有時(shí)也會(huì)不知所措。比如嘗試使用Google搜索哈姆雷特的名言“To be or not to be”,會(huì)發(fā)現(xiàn)Google竟然答非所問(wèn),羅列在頁(yè)面上的是GNUs Not Unix官方網(wǎng)站、Hot or Not交友網(wǎng)站就是不見(jiàn)莎士比亞的影子。這個(gè)經(jīng)典的例子引出了搜索技術(shù)的一個(gè)術(shù)語(yǔ)停止詞(stopword)。 顧名思義,計(jì)算機(jī)的一切能力都是以計(jì)算為基礎(chǔ),即使閱讀也不例外。搜索引擎瀏覽分布在各個(gè)角落的網(wǎng)頁(yè)的同時(shí),還在后臺(tái)不停地統(tǒng)計(jì)詞語(yǔ)的出現(xiàn)頻率。有一些詞語(yǔ)出現(xiàn)率極高,帶來(lái)巨大的統(tǒng)計(jì)成本,卻不包含太多的具體意義,比如漢語(yǔ)的“的、是、了”和英文單詞“the、and”之流。如果要得出包含該詞的全部結(jié)果,實(shí)在是過(guò)多了。例如遇到哈姆雷特名言中的那些高頻詞匯,經(jīng)常導(dǎo)致搜索“引擎”突然熄火,因此這些單詞得名“停止詞”。在Google“閱讀”哈姆雷特的名言時(shí),遇到了四個(gè)停止詞,出于無(wú)奈,所以它只好對(duì)頻率最低的“not”進(jìn)行搜索,得到了一些有關(guān)“not”的流行網(wǎng)站。 如果將此名言括上引號(hào),Google便會(huì)突然開(kāi)竅,順利地尋找到相關(guān)的網(wǎng)站。這一功能被稱(chēng)作短語(yǔ)搜索(phrase search)。不過(guò),比Google更智能的是Alltheweb,它已將這句名言列入搜索目錄,在結(jié)果頁(yè)面中直接提供了相關(guān)鏈接。 搜索如何實(shí)現(xiàn) “已向英特網(wǎng)搜索gerald salton。共有 5,430 項(xiàng)查詢(xún)結(jié)果,這是第110項(xiàng)。搜索用時(shí)0.06秒?!?.06秒,體現(xiàn)著以Google為代表的搜索引擎的快捷和高效。這一切,又是如何實(shí)現(xiàn)的呢? 通常情況下,一間機(jī)房只能擺放10臺(tái)服務(wù)器,但是Google的機(jī)房?jī)?nèi)可以容納80臺(tái)服務(wù)器,因?yàn)樗鼈兌际遣鸬袅藱C(jī)殼和部分零件的裸機(jī)。Larry Page和Sergey Brin他們將機(jī)器的外殼拆掉,再卸下沒(méi)用的芯片和零件使整機(jī)體積縮小,而且容易維護(hù),當(dāng)然也節(jié)省了租用機(jī)房的花銷(xiāo)。Google使用了超過(guò)一萬(wàn)臺(tái)的服務(wù)器,并將其分散到五個(gè)不同地區(qū)的機(jī)房?jī)?nèi),用以應(yīng)付浩如煙海的網(wǎng)絡(luò)信息。 為了對(duì)每一次搜索請(qǐng)求做出快速的反應(yīng),搜索引擎在前期下足了功夫。它們?cè)诤笈_(tái)不停地重復(fù)三步操作。第一步,搜索引擎會(huì)不斷的利用爬蟲(chóng)(Crawler)程序搜集互聯(lián)網(wǎng)上所有可達(dá)的網(wǎng)頁(yè),無(wú)論是公開(kāi)的還是隱藏的只要曾被訪問(wèn)過(guò),就會(huì)招致“爬蟲(chóng)”上身。這樣,定期外出的“爬蟲(chóng)”就為搜索引擎囤積起一個(gè)海量數(shù)據(jù)庫(kù)。由于“爬蟲(chóng)”外出遵循一定的周期,有時(shí)可能跟不上網(wǎng)頁(yè)更新的速度,所以Google的“網(wǎng)頁(yè)快照”會(huì)出現(xiàn)與目標(biāo)頁(yè)面不盡相同的情況。第二步,另一個(gè)程序會(huì)統(tǒng)計(jì)出緩存網(wǎng)頁(yè)(Cached Page)中各個(gè)字詞出現(xiàn)的頻率。第三步,根據(jù)詞頻概括出頁(yè)面的中心思想和段落大意,再按照不同的關(guān)鍵詞提煉出索引目錄。用戶(hù)的每一次搜索請(qǐng)求都是基于這些索引計(jì)算而得,因此響應(yīng)異常迅速。 無(wú)論Google的PageRank專(zhuān)利技術(shù),還是百度全球獨(dú)有的“超鏈分析”技術(shù),其大致想法都差不多:統(tǒng)計(jì)每個(gè)網(wǎng)頁(yè)被其它網(wǎng)頁(yè)鏈接指向的情況,次數(shù)越多則級(jí)別越高,排名也就越靠前。有的搜索引擎專(zhuān)家指出,搜索算法上UsedRank比PageRank更為準(zhǔn)確。UsedRank指的是根據(jù)用戶(hù)點(diǎn)擊搜索結(jié)果而再次做出的統(tǒng)計(jì)。有的頁(yè)面可能通過(guò)開(kāi)始的計(jì)算被排在結(jié)果的第八頁(yè),但是通過(guò)查看每條鏈接的屬性,引擎可以將用戶(hù)點(diǎn)擊多而且瀏覽成功的頁(yè)面提到前面來(lái)。Alltheweb、Yahoo和百度等搜索引擎都老老實(shí)實(shí)地統(tǒng)計(jì)了每一次點(diǎn)擊,而Google則非常直接,不做任何再次統(tǒng)計(jì)。 很多服務(wù)網(wǎng)站認(rèn)同這樣一個(gè)觀點(diǎn),用戶(hù)是懶惰的。根據(jù)點(diǎn)擊情況做出的統(tǒng)計(jì),很多用戶(hù)一般只看完搜索結(jié)果的第一頁(yè),并不瀏覽后續(xù)頁(yè)面。因此一些網(wǎng)站把更多的搜索結(jié)果顯示在第一頁(yè)上,比如Yahoo,它的“第一頁(yè)”有20項(xiàng)。而新浪則把“和盤(pán)托出”的服務(wù)形式發(fā)展到了登峰造極,在情人節(jié)當(dāng)天搜索“鮮花”,一下子就跳出了78個(gè)網(wǎng)站鏈接。但是Google、Alltheweb和百度等搜索引擎依然堅(jiān)持簡(jiǎn)潔的作風(fēng),每頁(yè)只顯示10條搜索結(jié)果。 除了搜索算法的不同,各家搜索引擎也在細(xì)化服務(wù),推出了日趨豐富的搜索功能,比如大家鐘愛(ài)的Google圖像搜索。其實(shí),Alltheweb的圖像功能也十分優(yōu)秀,它還同時(shí)支持音頻、視頻以及下載站點(diǎn)的搜索。 整合搜索引擎 那么,用戶(hù)是否不得不逐一訪問(wèn)每個(gè)搜索引擎以得到最好的搜索結(jié)果呢?也許不必。搜索整合技術(shù)可以一次性地提供盡可能多的信息。 搜索整合(Meta Search)如果譯作“后搜索”,可能聽(tīng)起來(lái)更時(shí)髦一些,不過(guò)這就無(wú)法體現(xiàn)其重新梳理搜索結(jié)果這一標(biāo)志性的功能。通常的搜索是從龐雜的網(wǎng)絡(luò)資源中按照某個(gè)線索分門(mén)別類(lèi)的提取信息,而Meta Search則是在其他搜索引擎的發(fā)現(xiàn)結(jié)果之上進(jìn)行再加工,可謂是搜索的搜索。 當(dāng)用戶(hù)向搜索整合引擎輸入關(guān)鍵詞之后,它即向若干個(gè)獨(dú)立工作的搜索引擎同時(shí)發(fā)送搜索請(qǐng)求,并從它們的網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中檢索出所需的信息。搜索整合引擎沒(méi)有建立自己的網(wǎng)頁(yè)數(shù)據(jù)庫(kù),它的一切數(shù)據(jù)都來(lái)自其他的搜索引擎;所以,整合的結(jié)果也不會(huì)比其他任何一家搜索引擎的結(jié)果更好。但是,它可以將用戶(hù)從重復(fù)性勞動(dòng)中解放出來(lái),同時(shí)提供更有條理的搜索結(jié)果這也是Meta Search研發(fā)之初的理想。 目前搜索整合引擎大致以?xún)煞N方式進(jìn)行工作。比較流行的做法是將搜索結(jié)果分析整合,刪除重復(fù)的條目,進(jìn)而針對(duì)主題實(shí)現(xiàn)聚類(lèi)操作。這類(lèi)網(wǎng)站中的佼佼者有Vivisimo、MetaCrawler和DogPile等。另一類(lèi)搜索整合網(wǎng)站面向治學(xué)嚴(yán)謹(jǐn)?shù)难芯空?,如SurfWax和Copernic Agent。它們提供關(guān)鍵詞的邏輯運(yùn)算功能,在提供大量搜索結(jié)果的同時(shí),協(xié)助用戶(hù)挖掘信息,從而做出更深入的專(zhuān)題研究。第二類(lèi)網(wǎng)站相當(dāng)專(zhuān)業(yè),一般需要繳費(fèi),在普通用戶(hù)中并不流行。 關(guān)于搜索引擎的數(shù)據(jù) 在互聯(lián)網(wǎng)的應(yīng)用排名中,搜索僅次于e-mail而位居第二; 人均每次輸入關(guān)鍵詞數(shù)量為1.3個(gè); 網(wǎng)頁(yè)上的高頻詞匯出現(xiàn)率約占總字?jǐn)?shù)的1/3,在實(shí)際搜索中幾乎不起作用; 使用搜索引擎高級(jí)功能的用戶(hù)低于0.5%,其中一部分是圖書(shū)館管理員。他們向讀者提供其無(wú)法搜索到的信息,利用的工具還是搜索引擎,不過(guò)是高級(jí)功能; 2003年,百度被7800萬(wàn)中國(guó)網(wǎng)民使用了110億次,其中有近7億次搜索與華人明星有關(guān)。

注意事項(xiàng)

本文(搜索引擎調(diào)查報(bào)告探測(cè)大眾心中的秘密隱私.doc)為本站會(huì)員(仙***)主動(dòng)上傳,裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng)(點(diǎn)擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因?yàn)榫W(wǎng)速或其他原因下載失敗請(qǐng)重新下載,重復(fù)下載不扣分。




關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶(hù)上傳的文檔直接被用戶(hù)下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!