《數(shù)據(jù)庫(kù)檢索方式》PPT課件.ppt
《《數(shù)據(jù)庫(kù)檢索方式》PPT課件.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《《數(shù)據(jù)庫(kù)檢索方式》PPT課件.ppt(45頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
第四章 計(jì)算機(jī)信息檢索的基本技術(shù)與方法 一 計(jì)算機(jī)信息檢索的基本技術(shù) 布爾邏輯 截詞檢索 加權(quán)檢索 位置算符等 在進(jìn)行計(jì)算機(jī)檢索時(shí) 有時(shí)有一些比較復(fù)雜的課題 如 GPS在建筑中的應(yīng)用 既涉及GPS 又涉及建筑 還有 應(yīng)用 這時(shí)候就要編制出滿(mǎn)足要求的計(jì)算機(jī)檢索式 它是機(jī)檢的基礎(chǔ) 1布爾邏輯檢索 BooleanLogicRetrieval 邏輯檢索的基礎(chǔ)是邏輯運(yùn)算 邏輯運(yùn)算中最常用的是布爾邏輯運(yùn)算符 BooleanLogicOperators 即與 或 非三種運(yùn)算符號(hào) 用它們可以表示概念之間的邏輯關(guān)系 2位置算符 ProximityOperators 位置算符是表示檢索詞之間位置關(guān)系的一種運(yùn)算符 由于英文對(duì)一句話(huà)有多種表達(dá)方法 寫(xiě)法可能不同 如 GPS在鐵路橋研究中的應(yīng)用 這個(gè)課題 用英文表達(dá)可能是 UsingofGPSinRailwayBridge 也可能是 UsingofGPSinBridgeofRailway 因而可能編制出這樣的檢索式 GPSAND Railway 2N Bridge 我們可以通過(guò)位置檢索提高檢索的準(zhǔn)確率 1 W 算符與 nW 算符W是word與with的縮寫(xiě) 特點(diǎn) W詞序不變 中間不可插詞 但兩詞間可有一個(gè)標(biāo)點(diǎn) 連字符或空格 nW詞序不變 中間可插入N個(gè)詞 如 potential w energy可能檢出potentialenergyandfunction又如 gone 2w wind可能檢出gonewiththewind 2 N 與 nN 算符N是near的縮寫(xiě)特點(diǎn) N詞序不限 中間不可插詞 但兩詞間可有一個(gè)標(biāo)點(diǎn) 連字符或空格 nN詞序不限 中間可插入N個(gè)詞 如 econom 2N recovery可能檢出economicrecovery recoveryoftheeconomy 3 同字段檢索A F B F是field的縮寫(xiě) 特點(diǎn) A B兩詞必須出現(xiàn)在同一字段中 詞序與詞量不限 如 environment F impact DE 表示兩個(gè)詞必須同時(shí)出現(xiàn)在敘詞字段內(nèi) 4 同句檢索A S B S是sentence的縮寫(xiě) 特點(diǎn) A B出現(xiàn)在同一自然句中 子字段 其詞序與詞量不受限制 如 electric S plant可檢出electricpowerplants如 EI中的NEAR PQDD中的W n 兩詞間距小于n個(gè)單詞 且前后位置任意 Pre n 兩詞間距小于n個(gè)單詞 且前后位置一定 3截詞算符 Truncatingoperators 原因 在英語(yǔ)詞匯中 一個(gè)詞可能有多種形態(tài) 如詞的單 復(fù)數(shù)形式的不同 英美拼寫(xiě)方法不同 詞性不同等 如果檢索時(shí)將這類(lèi)詞全部輸入進(jìn)去 會(huì)增加檢索時(shí)間和費(fèi)用 采用截詞法可解決這一問(wèn)題 所謂截詞檢索 是指在檢索標(biāo)識(shí)中保留相同的部分 用相應(yīng)的截詞符代替可變化部分 檢索中計(jì)算機(jī)會(huì)將所有含有相同部分標(biāo)識(shí)的記錄全部檢索出來(lái) 常用 符號(hào)表示 1 有限截詞 即在檢索詞后后截幾個(gè)有限的字母 如名詞的單復(fù)數(shù) 動(dòng)詞的詞尾變化等 如輸入computer 表示有0 1個(gè)字母變化 可檢出computer和computers 輸入stud 表示截?cái)嗵幱? 3個(gè)字母變化 可檢出study studies studied studing 2 無(wú)限截?cái)?在檢索詞后加一個(gè) 表示該詞后可加任意個(gè)字符 使用無(wú)限截詞 所截詞根不能太短 否則會(huì)輸出許多無(wú)關(guān)文獻(xiàn) 造成誤檢 如 computer 可檢出computers computering computered computerization 3 中間截?cái)?在檢索詞中間加一個(gè)或幾個(gè) 號(hào) 主要解決一些英美拼寫(xiě)不同 單復(fù)數(shù)形式的不同的詞的輸入 可簡(jiǎn)化輸入 如 輸入wom n可檢出woman women 各種算符在數(shù)據(jù)庫(kù)中的實(shí)際應(yīng)用位置算符 1 EINEARBridgeNEARPiling 表示這兩個(gè)詞要彼此接近 前后順序不限 W nPig W 2pine 表示兩個(gè)詞的距離不能超過(guò)n個(gè)單詞AdjChanneladjtunnel表示含有這兩個(gè)詞 兩個(gè)詞相鄰 位置一定2 ISIProceedings用同句算符 SAME 如Channelsametunnel 表示channel和tunnel出現(xiàn)在同一句子中才符合檢索條件 3 CSA within X 表示兩詞之間不得多于x個(gè)詞 前后位置任意如 womenwithin8movement 順序不定 4 Elsevier ADJ表示兩詞相鄰 前后順序固定 與 詞檢索 的結(jié)果相同 NEAR或NEAR N 表示兩詞相鄰 中間可插入少于或等于n個(gè)單詞 前后順序可以發(fā)生變化 如果不使用 N 系統(tǒng)默認(rèn)值為10 5 PQDDW n 兩詞間距小于n個(gè)單詞 且前后位置任意 Pre n 兩詞間距小于n個(gè)單詞 且前后位置一定 6 ProQuestW n 表示連接兩個(gè)詞之間可以插入n個(gè)詞 前后位置可顛倒 如 Educationw 5intenet表示education和internet之間可以插入5個(gè)詞 并且前后位置可以顛倒 Pre n 表示前后兩詞之間最多插入n個(gè)詞 前后位置一定 如 U Spre neconomicpolicy可檢出U Saideconomicpolicy orU Swartimeeconomicpolicy 截詞符或通配符 如 CSA ISIProceedings ProQuest CA用通配符 和截詞符 輸入 patent 可以檢索到patent patents patented等 無(wú)限截?cái)?輸入 wom n 可以檢索到woman和women 輸入 fib 可檢索到fiber和fibre 有限截?cái)?而EI用 和 詞根算符 如 Optic 檢索結(jié)果中包括以optic開(kāi)頭后面加任意多個(gè)字母的詞例如optic optics optical等 manager 強(qiáng)調(diào)語(yǔ)義 檢索出與該詞根具有同樣語(yǔ)意的詞如 manage將檢出managers managerial和management等詞 通配符不能用在檢索詞的最前面 4括號(hào)檢索 Parentheses 用于改變運(yùn)算的先后次序 括號(hào)內(nèi)的內(nèi)容做優(yōu)先運(yùn)算 用 可以表示優(yōu)先級(jí) 如比較 GPSORGIS ANDChinaGPSORGISANDChinaEI中的表示方法 RelevanceAND AalbersbergwithinAU OR coolwithinAU 5 字段限制檢索組成數(shù)據(jù)庫(kù)的最小單位是記錄 一條完整記錄中的每一個(gè)著錄事項(xiàng)為字段 獻(xiàn)書(shū)目型數(shù)據(jù)庫(kù)的記錄基本包括下列字段 1 存取號(hào)字段 AN AccessNumber 這是計(jì)算機(jī)檢索系統(tǒng)為每個(gè)數(shù)據(jù)庫(kù)的每篇記錄規(guī)定的能被計(jì)算機(jī)識(shí)別的特定號(hào)碼 在同一數(shù)據(jù)庫(kù)中 每篇文獻(xiàn)記錄只有一個(gè)存取號(hào) 2 篇 題 名字段 TitleField TI 3 文摘字段 AbstractField AB 4 敘詞字段或受控詞字段 DestriptorField DE 或ControlledtermField SU 這一字段是標(biāo)引人員給文獻(xiàn)標(biāo)引的反映其主題概念的詞 這些詞來(lái)自規(guī)范化的詞表 也稱(chēng)主題詞 5 自由詞字段或非受控詞字段 IdentifiedField ID KeywordField KY UncontrolledtermField 這一字段也是標(biāo)引人員給文獻(xiàn)標(biāo)引反映其主題概念的詞 但這些詞不是規(guī)范化詞表中的詞 6 著者機(jī)構(gòu)子段 corporatesource CS或AF 7 刊名字段 journal JN或ST 8 出版年子段 publication year PY 9 文獻(xiàn)類(lèi)型子段 ducumenttype DT或TY 10 語(yǔ)種子段 language LA 11 分類(lèi)號(hào)子段 classification CC 注意事項(xiàng) 作者檢索的縮寫(xiě)形式 在SCI中 姓 全稱(chēng) 空格名 首字母并且連寫(xiě) 如 LIDR GONGJY在EI中 姓名 全稱(chēng) 中文 姓 全稱(chēng) 名 縮寫(xiě) 機(jī)構(gòu)檢索中SCI中有多個(gè)作者單位 在同一字段中EI只收入第一作者的單位多字段檢索時(shí)要選所有字段 allfield 基本索引子段和輔助索引子段一篇記錄中主要用來(lái)表達(dá)文獻(xiàn)內(nèi)容的子段稱(chēng)為基本索引子段 basicindexfields 如篇名子段 文摘子段 敘詞子段 自由詞子段 而表達(dá)文獻(xiàn)外部特征的子段稱(chēng)為輔助索引子段 additionalindexfields 包括著者子段 著者機(jī)構(gòu)子段 文獻(xiàn)類(lèi)型子段 語(yǔ)種子段等 6短語(yǔ)檢索 phrasesearch 即精確檢索短語(yǔ)用 表示 檢索出與 內(nèi)形式完全相同的的短語(yǔ) 以提高檢索的精確度和準(zhǔn)確度7自然語(yǔ)言檢索 naturallanguagesearch 直接采用自然語(yǔ)言中的字 詞 句進(jìn)行提問(wèn)式檢索 同一般口語(yǔ)一樣 這種基于自然語(yǔ)言的檢索方式又被稱(chēng)為 智能檢索 適合不太熟悉網(wǎng)絡(luò)信息技術(shù)的人員使用 支持自然語(yǔ)言檢索的有中文的悠游 英文的AltaVista Excite Infoseek HotBot AskJeeves等 8多種語(yǔ)言檢索multilingualsearch 提供多種語(yǔ)言的檢索環(huán)境供用戶(hù)選擇 系統(tǒng)按用戶(hù)選定的語(yǔ)種進(jìn)行檢索并反饋結(jié)果 支持多語(yǔ)種檢索的如 中文天網(wǎng) 英文AltaVista Google等 9模糊檢索 fuzzysearch 又稱(chēng)概念檢索 當(dāng)我們輸入一個(gè)檢索詞時(shí) 搜索引擎不僅反饋包括了該關(guān)鍵詞的網(wǎng)址 同時(shí)也發(fā)來(lái)與關(guān)鍵詞意義相近的內(nèi)容 比如 我們查找 查詢(xún) 一詞時(shí) 模糊檢索會(huì)反饋來(lái)包含了 查詢(xún) 查找 查一查 尋找 搜索 等內(nèi)容的網(wǎng)址 反饋網(wǎng)址的排列 一般是完全符合關(guān)鍵詞的在最前邊 其次是相近的 現(xiàn)在大多數(shù)搜索引擎都有這種功能 只是模糊的程度不同 10字母大小寫(xiě)檢索如果用戶(hù)的檢索式用小寫(xiě)字母表示 搜索工具既匹配大寫(xiě)又匹配小寫(xiě) 如 china 瓷器 china 中國(guó) 如果用大寫(xiě)字母表示 搜索工具認(rèn)為用戶(hù)指定了只要大寫(xiě) 就只會(huì)查找那些與用戶(hù)鍵入的輸入形式完全相同的結(jié)果 如 china 只檢索出china AltaVista等搜索引擎支持區(qū)分大小寫(xiě)的檢索 注意 自然語(yǔ)言檢索 模糊檢索 多種語(yǔ)言檢索和區(qū)分大小寫(xiě)的檢索是網(wǎng)絡(luò)檢索所特有的 在實(shí)際檢索中 往往將多種檢索技術(shù)混合使用 如 查找標(biāo)題中含有 網(wǎng)絡(luò)營(yíng)銷(xiāo) 的資料 它的計(jì)算機(jī)檢索提問(wèn)式 表達(dá)式 可以是 TI WebORWWW ANDmarket 又如 ISTP中的綜合表示方法TS nanotub SAMEcarbon NOTAU SmalleyRE 二 數(shù)據(jù)庫(kù)的檢索方法 檢索界面 瀏覽方式 Browse 檢索方式 Search 瀏覽方式 Browse 一般包括作者 作者單位 出版物名稱(chēng)及出版社索引或者按學(xué)科劃分的分類(lèi)索引如 EIElsevierCSAPROQUESTIEEE IEE重慶維普以及中國(guó)期刊網(wǎng)等等都提供了各種不同的瀏覽方式 檢索方式 Search 基本檢索 basic quick simple easy 屬于一般性的檢索 它是根據(jù)自己的檢索需要 輸入字 詞或簡(jiǎn)單的檢索式 不能使用位置檢索 來(lái)完成檢索的 是一種初級(jí)性的檢索方式 高級(jí)檢索 advance expend full expert 屬于專(zhuān)家性的檢索 可以根據(jù)自己的檢索需要 構(gòu)件比較復(fù)雜的檢索式 可以使用邏輯 括號(hào) 截詞以及位置算符 來(lái)完成高層次 高質(zhì)量的檢索 檢索結(jié)果快速 準(zhǔn)確 高級(jí)檢索分為 菜單式檢索和命令式檢索 三 檢索效果的評(píng)價(jià) 查全率與查準(zhǔn)率是檢索質(zhì)量的兩個(gè)重要的評(píng)價(jià)指標(biāo) 查全率 recallratio 檢出的相關(guān)文獻(xiàn)量 檢索系統(tǒng)中相關(guān)文獻(xiàn)總量即檢出文獻(xiàn)中合乎需要的文獻(xiàn)數(shù)量占數(shù)據(jù)庫(kù)中存在的合乎該需要的所有文獻(xiàn)的比例 查全率高說(shuō)明有用的東西都被你檢中了 但對(duì)于數(shù)量巨大的數(shù)據(jù)庫(kù)而言 要達(dá)到100 的查全率是不可能的 在網(wǎng)絡(luò)條件下尤其如此 查準(zhǔn)率 precisionratio 檢出的相關(guān)文獻(xiàn)量 檢出的文獻(xiàn)總量 指檢出文獻(xiàn)中合乎需要的文獻(xiàn)數(shù)量占檢出文獻(xiàn)全部數(shù)量的比例 準(zhǔn)確率高說(shuō)明你檢出的東西都是有用的東西 一般地說(shuō) 很少能達(dá)到100 的查準(zhǔn)率 在查全與查準(zhǔn)兩個(gè)方面一般難以?xún)扇?為了獲得很多有用的東西 達(dá)到高的查全率 需要較少的限制檢索條件 但這樣檢出的無(wú)用的東西就會(huì)很多 查準(zhǔn)率不高 反之亦然 四 檢索策略的實(shí)施技巧檢索策略 為實(shí)現(xiàn)檢索目標(biāo)而實(shí)施的方法 檢索策略制定的原則 第一快 即從檢索請(qǐng)求的提出到檢索結(jié)果的提交要快速 第二準(zhǔn) 即檢索結(jié)果要準(zhǔn)確 避免檢索出過(guò)多無(wú)關(guān)內(nèi)容 第三全 檢索結(jié)果全面 滿(mǎn)足用戶(hù)的需求 第四效益原則 即以最低的費(fèi)用獲取所佳的信息 歸納起來(lái)包括 1 認(rèn)真進(jìn)行課題分析 確定正確的主題詞及學(xué)科分類(lèi)情況 2 正確選擇各種算符 如邏輯算符 位置算符 截詞符 3 編制合理的計(jì)算機(jī)檢索式 4 隨時(shí)調(diào)整檢索策略 減少漏檢和誤檢 提高查全率和查準(zhǔn)率 首先 擴(kuò)大命中文獻(xiàn)數(shù)量以提高查全率 選用文摘字段檢索 使用上位詞或近義詞 同義詞用邏輯或 OR 連接 利用截詞檢索 其次 縮小檢索范圍以提高查準(zhǔn)率 檢索詞限定在篇名和敘詞字段 使用下位詞 利用邏輯非去掉無(wú)關(guān)信息 利用邏輯積限定相關(guān)主題 五 計(jì)算機(jī)信息檢索的具體步驟 方法 1分析檢索課題 明確檢索要求 這是檢索的出發(fā)點(diǎn) 依據(jù) 分析檢索課題 分析檢索課題的中心內(nèi)容和所屬學(xué)科范圍 以便準(zhǔn)確選擇反映文獻(xiàn)內(nèi)容特征的主題詞 關(guān)鍵詞 確定出所屬學(xué)科的學(xué)科性質(zhì)明確檢索需求 即弄清檢索目的及要解決的問(wèn)題 用戶(hù)的檢索目的和要求是多種多樣的 是撰寫(xiě)學(xué)位論文 還是申報(bào)科研課題 是技術(shù)革新還是成果鑒定 目的不同 檢索的策略和范圍也不同 檢索需求主要反映在用戶(hù)對(duì)命中文獻(xiàn)的類(lèi)型 語(yǔ)種及所需文獻(xiàn)的年代等不同 2選擇檢索系統(tǒng)和數(shù)據(jù)庫(kù)在分析檢索課題 明確檢索要求的基礎(chǔ)上 必須綜合考慮檢索系統(tǒng)的特點(diǎn) 收錄的學(xué)科范圍 各數(shù)據(jù)庫(kù)的專(zhuān)業(yè)范圍 主題內(nèi)容 數(shù)據(jù)來(lái)源與文獻(xiàn)類(lèi)型 技術(shù)含量 數(shù)據(jù)的存貯年限 更新頻率 檢索費(fèi)用以及使用方法 3確定檢索項(xiàng)與檢索途徑檢索項(xiàng)主要指文獻(xiàn)記錄中的文獻(xiàn)特征標(biāo)識(shí) 反映文獻(xiàn)內(nèi)容特征的檢索詞如 標(biāo)題詞 敘詞 和關(guān)鍵詞 反映文獻(xiàn)外表特征的如 作者 語(yǔ)種 文獻(xiàn)類(lèi)型等 檢索途徑指主題檢索或分類(lèi)檢索 4編制計(jì)算機(jī)檢索式 十 計(jì)算機(jī)檢索邏輯表達(dá)式舉例 例1 GPS在建筑事業(yè)中的應(yīng)用主題詞 A 全球定位系統(tǒng) B 建筑測(cè)量 組配詞 C 應(yīng)用表達(dá)式 AANDBANDC例2 加拿大遙感活動(dòng)展望主題詞 A 遙感 B 測(cè)繪科技活動(dòng) 組配詞 C 加拿大 D 展望表達(dá)式 AORB ANDCANDD例3 Peter教授在測(cè)量平差理論方面的研究主題詞 A 測(cè)量平差 組配詞 B 理論 C 研究 D Peter表達(dá)式 AANDBANDCANDD例4 Batson關(guān)于土地規(guī)劃與地籍測(cè)量方面的論述主題詞 A 土地規(guī)劃 B 地籍測(cè)量 組配詞 C 評(píng)論 D Batson 表達(dá)式 AORB ANDCANDD 例5 專(zhuān)題測(cè)圖用于土地利用制圖和植被制圖主題詞 A 專(zhuān)題測(cè)量?jī)x B 土地利用制圖 C 植被制圖 D 測(cè)繪儀器 E 地圖制圖 F 專(zhuān)題制圖表達(dá)式 AORD AND BORCOREORF 例6 新型的自動(dòng)化數(shù)字制圖軟件的開(kāi)發(fā)與利用主題詞 A 機(jī)助制圖系統(tǒng) B 系統(tǒng)軟件 C 軟件技術(shù) D 自動(dòng)化測(cè)圖組配詞 E 開(kāi)發(fā) F 應(yīng)用表達(dá)式 AORD AND BORC AND EORF 例7 利用人造衛(wèi)星數(shù)據(jù)及地理信息分析森林用途主題詞 A 衛(wèi)星影象 B 衛(wèi)星遙感 C 地理信息系統(tǒng) D 森林遙感 E 森林判讀 F 森林調(diào)查 G 森林監(jiān)測(cè) H 數(shù)據(jù)處理表達(dá)式 AORB ANDCAND DOREORFORG ANDH 5選擇檢索方法 常用法 追溯法和循環(huán)法 常用法 順查 倒查和抽查追溯法 參考文獻(xiàn)法和科學(xué)引文法被引用作者查如 ARIKAWAK80NATURE268700KATAGIRINJELECMICR393639087JCOMPPHYSLA1611161STOWESCELLTISRE2624839087NATURWISSENSCHAFTEN74297SHIMOHIGMCELLTISRE2634691循環(huán)法 常用法和追溯法的結(jié)合 6查找文獻(xiàn)線索 索取原始文獻(xiàn)在檢索過(guò)程中 由于可以隨時(shí)修改檢索策略 因此一方面要以制定的檢索式為基礎(chǔ) 要服從檢索式 但不要過(guò)多地受構(gòu)造檢索式的限制 要把條件適當(dāng)放寬一些 逐步縮小檢索范圍 多次試驗(yàn) 以找到最佳檢索式 結(jié)束- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開(kāi)word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù)庫(kù)檢索方式 數(shù)據(jù)庫(kù) 檢索 方式 PPT 課件
鏈接地址:http://ioszen.com/p-8018821.html