《數(shù)據(jù)庫檢索方式》PPT課件.ppt
《《數(shù)據(jù)庫檢索方式》PPT課件.ppt》由會員分享,可在線閱讀,更多相關(guān)《《數(shù)據(jù)庫檢索方式》PPT課件.ppt(45頁珍藏版)》請在裝配圖網(wǎng)上搜索。
第四章 計算機信息檢索的基本技術(shù)與方法 一 計算機信息檢索的基本技術(shù) 布爾邏輯 截詞檢索 加權(quán)檢索 位置算符等 在進行計算機檢索時 有時有一些比較復雜的課題 如 GPS在建筑中的應用 既涉及GPS 又涉及建筑 還有 應用 這時候就要編制出滿足要求的計算機檢索式 它是機檢的基礎 1布爾邏輯檢索 BooleanLogicRetrieval 邏輯檢索的基礎是邏輯運算 邏輯運算中最常用的是布爾邏輯運算符 BooleanLogicOperators 即與 或 非三種運算符號 用它們可以表示概念之間的邏輯關(guān)系 2位置算符 ProximityOperators 位置算符是表示檢索詞之間位置關(guān)系的一種運算符 由于英文對一句話有多種表達方法 寫法可能不同 如 GPS在鐵路橋研究中的應用 這個課題 用英文表達可能是 UsingofGPSinRailwayBridge 也可能是 UsingofGPSinBridgeofRailway 因而可能編制出這樣的檢索式 GPSAND Railway 2N Bridge 我們可以通過位置檢索提高檢索的準確率 1 W 算符與 nW 算符W是word與with的縮寫 特點 W詞序不變 中間不可插詞 但兩詞間可有一個標點 連字符或空格 nW詞序不變 中間可插入N個詞 如 potential w energy可能檢出potentialenergyandfunction又如 gone 2w wind可能檢出gonewiththewind 2 N 與 nN 算符N是near的縮寫特點 N詞序不限 中間不可插詞 但兩詞間可有一個標點 連字符或空格 nN詞序不限 中間可插入N個詞 如 econom 2N recovery可能檢出economicrecovery recoveryoftheeconomy 3 同字段檢索A F B F是field的縮寫 特點 A B兩詞必須出現(xiàn)在同一字段中 詞序與詞量不限 如 environment F impact DE 表示兩個詞必須同時出現(xiàn)在敘詞字段內(nèi) 4 同句檢索A S B S是sentence的縮寫 特點 A B出現(xiàn)在同一自然句中 子字段 其詞序與詞量不受限制 如 electric S plant可檢出electricpowerplants如 EI中的NEAR PQDD中的W n 兩詞間距小于n個單詞 且前后位置任意 Pre n 兩詞間距小于n個單詞 且前后位置一定 3截詞算符 Truncatingoperators 原因 在英語詞匯中 一個詞可能有多種形態(tài) 如詞的單 復數(shù)形式的不同 英美拼寫方法不同 詞性不同等 如果檢索時將這類詞全部輸入進去 會增加檢索時間和費用 采用截詞法可解決這一問題 所謂截詞檢索 是指在檢索標識中保留相同的部分 用相應的截詞符代替可變化部分 檢索中計算機會將所有含有相同部分標識的記錄全部檢索出來 常用 符號表示 1 有限截詞 即在檢索詞后后截幾個有限的字母 如名詞的單復數(shù) 動詞的詞尾變化等 如輸入computer 表示有0 1個字母變化 可檢出computer和computers 輸入stud 表示截斷處有0 3個字母變化 可檢出study studies studied studing 2 無限截斷 在檢索詞后加一個 表示該詞后可加任意個字符 使用無限截詞 所截詞根不能太短 否則會輸出許多無關(guān)文獻 造成誤檢 如 computer 可檢出computers computering computered computerization 3 中間截斷 在檢索詞中間加一個或幾個 號 主要解決一些英美拼寫不同 單復數(shù)形式的不同的詞的輸入 可簡化輸入 如 輸入wom n可檢出woman women 各種算符在數(shù)據(jù)庫中的實際應用位置算符 1 EINEARBridgeNEARPiling 表示這兩個詞要彼此接近 前后順序不限 W nPig W 2pine 表示兩個詞的距離不能超過n個單詞AdjChanneladjtunnel表示含有這兩個詞 兩個詞相鄰 位置一定2 ISIProceedings用同句算符 SAME 如Channelsametunnel 表示channel和tunnel出現(xiàn)在同一句子中才符合檢索條件 3 CSA within X 表示兩詞之間不得多于x個詞 前后位置任意如 womenwithin8movement 順序不定 4 Elsevier ADJ表示兩詞相鄰 前后順序固定 與 詞檢索 的結(jié)果相同 NEAR或NEAR N 表示兩詞相鄰 中間可插入少于或等于n個單詞 前后順序可以發(fā)生變化 如果不使用 N 系統(tǒng)默認值為10 5 PQDDW n 兩詞間距小于n個單詞 且前后位置任意 Pre n 兩詞間距小于n個單詞 且前后位置一定 6 ProQuestW n 表示連接兩個詞之間可以插入n個詞 前后位置可顛倒 如 Educationw 5intenet表示education和internet之間可以插入5個詞 并且前后位置可以顛倒 Pre n 表示前后兩詞之間最多插入n個詞 前后位置一定 如 U Spre neconomicpolicy可檢出U Saideconomicpolicy orU Swartimeeconomicpolicy 截詞符或通配符 如 CSA ISIProceedings ProQuest CA用通配符 和截詞符 輸入 patent 可以檢索到patent patents patented等 無限截斷 輸入 wom n 可以檢索到woman和women 輸入 fib 可檢索到fiber和fibre 有限截斷 而EI用 和 詞根算符 如 Optic 檢索結(jié)果中包括以optic開頭后面加任意多個字母的詞例如optic optics optical等 manager 強調(diào)語義 檢索出與該詞根具有同樣語意的詞如 manage將檢出managers managerial和management等詞 通配符不能用在檢索詞的最前面 4括號檢索 Parentheses 用于改變運算的先后次序 括號內(nèi)的內(nèi)容做優(yōu)先運算 用 可以表示優(yōu)先級 如比較 GPSORGIS ANDChinaGPSORGISANDChinaEI中的表示方法 RelevanceAND AalbersbergwithinAU OR coolwithinAU 5 字段限制檢索組成數(shù)據(jù)庫的最小單位是記錄 一條完整記錄中的每一個著錄事項為字段 獻書目型數(shù)據(jù)庫的記錄基本包括下列字段 1 存取號字段 AN AccessNumber 這是計算機檢索系統(tǒng)為每個數(shù)據(jù)庫的每篇記錄規(guī)定的能被計算機識別的特定號碼 在同一數(shù)據(jù)庫中 每篇文獻記錄只有一個存取號 2 篇 題 名字段 TitleField TI 3 文摘字段 AbstractField AB 4 敘詞字段或受控詞字段 DestriptorField DE 或ControlledtermField SU 這一字段是標引人員給文獻標引的反映其主題概念的詞 這些詞來自規(guī)范化的詞表 也稱主題詞 5 自由詞字段或非受控詞字段 IdentifiedField ID KeywordField KY UncontrolledtermField 這一字段也是標引人員給文獻標引反映其主題概念的詞 但這些詞不是規(guī)范化詞表中的詞 6 著者機構(gòu)子段 corporatesource CS或AF 7 刊名字段 journal JN或ST 8 出版年子段 publication year PY 9 文獻類型子段 ducumenttype DT或TY 10 語種子段 language LA 11 分類號子段 classification CC 注意事項 作者檢索的縮寫形式 在SCI中 姓 全稱 空格名 首字母并且連寫 如 LIDR GONGJY在EI中 姓名 全稱 中文 姓 全稱 名 縮寫 機構(gòu)檢索中SCI中有多個作者單位 在同一字段中EI只收入第一作者的單位多字段檢索時要選所有字段 allfield 基本索引子段和輔助索引子段一篇記錄中主要用來表達文獻內(nèi)容的子段稱為基本索引子段 basicindexfields 如篇名子段 文摘子段 敘詞子段 自由詞子段 而表達文獻外部特征的子段稱為輔助索引子段 additionalindexfields 包括著者子段 著者機構(gòu)子段 文獻類型子段 語種子段等 6短語檢索 phrasesearch 即精確檢索短語用 表示 檢索出與 內(nèi)形式完全相同的的短語 以提高檢索的精確度和準確度7自然語言檢索 naturallanguagesearch 直接采用自然語言中的字 詞 句進行提問式檢索 同一般口語一樣 這種基于自然語言的檢索方式又被稱為 智能檢索 適合不太熟悉網(wǎng)絡信息技術(shù)的人員使用 支持自然語言檢索的有中文的悠游 英文的AltaVista Excite Infoseek HotBot AskJeeves等 8多種語言檢索multilingualsearch 提供多種語言的檢索環(huán)境供用戶選擇 系統(tǒng)按用戶選定的語種進行檢索并反饋結(jié)果 支持多語種檢索的如 中文天網(wǎng) 英文AltaVista Google等 9模糊檢索 fuzzysearch 又稱概念檢索 當我們輸入一個檢索詞時 搜索引擎不僅反饋包括了該關(guān)鍵詞的網(wǎng)址 同時也發(fā)來與關(guān)鍵詞意義相近的內(nèi)容 比如 我們查找 查詢 一詞時 模糊檢索會反饋來包含了 查詢 查找 查一查 尋找 搜索 等內(nèi)容的網(wǎng)址 反饋網(wǎng)址的排列 一般是完全符合關(guān)鍵詞的在最前邊 其次是相近的 現(xiàn)在大多數(shù)搜索引擎都有這種功能 只是模糊的程度不同 10字母大小寫檢索如果用戶的檢索式用小寫字母表示 搜索工具既匹配大寫又匹配小寫 如 china 瓷器 china 中國 如果用大寫字母表示 搜索工具認為用戶指定了只要大寫 就只會查找那些與用戶鍵入的輸入形式完全相同的結(jié)果 如 china 只檢索出china AltaVista等搜索引擎支持區(qū)分大小寫的檢索 注意 自然語言檢索 模糊檢索 多種語言檢索和區(qū)分大小寫的檢索是網(wǎng)絡檢索所特有的 在實際檢索中 往往將多種檢索技術(shù)混合使用 如 查找標題中含有 網(wǎng)絡營銷 的資料 它的計算機檢索提問式 表達式 可以是 TI WebORWWW ANDmarket 又如 ISTP中的綜合表示方法TS nanotub SAMEcarbon NOTAU SmalleyRE 二 數(shù)據(jù)庫的檢索方法 檢索界面 瀏覽方式 Browse 檢索方式 Search 瀏覽方式 Browse 一般包括作者 作者單位 出版物名稱及出版社索引或者按學科劃分的分類索引如 EIElsevierCSAPROQUESTIEEE IEE重慶維普以及中國期刊網(wǎng)等等都提供了各種不同的瀏覽方式 檢索方式 Search 基本檢索 basic quick simple easy 屬于一般性的檢索 它是根據(jù)自己的檢索需要 輸入字 詞或簡單的檢索式 不能使用位置檢索 來完成檢索的 是一種初級性的檢索方式 高級檢索 advance expend full expert 屬于專家性的檢索 可以根據(jù)自己的檢索需要 構(gòu)件比較復雜的檢索式 可以使用邏輯 括號 截詞以及位置算符 來完成高層次 高質(zhì)量的檢索 檢索結(jié)果快速 準確 高級檢索分為 菜單式檢索和命令式檢索 三 檢索效果的評價 查全率與查準率是檢索質(zhì)量的兩個重要的評價指標 查全率 recallratio 檢出的相關(guān)文獻量 檢索系統(tǒng)中相關(guān)文獻總量即檢出文獻中合乎需要的文獻數(shù)量占數(shù)據(jù)庫中存在的合乎該需要的所有文獻的比例 查全率高說明有用的東西都被你檢中了 但對于數(shù)量巨大的數(shù)據(jù)庫而言 要達到100 的查全率是不可能的 在網(wǎng)絡條件下尤其如此 查準率 precisionratio 檢出的相關(guān)文獻量 檢出的文獻總量 指檢出文獻中合乎需要的文獻數(shù)量占檢出文獻全部數(shù)量的比例 準確率高說明你檢出的東西都是有用的東西 一般地說 很少能達到100 的查準率 在查全與查準兩個方面一般難以兩全 為了獲得很多有用的東西 達到高的查全率 需要較少的限制檢索條件 但這樣檢出的無用的東西就會很多 查準率不高 反之亦然 四 檢索策略的實施技巧檢索策略 為實現(xiàn)檢索目標而實施的方法 檢索策略制定的原則 第一快 即從檢索請求的提出到檢索結(jié)果的提交要快速 第二準 即檢索結(jié)果要準確 避免檢索出過多無關(guān)內(nèi)容 第三全 檢索結(jié)果全面 滿足用戶的需求 第四效益原則 即以最低的費用獲取所佳的信息 歸納起來包括 1 認真進行課題分析 確定正確的主題詞及學科分類情況 2 正確選擇各種算符 如邏輯算符 位置算符 截詞符 3 編制合理的計算機檢索式 4 隨時調(diào)整檢索策略 減少漏檢和誤檢 提高查全率和查準率 首先 擴大命中文獻數(shù)量以提高查全率 選用文摘字段檢索 使用上位詞或近義詞 同義詞用邏輯或 OR 連接 利用截詞檢索 其次 縮小檢索范圍以提高查準率 檢索詞限定在篇名和敘詞字段 使用下位詞 利用邏輯非去掉無關(guān)信息 利用邏輯積限定相關(guān)主題 五 計算機信息檢索的具體步驟 方法 1分析檢索課題 明確檢索要求 這是檢索的出發(fā)點 依據(jù) 分析檢索課題 分析檢索課題的中心內(nèi)容和所屬學科范圍 以便準確選擇反映文獻內(nèi)容特征的主題詞 關(guān)鍵詞 確定出所屬學科的學科性質(zhì)明確檢索需求 即弄清檢索目的及要解決的問題 用戶的檢索目的和要求是多種多樣的 是撰寫學位論文 還是申報科研課題 是技術(shù)革新還是成果鑒定 目的不同 檢索的策略和范圍也不同 檢索需求主要反映在用戶對命中文獻的類型 語種及所需文獻的年代等不同 2選擇檢索系統(tǒng)和數(shù)據(jù)庫在分析檢索課題 明確檢索要求的基礎上 必須綜合考慮檢索系統(tǒng)的特點 收錄的學科范圍 各數(shù)據(jù)庫的專業(yè)范圍 主題內(nèi)容 數(shù)據(jù)來源與文獻類型 技術(shù)含量 數(shù)據(jù)的存貯年限 更新頻率 檢索費用以及使用方法 3確定檢索項與檢索途徑檢索項主要指文獻記錄中的文獻特征標識 反映文獻內(nèi)容特征的檢索詞如 標題詞 敘詞 和關(guān)鍵詞 反映文獻外表特征的如 作者 語種 文獻類型等 檢索途徑指主題檢索或分類檢索 4編制計算機檢索式 十 計算機檢索邏輯表達式舉例 例1 GPS在建筑事業(yè)中的應用主題詞 A 全球定位系統(tǒng) B 建筑測量 組配詞 C 應用表達式 AANDBANDC例2 加拿大遙感活動展望主題詞 A 遙感 B 測繪科技活動 組配詞 C 加拿大 D 展望表達式 AORB ANDCANDD例3 Peter教授在測量平差理論方面的研究主題詞 A 測量平差 組配詞 B 理論 C 研究 D Peter表達式 AANDBANDCANDD例4 Batson關(guān)于土地規(guī)劃與地籍測量方面的論述主題詞 A 土地規(guī)劃 B 地籍測量 組配詞 C 評論 D Batson 表達式 AORB ANDCANDD 例5 專題測圖用于土地利用制圖和植被制圖主題詞 A 專題測量儀 B 土地利用制圖 C 植被制圖 D 測繪儀器 E 地圖制圖 F 專題制圖表達式 AORD AND BORCOREORF 例6 新型的自動化數(shù)字制圖軟件的開發(fā)與利用主題詞 A 機助制圖系統(tǒng) B 系統(tǒng)軟件 C 軟件技術(shù) D 自動化測圖組配詞 E 開發(fā) F 應用表達式 AORD AND BORC AND EORF 例7 利用人造衛(wèi)星數(shù)據(jù)及地理信息分析森林用途主題詞 A 衛(wèi)星影象 B 衛(wèi)星遙感 C 地理信息系統(tǒng) D 森林遙感 E 森林判讀 F 森林調(diào)查 G 森林監(jiān)測 H 數(shù)據(jù)處理表達式 AORB ANDCAND DOREORFORG ANDH 5選擇檢索方法 常用法 追溯法和循環(huán)法 常用法 順查 倒查和抽查追溯法 參考文獻法和科學引文法被引用作者查如 ARIKAWAK80NATURE268700KATAGIRINJELECMICR393639087JCOMPPHYSLA1611161STOWESCELLTISRE2624839087NATURWISSENSCHAFTEN74297SHIMOHIGMCELLTISRE2634691循環(huán)法 常用法和追溯法的結(jié)合 6查找文獻線索 索取原始文獻在檢索過程中 由于可以隨時修改檢索策略 因此一方面要以制定的檢索式為基礎 要服從檢索式 但不要過多地受構(gòu)造檢索式的限制 要把條件適當放寬一些 逐步縮小檢索范圍 多次試驗 以找到最佳檢索式 結(jié)束- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù)庫檢索方式 數(shù)據(jù)庫 檢索 方式 PPT 課件
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權(quán),請勿作他用。
相關(guān)資源
更多
正為您匹配相似的精品文檔
相關(guān)搜索
鏈接地址:http://ioszen.com/p-8018821.html