《數(shù)據(jù)庫及其檢索技術(shù).ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)庫及其檢索技術(shù).ppt(69頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、,數(shù)據(jù)庫檢索技術(shù)及應(yīng)用,總復(fù)習(xí)1,,1.數(shù)據(jù)庫及其類型 2.數(shù)據(jù)庫結(jié)構(gòu) 3.數(shù)據(jù)庫檢索技術(shù) 4.檢索技術(shù)的應(yīng)用,1.數(shù)據(jù)庫及其類型,數(shù)據(jù)庫是在計(jì)算機(jī)存儲(chǔ)設(shè)備上按一定方式,合理組織并存儲(chǔ)的相互有關(guān)聯(lián)的數(shù)據(jù)的集合,是計(jì)算機(jī)技術(shù)和信息檢索技術(shù)相結(jié)合的產(chǎn)物,是信息檢索系統(tǒng)的核心部分之一。 按所提供的信息內(nèi)容,數(shù)據(jù)庫主要可分為參考數(shù)據(jù)庫和源數(shù)據(jù)庫。,參考數(shù)據(jù)庫,存儲(chǔ)一系列描述性信息內(nèi)容,指引用戶到另一信息源以獲得完整的原始信息的一類數(shù)據(jù)庫,主要包括書目數(shù)據(jù)庫和指南數(shù)據(jù)庫。,書目數(shù)據(jù)庫,內(nèi)容特征:存儲(chǔ)描述如目錄、題錄、文摘等書目線索的數(shù)據(jù)庫,又稱二次文獻(xiàn)信息數(shù)據(jù)庫。如各種圖書館目錄數(shù)據(jù)庫、題錄數(shù)據(jù)庫和
2、文摘數(shù)據(jù)庫等屬于此類。 作用:指出了獲取原始信息的線索。,指南數(shù)據(jù)庫,內(nèi)容特征: 存儲(chǔ)描述關(guān)于機(jī)構(gòu)、人物、產(chǎn)品、活動(dòng)等對(duì)象的數(shù)據(jù)庫。 作用:指引用戶從其它有關(guān)信息源獲取更詳細(xì)的信息。,源數(shù)據(jù)庫,主要存儲(chǔ)全文、數(shù)值、結(jié)構(gòu)式等信息,能直接提供原始信息或具體數(shù)據(jù),不必再轉(zhuǎn)查其它信息源的數(shù)據(jù)庫。 它主要包括全文數(shù)據(jù)庫和數(shù)值數(shù)據(jù)庫。,全文數(shù)據(jù)庫,內(nèi)容特征:存儲(chǔ)原始信息全文或主要部分的一種源數(shù)據(jù)庫。如期刊全文數(shù)據(jù)庫、專利全文數(shù)據(jù)庫、百科全書全文數(shù)據(jù)庫。 作用:用戶使用某一詞匯或短語,便可直接檢索出含有該詞匯或短語的原始信息的全 文。,數(shù)值數(shù)據(jù)庫,內(nèi)容特征:存儲(chǔ)以數(shù)值表示信息為主的一種源
3、數(shù)據(jù)庫,和它類似的有文本-數(shù)值數(shù)據(jù)庫。 作用:數(shù)值數(shù)據(jù)庫是對(duì)信息進(jìn)行深加工的產(chǎn)物,可以直接提供所需的數(shù)據(jù)信息。如各種統(tǒng)計(jì)數(shù)據(jù)庫、科學(xué)技術(shù)數(shù)據(jù)庫等。,2.數(shù)據(jù)庫結(jié)構(gòu),書目數(shù)據(jù)庫的結(jié)構(gòu) 書目數(shù)據(jù)庫是以文檔形式組織一系列數(shù)據(jù),這些數(shù)據(jù)被稱為記錄,一個(gè)記錄又包含若干字段。,文檔,按一定結(jié)構(gòu)組織的相關(guān)記錄的集合。文檔是書目數(shù)據(jù)庫數(shù)據(jù)組織的基本形式,文檔的組織方式與檢索系統(tǒng)的硬件和軟件功能密切相關(guān)。在書目數(shù)據(jù)庫中,文檔結(jié)構(gòu)主要分為順排文檔和倒排文檔。,順排文檔,記錄按順序存放,記錄之間的邏輯順序與物理順序是一致的,是一種線形文檔。順排文檔是構(gòu)成數(shù)據(jù)庫的主體部分,但其主題詞等特征的標(biāo)識(shí)呈無序狀態(tài),直接
4、檢索時(shí),必須以完整的記錄作為檢索單元,從頭至尾查詢,檢索時(shí)間長(zhǎng),實(shí)用性較差。,倒排文檔,將順排文檔中各個(gè)記錄中含有主題性質(zhì)的字段(如主題詞字段、標(biāo)題字段、敘詞字段等)和非主題性質(zhì)字段(如作者字段、機(jī)構(gòu)字段、來源字段等)分別提取出來,按某種順序重新組織得到的一種文檔。具有主題性質(zhì)的倒排檔,稱基本索引檔,非主題性質(zhì)的倒排檔,稱輔助索引檔。,順排檔和倒排檔的主要區(qū)別,順排檔以完整的記錄為處理和檢索單元,是主文檔,倒排檔以記錄中的字段為處理和檢索單元,是索引文檔。計(jì)算機(jī)進(jìn)行檢索時(shí),先進(jìn)入倒排檔查找有關(guān)信息的存取號(hào),然后再進(jìn)入順排檔按存取號(hào)查找記錄。,記錄與字段,記錄是作為一個(gè)單位來處理有關(guān)數(shù)據(jù)的集合,
5、是組成文檔的基本數(shù)據(jù)單位。記錄中所包含的若干字段,則是組成記錄的基本數(shù)據(jù)單位。在書目數(shù)據(jù)庫中,一個(gè)記錄相當(dāng)于一條題錄或文摘,因此,一個(gè)記錄通常由標(biāo)題字段、作者字段、來源字段、文摘字段、主題詞字段、分類號(hào)字段、語種字段等組成。按照字段所代表記錄的性質(zhì)不同,字段通常分為基本字段和輔助字段兩類。,,,,EI 數(shù)據(jù)庫中的一條記錄,,Web of Science中的一條記錄,,3.數(shù)據(jù)庫檢索技術(shù),是指利用現(xiàn)代信息檢索系統(tǒng),如聯(lián)機(jī)數(shù)據(jù)庫、光盤數(shù)據(jù)庫和網(wǎng)絡(luò)數(shù)據(jù)庫檢索有關(guān)信息而采用的相關(guān)技術(shù)。主要有布爾檢索、鄰近檢索、截詞檢索和限制檢索。,布爾檢索技術(shù),邏輯與 概念:邏輯與是一種具有概念交叉關(guān)系的組配。 算符
6、:“ * ” 、“ AND ” 、“并且”、“包含”等 舉例:市場(chǎng) * 預(yù)測(cè) 市場(chǎng) AND 預(yù)測(cè) 市場(chǎng) 并且 預(yù)測(cè) 特點(diǎn):增強(qiáng)專指度,表示市場(chǎng)和預(yù)測(cè)兩個(gè)概念應(yīng)包含在同一條記錄中才算命中。,邏輯或,概念:邏輯或是一種具有概念相同、概念相關(guān)或概念并列關(guān)系的組配。 算符: “ + ” 、“ OR ”、“或者” 例如:查找用人工濕地處理廢水方面的信息,有如下的概念并列或相關(guān)關(guān)系的表達(dá): 廢水處理系統(tǒng)、廢水治理 、廢液處理 、廢液治理、污水處理系統(tǒng)、污水治理 人工濕地、人造濕地,,用邏輯或可表達(dá)為: 廢水處理系統(tǒng) or 廢水治理 or 廢液處理 or 廢液治理 or 污水處理系統(tǒng) or 污水治
7、理 and人工濕地 or 人造濕地 特點(diǎn):擴(kuò)大檢索范圍,表示若干相關(guān)概念僅包含一個(gè)在一條記錄中,就算命中。,邏輯非,概念:邏輯非是一種具有概念排除關(guān)系的組配。 算符:有“ ” 、 “ NOT ”、“不包含”等表達(dá)方式。 例如: 土木工程 NOT 橋梁 特點(diǎn):使用“邏輯非”可排除不需要的概念,表示檢索出的記錄中要排除含有“放射廢水”的記錄才算命中。,詞位檢索技術(shù),詞位檢索具有限定檢索詞的詞與詞之間位置關(guān)系的功能,可彌補(bǔ)布爾邏輯算符只是定性規(guī)定檢索詞的范圍,以提高查準(zhǔn)率。常用的詞位檢索技術(shù)有鄰近檢索,多見于國(guó)外數(shù)據(jù)庫。,鄰近檢索,概念:鄰近檢索是限制檢索詞之間可包含其它詞的數(shù)量。 常用的邏輯算
8、符有: NERA 、SAME。,,NERA表示兩詞之間不得多于9個(gè)詞,詞前后位置任意 SAME要求檢索詞在同一個(gè)句子中,這里所指的同一個(gè)句子是兩個(gè)句號(hào)之間的字符串,檢索詞在句子中的順序任意。,,例如: air NEAR pollution air SAME pollution 特點(diǎn):限制檢索詞之間的位置關(guān)系,提高查準(zhǔn)率。,截詞檢索技術(shù),截詞檢索是提高查全率的一種常用技術(shù),大多數(shù)檢索系統(tǒng)都提供截詞檢索功能。 在截詞檢索技術(shù)中,常用的是后截詞,有兩種:無限后截詞,一般用算符“*”表示,用于英文檢索詞的同根詞;有限后截詞(使用的算符在不同的檢索系統(tǒng)中不盡相同)主要用于英文檢索詞的單、復(fù)數(shù)變化
9、等。,,例如:solubilit 用solub*處理,可檢索出含有solubilit、solubilize、solubilization、soluble等同根詞的記錄。 特點(diǎn):使用截詞檢索具有隱含的布爾邏輯或的功能,可簡(jiǎn)化檢索過程,提高查全率。, 限制檢索技術(shù),使用截詞檢索,簡(jiǎn)化了布爾檢索中的邏輯或功能,并沒有改善布爾檢索
10、的性質(zhì)。 使用詞位檢索,只能限制檢索詞之間的相對(duì)位置,不能完全確定檢索詞在數(shù)據(jù)庫中出現(xiàn)的字段位置,尤其在使用自由詞進(jìn)行全文檢索時(shí),需要用字段限制查找的范圍。 常用的字段及代碼有: 標(biāo)題或題名、篇名(TI)、關(guān)鍵詞(KW)、文摘(AB)、作者(AU)、機(jī)構(gòu)(S)等。,利用檢索技術(shù)構(gòu)造檢索式,檢索課題:高層建筑的優(yōu)化設(shè)計(jì) (1)檢索目的和要求 目的:學(xué)位論文開題查新 要求:國(guó)內(nèi)外有關(guān)高層建筑優(yōu)化設(shè)計(jì)方面的信息 (2)進(jìn)行主題分析, 確定檢索詞 高層建筑 tall building 高層建筑 high rise building 結(jié)構(gòu)設(shè)計(jì) structural design 優(yōu)化 opt
11、imization,,使用位置符、截詞符及其它限制符號(hào)進(jìn)行處理 1.高層建筑 tall building* 2. 高層建筑 high NEAR rise NEAR building* 3.結(jié)構(gòu)設(shè)計(jì)structural design 4.優(yōu)化optimization,,使用布爾邏輯算符進(jìn)行組配得: 式1:高層建筑 and 結(jié)構(gòu)設(shè)計(jì) 式2:高層建筑 and 結(jié)構(gòu)設(shè)計(jì) and 優(yōu)化 式3:tall NEAR rise NEAR building* and structural design 式4: high NEAR rise NEAR building* and structural
12、design 式5: tall NEAR rise NEAR building* and structural design and optimization 式6:high NEAR rise NEAR building* and structural design and optimization,4.檢索技術(shù)的應(yīng)用,中文科技期刊全文數(shù)據(jù)庫 傳統(tǒng)檢索方式,邏輯與檢索,邏輯或檢索,,模糊與精確檢索,,限制檢索,,同義詞擴(kuò)展檢索,,中國(guó)期刊全文數(shù)據(jù)庫,初級(jí)檢索方式,邏輯與檢索,,高級(jí)檢索,, Ei Village 2,快速檢索方式 布爾檢索 截詞檢索和自動(dòng)取詞根技術(shù) 短語檢索
13、 鄰近檢索,布爾檢索、鄰近檢索,,tall NEAR rise NEAR building* and structural design,,,字段限制檢索,,查看詳細(xì)記錄和全文,,截詞檢索和自動(dòng)取詞根技術(shù),Ei village 2數(shù)據(jù)庫系統(tǒng)支持后截詞和中截詞。使用星號(hào)*作為截詞算符。 自動(dòng)取詞根技術(shù) Ei village 2數(shù)據(jù)庫系統(tǒng)以輸入的檢索詞詞根(作者欄的檢索詞除外)為基礎(chǔ),檢索所有的派生詞。點(diǎn)擊 “Autostemming off”(自動(dòng)取詞根關(guān)閉)可關(guān)閉此功能。,截詞檢索(無限截詞),,截詞檢索(有限截詞),,自動(dòng)取詞根技術(shù)打開,,自動(dòng)取詞根技術(shù)關(guān)閉,,短語檢索,相關(guān)短語檢索(
14、不加括號(hào)或引號(hào)) 輸入的短語不加任何括號(hào)或引號(hào), 精確短語檢索(必須加大括號(hào)或引號(hào)) 如果要進(jìn)行精確短語檢索,則必須把輸入的短語加上大括號(hào)或引號(hào) 。,一般短語檢索,,精確短語檢索,, Web of science,可用的檢索技術(shù) 布爾檢索 and、 or 、 not 鄰近檢索 same 限制檢索標(biāo)題、年代等 截詞檢索 * 、$,檢索方式及檢索技術(shù)的應(yīng)用,,引文檢索,,高級(jí)檢索,,,,原文館藏查找方法,Temporary stabilization of air pollution control residues using carbonationZhang, Hua (State
15、 Key Laboratory of Pollution Control and Resources Reuse, Tongji University); He, Pin-Jing; Shao, Li-Ming; Lee, Duu-Jong Source: Waste Management, v 28, n 3, 2008, p 509-517,1. 查本館館藏,Zhang, Hua (State Key Laboratory of Pollution Control and Resources Reuse, Tongji University); He, Pin-Jing; Shao, Li
16、-Ming; Lee, Duu-Jong Source: Waste Management Waste Management, v 28, n 3, 2008, p 509-517,公共查詢 無館藏,,2. 查聯(lián)合目錄,,館藏情況,,3. 使用網(wǎng)絡(luò)數(shù)據(jù)庫,,小 結(jié),1.布爾檢索技術(shù)的組配意義 2.詞位檢索和限制檢索技術(shù)對(duì)提高查準(zhǔn)率的作用 3.截詞檢索技術(shù)對(duì)提高查全率的作用 4.如何利用各種邏輯符號(hào)構(gòu)造檢索提問式 5.館藏查找方法,檢索系統(tǒng)與相匹配的檢索技術(shù),檢索系統(tǒng)名稱 檢索技術(shù) 截詞檢索 EI COMPENDEX 同義詞檢索 短語檢索 SCI 精確短語檢索 鄰近檢索 中文科技期刊全文數(shù)據(jù)庫 引文檢索 布爾檢索 中國(guó)期刊全文數(shù)據(jù)庫 限制檢索 全文檢索 國(guó)家知識(shí)產(chǎn)權(quán)網(wǎng)專利數(shù)據(jù)庫 分類檢索,