語義網(wǎng)在數(shù)字圖書館信息檢索中的應用_第1頁
已閱讀1頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、<p>  語義網(wǎng)在數(shù)字圖書館信息檢索中的應用</p><p>  【摘 要】基于字面匹配檢索的傳統(tǒng)數(shù)字圖書館信息檢索方法在檢索效率方面存在一定的缺陷。新一代語義網(wǎng)在語義理解、信息關聯(lián)方面有其獨特優(yōu)勢,其在數(shù)字圖書館信息檢索系統(tǒng)中的應用必將大大提高信息檢索效率。 </p><p>  【關鍵詞】語義網(wǎng);數(shù)字圖書館;信息組織;信息檢索 </p><p>  

2、數(shù)字信息資源的海量增長導致了人類信息行為的改變。數(shù)字圖書館以其時空的便利性越來越收到人們的重視,人們更多地通過圖書館的信息檢索系統(tǒng)來獲得所需的資源。但數(shù)字圖書館傳統(tǒng)的信息檢索系統(tǒng)的缺陷也逐漸顯現(xiàn)出來。 </p><p>  一、數(shù)字圖書館傳統(tǒng)信息檢索系統(tǒng)存在的問題 </p><p>  目前數(shù)字圖書館中搜索引擎多以傳統(tǒng)的關鍵詞檢索為主。這種檢索方式曾在一定程度上滿足過用戶的需求,但由于字義

3、本身與其概念的延伸經(jīng)常不在同一級,使得尋得結果往往僅與字面意義相匹配,與人們想得到信息概念及其相關的成分的意愿相違背。首先,傳統(tǒng)的檢索系統(tǒng)難以準確理解用戶的檢索需求。如當用戶需要查找題名中包含“計算機”的文獻時,其真實的檢索意圖是將關于“計算機”、“電腦”等具有同一語義的文獻都查找出來。其次,檢索系統(tǒng)返回的多篇文章往往只按相關度、實踐、被引頻次等進行排序,各篇文獻之間相互獨立,缺乏語義上的聯(lián)系。 </p><p>

4、;  二、概念語義檢索的優(yōu)勢 </p><p>  (一)語義檢索系統(tǒng)可以收集用戶的相關信息,分析用戶的檢索行為,了解用戶的檢索特征與檢索愛好,創(chuàng)建符合用戶特征的訪問模式,從一定程度上提高用戶的檢索效率。 </p><p> ?。ǘτ脩魴z索語義的確切理解保證了檢索結果的可靠性。概念語義檢索克服了字面匹配檢索的弊端,使檢索結果更接近用戶真實的檢索需求。 </p><p

5、> ?。ㄈ┯脩艨梢詫ο到y(tǒng)提供的服務做出信息反饋,對檢索結果進行打分排序,系統(tǒng)可根據(jù)反饋信息調整服務,從而達到個性化搜索。 </p><p>  三、語義網(wǎng)及其體系結構 </p><p>  1998年,萬維網(wǎng)之父Tim Berners-Lee 提出“語義網(wǎng)”(Semantic Web)理念。語義網(wǎng)的基本思想是在網(wǎng)絡信息的創(chuàng)作和發(fā)布中嵌入機器可理解的知識元數(shù)據(jù),使計算機具備更強的“理

6、解”和處理數(shù)據(jù)的能力。語義網(wǎng)環(huán)境下,網(wǎng)絡成為能理解人類語言的智能網(wǎng),人機交流變成類似人與人的交流。2000年Tim Berners-Lee提出的語義網(wǎng)標準體系結構。該機制的核心由兩大模塊組成:① 以XML與RDF(s)為手段的信息組織模塊,用于管理信息,具備部分語義。②以Ontology為手段的知識組織模塊,用于管理知識,提供機器間的語義互操作。標準最底層由統(tǒng)一資源標識符(URI)和統(tǒng)一字符編碼(Unicode)構成。語義網(wǎng)標準的第二層

7、由可擴展標記語言(XML)、域名系統(tǒng)(Namespace)以及可擴展標記語言結構表(XML Schema)構成。第三層由資源描述框架(RDF)和資源描述框架結構表(RDF Schema)構成。 “XML+RDF(s)”就構成了計算機間相互理解的基礎,它們是改造萬維網(wǎng)、建立起語義網(wǎng)信息組織機制的三大核心技術。第五層邏輯(Logic)是在本體層之上要做邏輯推理工作。接</p><p>  根據(jù)以上內容可知,語義網(wǎng)信息

8、組織機制的核心是XML、RDF、Ontology。XML(可擴展標記語言)被譽為“語義標記”,是一種完全面向數(shù)據(jù)語義的置標語言。XML Schema提供了規(guī)定XML 文檔結構和內容約束的機制。Namespace則是解決自定義標記過程中名稱沖突問題的。RDF(資源描述框架)是網(wǎng)絡資源通用描述框架,它是以三元組:主體—謂詞—客體,來對網(wǎng)絡信息資源進行簡單描述的。RDF是一個開放的元數(shù)據(jù)集成方案。采用RDF來處理不同類型元數(shù)據(jù)集合,可以實現(xiàn)元

9、數(shù)據(jù)之間的互操作,使計算機可以理解語義。XML與RDF結合解決了信息建立于信息描述的開放機制和系統(tǒng)的開放性,有利于資源的共享。Ontology(本體)在人工智能領域指的是對共享概念模型的明確的形式化規(guī)范說明。 </p><p>  四、概念語義檢索的實現(xiàn) </p><p> ?。ㄒ唬└拍钫Z義檢索的原理。概念語義檢索的原理主要分為三個過程:首先,用戶向系統(tǒng)輸入檢索請求,由于用戶的知識領域的差

10、異,輸入的關鍵詞的準確性有差別,需要系統(tǒng)對檢索需求進行語義分析,分析出用戶真正的檢索需求。第二,概念語義檢索系統(tǒng)須對數(shù)字對象進行描述和表示,對海量的信息資源進行描述和表示是信息資源數(shù)字化整序的過程。第三,語義檢索系統(tǒng)將分析出的用戶真正的檢索意圖的認知表達式與概念語義檢索系統(tǒng)中整合后的資源進行匹配,檢索出所需的信息資源。 </p><p> ?。ǘ└拍钫Z義檢索的流程。(1)創(chuàng)建元數(shù)據(jù):收集各學科的數(shù)字信息資源,在

11、MARC、DC等元數(shù)據(jù)標準下,利用XML、RDF等語義網(wǎng)技術,更準確地描述數(shù)字對象的語義,建立元數(shù)據(jù)并存儲在元數(shù)據(jù)庫中。(2)創(chuàng)建本體知識庫:利用元數(shù)據(jù)庫中的信息以及現(xiàn)有的主題詞表、語義詞典等工具,并且借助領域專家的知識和經(jīng)驗的幫助,構建領域內共同認可的詞匯,并從不同層次的形式化模式上給出詞匯和詞匯間相互關系的明確定義。(3)語義標引:利用領域本體對文檔進行標引。先從文檔集中抽取出特征詞匯,分析特征詞匯,并建立與概念集之間的聯(lián)系,從而達

12、到使用領域本體對文檔進行語義標引。(4)檢索式的處理:用戶通過檢索界面提交查詢請求,推理機利用本體領域內的知識和一些基本的自然語言理解技術對關鍵詞或語句進行分析,從領域本體中抽取出與用戶查詢關鍵詞或語句具有語義相似度的本體,最終得到用戶真正的檢索意圖。(5)實施查詢并返回結果:推理機將抽取出的語義關鍵詞組成語句群,提交至檢索系統(tǒng)。然后,系統(tǒng)從數(shù)字圖書館信息資源中搜索出符合該語義詞或句的所有相關文獻資源,即結果集。 </p>

13、<p>  作為下一代互聯(lián)網(wǎng),語義網(wǎng)在信息檢索方面的優(yōu)勢可以為數(shù)字圖書館提高檢索效率所借鑒。語義網(wǎng)的和核心技術XML、RDF、Ontology為數(shù)字圖書館實現(xiàn)用戶檢索需求的確切理解,構建信息資源的語義關聯(lián)提供了有效途徑,并最終提高了數(shù)字圖書館學術信息資源的檢全率和檢準率。 </p><p><b>  參考文獻 </b></p><p>  [1] 羅昊.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論