面向開放領域文本的實體關系抽取.pdf_第1頁
已閱讀1頁,還剩114頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著大數據時代的來臨,人們面臨和需要處理的數據在規(guī)模上急劇膨脹,而大部分數據以自然語言描述的無結構文本格式存在,其內容所屬領域的界限也日趨模糊,一些有重要意義和價值的知識信息顯式或隱式地散落在這些海量的文字中間,從而影響了人們直觀、高效地從中發(fā)現目標信息。作為信息抽取的一項重要任務,實體關系抽取研究的根本目標就是利用語言學、統計學、計算機科學、信息科學等多個領域的知識,從無結構或半結構的文本中發(fā)現實體之間存在的各類語義關系,并以結構化的

2、方式呈現出來,以便于人們快速理解和掌握文本的意義。面向開放領域文本的關系抽取面臨著諸多困難與挑戰(zhàn),而該項研究對于事件抽取、信息檢索、機器翻譯、自動問答等領域的研究具有較強的支撐作用,因而具有較強的研究價值與研究意義。
  針對開放領域文本的特點,在總結現有實體關系抽取研究的基礎上,本文從實體關系特征選擇和實體關系抽取方法兩個角度進行了面向開放領域文本的實體關系抽取研究,并將這些研究成果應用于面向大學計算機基礎課程的知識圖譜的構建研

3、究中。本文的主要研究內容包括以下四個方面:
  (1)基于句法語義特征的實體關系抽取。領域無關的新聞文本是一種較為常見的開放領域文本,現有的研究偏重于核函數及其組合的在關系抽取中的應用,而在關系特征方面的研究相對偏少,而且以往的研究大多是利用外部的語義知識庫作為輔助來實現,較少從關系結構自身所處的句子中提取語義特征,也缺少從語言學的角度來挖掘關系特征。為此,本文提出一種基于句法語義特征的實體關系抽取方法,在特征選擇方面,著重從語言

4、學的角度出發(fā),以詞法分析、上下文環(huán)境等特征為基礎,新添加了依存句法特征、語義角色標注特征以及核心謂詞與實體的位置距離特征等,實現關系特征選擇范圍的擴展;在機器學習方法上,以SVM模型為基礎,構建基于特征空間轉換的訓練模型,并采用成熟的算法對訓練過程進行優(yōu)化;最后使用《人民日報》部分語料進行了實驗,實驗結果證明了本文所述方法的有效性。
  (2)基于弱監(jiān)督的實體關系抽取。百科類文本是另一種典型的開放領域文本,可根據其自有內容實現基于

5、弱監(jiān)督機器學習的關系抽取,從而減少人工干預、提高效率。以往針對中文百科文本的屬性抽取研究較多,而實體關系抽取的研究相對較少,且在目標關系類型選擇過程中存在缺陷。為此,本文提出一種基于弱監(jiān)督的百科文本實體關系抽取方法,在監(jiān)督知識庫的構建環(huán)節(jié),不再直接依賴基本信息框中的數據,而是從多個角度對基本信息框中的內容進行加工整合,得到質量更高的關系元組,用于對詞條正文進行自動關系標注;在目標關系類型選擇中,提出了一種基于頻度差值密度的目標關系類型選

6、擇方法,使其夠按照每種關系類型在語料中的分布密度隨機從一定范圍內選擇目標關系類型,從而提高目標關系類型選擇的覆蓋面和科學性;本方法繼承了上一研究內容中的關系特征選擇、特征向量優(yōu)化方法和關系分類訓練模型,并使用百度百科部分詞條作為語料進行了實驗,得到了較好的實驗效果。
  (3)基于字典構建與規(guī)則學習的實體關系抽取。該項研究主要實現從期刊文本中進行特定類型的術語之間的關系抽取。在基于規(guī)則的實體關系抽取研究中,利用關系字典能夠明顯地提

7、升關系識別效果,而在以往研究中,關系規(guī)則與關系字典往往由人工構建,效率較低。本文提出一種基于弱監(jiān)督的關系詞字典自動構建方法,首先設計一種全新的關系詞字典結構,在人工挑選部分典型關系詞的基礎上,通過基于CRF模型的弱監(jiān)督機器學習得到關系詞識別器,最終實現關系詞字典的自動構建;在關系規(guī)則的自動生成方面,利用上述關系詞字典,首先根據關系詞與實體的相對位置關系設計關系模式,然后從大量的訓練文本中抽取填充因子填充到關系模式中,從而自動得到關系規(guī)則

8、;此外,本文還提出了無明顯關系詞的實體關系抽取方法以及規(guī)則修剪方法等。在實驗中,將本方法應用于生物醫(yī)學期刊文獻中的蛋白質交互(PPI)關系抽取,取得了較好的效果。
  (4)面向大學計算機基礎課程的知識圖譜構建研究。面向大學計算機基礎課程的知識圖譜構建,可以為該課程的教學改革、學習方法的改進等提供豐富的知識保障,從而有助于提升教育信息化水平。本文以大學計算機基礎課程的教材為知識語料來源,首先提出了一種跨語言的實體識別方法;整合并改

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論