文本特征信息的搜索與分類系統(tǒng)設計【開題報告】_第1頁
已閱讀1頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、<p><b>  畢業(yè)設計開題報告</b></p><p><b>  計算機科學與技術</b></p><p>  文本特征信息的搜索與分類系統(tǒng)設計</p><p>  一、選題的背景、意義</p><p>  信息無時不在,無時不有,具有普遍性、載體依附性、價值的相對性、時效性、共享

2、性、可偽性等一般特征。隨著信息技術的應用與發(fā)展和互聯(lián)網(wǎng)的普及,龐雜的文本信息流急劇增多,對于我們的認知與決策帶來了很大的壓力,如何有效地組織和管理這些信息并快速、準確、全面地從中找到用戶所需要的信息是當前信息技術領域面臨的一大挑戰(zhàn)。文本信息是網(wǎng)絡信息中很重要的一部分。對于文本信息的整理和顯示,需要經(jīng)過一定的步驟和方法來完成的。文本的搜索是要求用戶提交查詢關鍵詞(文本特征)來查找與之匹配的一系列信息,通過相關的調(diào)整,進而能夠讓用戶有效、迅

3、捷地為用戶獲取所要的文本信息。</p><p>  文本特征信息的搜索與分類離不開搜索引擎技術和文本挖掘相關的技術。這兩者缺一不可。</p><p>  先談一下搜索引擎技術的發(fā)展狀況。現(xiàn)如今,搜索引擎已成為僅次于門戶的互聯(lián)網(wǎng)第二大核心技術。在短短十年的時間內(nèi),搜索引擎迅猛地發(fā)展起來。隨著互聯(lián)網(wǎng)的普及和網(wǎng)上信息的爆炸式的增長,搜索引擎越來越引起人們的重視,搜索引擎已成為一個非常熱門的話題。

4、搜索引擎技術現(xiàn)在已成為計算機產(chǎn)業(yè)界和學術界爭相研究和開發(fā)的對象。通過對搜索引擎技術和檢索任務方面的詞語進行統(tǒng)計和分析,一方面可以反映出學術界對搜索引擎的關注程度,另一方面也能大致分析出搜索引擎的發(fā)展現(xiàn)狀以及發(fā)展趨勢。</p><p>  搜索引擎的發(fā)展大致可以分割成3個階段。</p><p>  第一個階段里的搜索引擎以雅虎為標志,主要依靠人工分揀信息,用分類目錄搜索信息。這一階段的搜索引

5、擎技術還處于萌芽階段。雖然這樣,但此時各種搜索引擎概念也相繼出現(xiàn)了,如目錄式搜索引擎、全文搜索引擎、元搜索引擎等。這一階段,詞頻相對較高的關鍵詞是全文檢索、智能檢索、多媒體、圖像搜索、語義網(wǎng)絡、分類目錄、分類主題等。這個時期分類搜索是網(wǎng)絡搜索的主流。</p><p>  搜索引擎在第二個階段里開始迅速發(fā)展。最負盛名的搜索引擎當數(shù)Google,它在1999年以不可抵擋的勢頭走向世界,依靠機器抓取、分析進行網(wǎng)頁搜索[

6、1],帶動了新技術PageRank和錨文本技術的發(fā)展。此階段的熱點詞語有關鍵詞檢索、倒排索引、全文索引、自動摘要、鏈接分析等。這段時期鏈接分析技術、PageRank算法以及Hit算法等如火如荼地展開。人們基本認為Web信息檢索開始進入了新一代搜索引擎階段[2]。</p><p>  第三個階段里搜索引擎的研究變得非?;馃?,搜索引擎越來越向智能化、個性化、專業(yè)化的方向發(fā)展,同時也不斷地涌現(xiàn)出新的具有鮮明特色的搜索引

7、擎產(chǎn)品。通過對文本分類、聚類、用戶行為分析、分布式、相關反饋、智能代理、查詢擴展等高頻詞的分析,我們可以看出,人工智能、數(shù)據(jù)庫、數(shù)據(jù)挖掘、自然語言理解等領域的研究有力地促進了搜索引擎的發(fā)展。</p><p>  再談一下文本挖掘相關的發(fā)展。雖然信息通訊技術的發(fā)展及由此帶來的信息量的增長,極大地促進了人們的溝通和交流,為人類的文明和發(fā)展做出了巨大的貢獻。但同時,信息爆炸式增長帶來的消極影響正在凸現(xiàn)。在此,國際上提出

8、了多項文本挖掘計劃,以期對網(wǎng)上“堆積如山”的巨大的信息礦床進行有效的過濾、開發(fā)與綜合利用,把信息變成能夠方便利用的知識和財富。</p><p>  NIST(美國國家技術標準局)和DARPA(美國國防高級研究計劃局)組織的TREC(文本檢索會議)會議是國際上文本挖掘領域的著名評測會議,從1992年起每年召開一次,迄今已經(jīng)召開了13屆。1991-1998年,DARPA資助了TIPSTER文本計劃,主要著眼于三項基礎

9、技術的評測:文檔檢測、信息提取、摘要。2003年,DARPA開始啟動以機器學習為核心的計劃PAL4,為期5年,首期(1-1.5年)投資2900萬美元。PAL包含2個子計劃:其中,CALO5子計劃是整個PAL計劃的核心(2200萬),將機器學習技術放到了國家安全的角度來考慮。美國主要大學與公司參加這個子計劃。由此可見,對海量網(wǎng)絡信息的有效處理和深層次綜合利用離不開文本挖掘技術,文本挖掘?qū)⒊蔀槿藗儜獙π畔r代挑戰(zhàn)的強大利器之一[3]。<

10、;/p><p>  二、研究的基本內(nèi)容與擬解決的主要問題</p><p>  在該系統(tǒng)中要實現(xiàn)文本信息的搜索與分類,就必須期望實現(xiàn)以下功能:</p><p>  1)美觀的搜索界面,按文本關鍵字搜索;</p><p>  2)搜索引擎,完成把所要查詢的關鍵字與網(wǎng)上文本信息進行匹配;</p><p>  3)數(shù)據(jù)庫設計,實現(xiàn)

11、把網(wǎng)上匹配的文本特征信息下載并記錄,為顯示結果提供依據(jù);</p><p>  4)結果顯示界面,顯示項目包括關鍵字、相似度和網(wǎng)址,并按一定的順序羅列。</p><p>  研究要求是在已有的專業(yè)理論知識和應用能力的基礎上,掌握Java編程和WEB技術,能較熟練的運用Java開發(fā)工具Myeclipse及SQL SERVER 2000數(shù)據(jù)庫,研究開發(fā)出具有上述功能的文本特征信息的搜索與分類系統(tǒng)

12、。</p><p>  在研究途中最主要的一個問題是如何設計一個搜索引擎來實現(xiàn)在網(wǎng)上根據(jù)文本特征搜索文本信息并進行分類。這一點很重要,但充滿著困難。第二個問題是如何構建數(shù)據(jù)庫。搭建一個好的數(shù)據(jù)庫結構會省去很多不必要的煩惱與省下不少的精力。第三個問題是自己所學的知識面很窄,技術掌握不到位,不全面,不能一下子就能解決可能碰到的問題。針對這一點就需要查閱大量的文檔和書籍,還可以請教導師來幫忙解決。</p>

13、<p>  三、研究的方法與技術路線、研究難點,預期達到的目標</p><p>  文本挖掘是以半結構(如Web網(wǎng)頁)或者無結構(如純文本)的自然語言文本為對象的數(shù)據(jù)挖掘。它是從大規(guī)模文本數(shù)據(jù)集中發(fā)現(xiàn)隱藏的、重要的、新穎的、潛在有用的規(guī)律的過程[4]。文本挖掘首先要從文本中提取適當?shù)奶卣?,將文本表示成計算機能夠理解的數(shù)字形式。根據(jù)處理速度和精度的需要,可以對文本中的特征進行選擇優(yōu)化。然后采用各種文本挖

14、掘方法發(fā)現(xiàn)隱藏的知識模式,以滿足用戶評價標準的模式最終輸出,成為指導人們實踐的有用知識。</p><p>  文本挖掘之前,用信息抽取技術(Information Ex—traction,IE)進行非結構化的信息挖掘。但隨著IE系統(tǒng)的發(fā)展,人們認為它更適合利用精確的查詢相匹配概念和文字找出關系。IE系統(tǒng)的主要優(yōu)勢在于以下幾點:查詢的精確,輸出結果的透明和直接進入數(shù)據(jù)庫或真實地顯示出來?!拔谋就诰颉边@個詞通過類似于

15、傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)一樣被應用到這些系統(tǒng)中。針對IE對自然語言處理的不足,文本挖掘可以通過統(tǒng)計共現(xiàn)方法處理自然語言。</p><p>  文本具有有限的結構,有的甚至沒有結構,此外計算機不能直接處理人類的自然語言,所以對文本數(shù)據(jù)源要進行數(shù)據(jù)預處理。數(shù)據(jù)預處理主要包括分詞技術(英文文本則需要Stemming技術)和特征表示和特征提取。因為中文詞與詞之間沒有固有的間隔符(空格),需要進行分詞處理[5]。</p&g

16、t;<p>  文本經(jīng)過分詞、特征表示和特征提取后就可進行挖掘了。對于非結構化問題,一條途徑是發(fā)展全新的數(shù)據(jù)挖掘算法直接對非結構化數(shù)據(jù)進行挖掘,由于數(shù)據(jù)非常復雜,導致這種算法的復雜性很高;另一條途徑就是將非結構化問題結構化,利用現(xiàn)有的數(shù)據(jù)挖掘技術進行挖掘,目前的文本挖掘一般采用該途徑進行處理。對于語義關系,則需要集成計算語言學和自然語言處理等成果進行分析[6]。常用的文本挖掘技術有:文本結構分析、文本摘要、文本分類、文本聚

17、類、文本關聯(lián)分析、分布分析和趨勢預測。</p><p>  要表示文本首先要提取文本特征[7]。文本的特征應該具有以下特點:特征是能夠?qū)ξ谋具M行充分表示的語言單位;文本在特征空間中的分布具有較為明顯的統(tǒng)計規(guī)律;文本映射到特征空間的計算復雜度不太大。要表示好文本,就要尋找最有代表性的文本特征。對于計算機來說,文本就是由最基本的語言符號組成的字符串。西文文本是由字母(letter)和標點符號組成的字符串,中文文本就是

18、由漢字和標點符號組成的字符串。在西文文本中,字母構成詞(word)。由于字母數(shù)量太少,無法作為特征,因此普遍使用詞作為特征。在中文文本中,字構成詞,詞構成短語,進而形成句、段、節(jié)、章、篇等語言文字結構。文本挖掘中常用的文本特征有字、詞或短語等。在實際應用中,到底選擇何種特征來表示文本需要結合處理速度、精度要求、存儲空間等方面的具體要求來決定。</p><p>  由于Web文本的特點,Web信息提取算法的特征選擇

19、一般不采用自然語言處理中的語法和語義特征,而使用下列特征[8]:</p><p>  符號特征:HTML文檔中的符號包括標記符號和文本中的符號。對于英文文本,文本的符號化很簡單,可以用非數(shù)字字母符號將文本字符序列隔開成字符串,這些隔開的字符串稱之為token。對于標記符號token,特征有標記名、屬性等。對于文本符號token,特征有類型(數(shù)字、單詞等)、值(文本實際內(nèi)容)等。</p><p&

20、gt;  除符號特征外,符號之間的關系也可能是信息提取的重要線索。關系特征考慮符號之間的關系。</p><p>  文本片段特征:單純從token層次來描述文本特征是不夠的,要提取的信息一般是由很多個token組成的文本片段,因此從文本片段層次上來描述特征是必要的。</p><p>  文檔結構特征:由于HTML文檔中含有大量的標記信息,而標記之間是層層嵌套的。大多數(shù)的文本都處于標記之內(nèi),

21、有些類型網(wǎng)頁的標記出現(xiàn)有一定規(guī)律可循,另外有少數(shù)標記具有語義線索,如<title>,<head>,<h1>標記中的內(nèi)容一般對整個文檔的語義起概括作用??梢岳玫奈臋n結構特征有符號所在的標記、父標記等。</p><p>  特征表示是指以一定特征項(如詞條或描述)來代表文檔,在文本挖掘時只需對這些特征項進行處理,從而實現(xiàn)對非結構化的文本的處理,這是一個非結構化向結構化轉化的處理步

22、驟。特征表示的構造過程就是挖掘模型的構造過程,特征表示模型有多種,常用的有布爾邏輯型、概率型、向量空間型等[9]。我們采用了應用較多的向量空間模型(Vector Space Model ,VSM )。</p><p>  向量空間模型(Vector Space Model, VSM)是由G. Salton等人在20世紀60年代提出的信息檢索模型,是效果較好、近些年來被廣泛應用的一種方法。最典型的向量空間模型原型系

23、統(tǒng)是康奈爾大學的SMART(System for the Manipulation and Retrieval of Text)系統(tǒng),它提供源代碼開放下載,目前已經(jīng)被成千上萬的研究者所采用。向量空間模型(Vector Space Model)把文本表示成n維歐式空間的向量,并用它們之間的夾角余弦作為相似性的度量。在向量空間模型中,首先要建立文本向量和用戶查詢的向量,然后對這些向量進行相似性計算(匹配運算),在匹配結果基礎上進行相關反饋,

24、以優(yōu)化用戶的查詢,提高檢索效率[10]。</p><p>  雖然各個搜索引擎的具體實現(xiàn)不盡相同,但是一般包含爬蟲程序、分析程序、索引程序、檢索程序和用戶接口界面5個基本部分,而且大致的工作原理是相同的。WEB搜索引擎主要是通過爬蟲程序定期遍歷互聯(lián)網(wǎng),將網(wǎng)頁的統(tǒng)一資源定位符(URL)、內(nèi)容和采集時間等相關信息收集到WEB服務器中,然后通過必要的信息索引和存儲優(yōu)化處理,利用特定的檢索界面對WEB用戶直接提供服務[1

25、1]。</p><p>  它的具體工作流程包括以下幾步:</p><p>  第一步,爬蟲程序采用一定的搜索策略對WEB網(wǎng)絡進行遍歷并下載網(wǎng)頁,系統(tǒng)維護一個超鏈隊列或者堆棧,其中包含一些起始URL;爬蟲程序從這些URL出發(fā),下載相應的頁面,并從中抽取出新的超鏈隊列加入到隊列或者堆棧中。</p><p>  第二步,由分析程序?qū)ε老x程序下載的網(wǎng)頁進行分析以用于索引,

26、網(wǎng)頁分析技術一般包括分詞(有些僅從文檔某些部分抽詞,如Altavista)或者使用停用詞表(stop list)來過濾網(wǎng)頁信息,同時還提供諸如單復數(shù)轉換、詞綴去除和同義詞替換等詞語轉換,這些技術的具體實現(xiàn)往往與處理方式以及系統(tǒng)的索引模型密切相關。</p><p>  第三步,索引程序?qū)⒕W(wǎng)頁信息表示為一種便于檢索的方式并存儲在索引數(shù)據(jù)庫中。</p><p>  第四步,檢索程序從索引中找出與

27、用戶查詢請求相關的網(wǎng)頁信息,采用與分析網(wǎng)頁文檔相似的方法來處理用戶查詢請求,最后將相關度大于閾值的所有網(wǎng)頁按照相關度遞減的順序并返還給用戶,當然搜索引擎的相關度判斷并不一定與用戶的需求完全吻合。</p><p>  最后,用戶接口為用戶提供可視化的查詢輸入和結果輸出界面。</p><p>  向量空間模型具體步驟如下:</p><p>  首先把文檔分解成若干詞語,

28、去掉出現(xiàn)頻率較高但又沒有實際意義的詞語,比如“雖然”、“但是”等等,此時文檔D(Document)就可以由一系列實詞建立的n維向量空間來表示[12]。</p><p>  然后利用余弦相似度定理,判斷該文檔與描述用戶興趣的文檔之間的內(nèi)容相關度,即兩個文檔向量之間的夾角余弦值即可得出這兩篇文檔之間的相似性(夾角越小相似性越大)。通常用戶至少提供一個關鍵詞形成用戶模板,以此表明用戶的興趣取向,權重大小由輸入的先后順序

29、決定。在進行向量匹配時,用戶模板在檢索時可被看成是由n個詞語組成的向量。首先得到同時包括這幾個詞的文獻,然后一一比較,描述文件向量和文獻向量的相似程度,最后根據(jù)相似程度把命中的文獻排序返回給用戶[13]。</p><p>  向量空間模型可將文本和查詢簡化為項及權重集合的向量表示,從而把檢索操作變成向量空間上的向量運算,其權重計算可以通過簡單的頻數(shù)統(tǒng)計來完成,通過定量分析,匹配文本和查詢。在這個基礎上,引入各種成

30、熟的統(tǒng)計方法,更大程度地挖掘文本中蘊涵的語義信息,如主成分分析、因子分析、聚類分析等等。具有較強的可計算性和可操作性的特點,特別是隨著網(wǎng)絡信息的迅速膨脹,其應用已經(jīng)不僅僅局限于文本檢索、自動文摘、關鍵詞自動提取等傳統(tǒng)問題,還可以應用到搜索引擎、個人信息代理、網(wǎng)上新聞發(fā)布等信息檢索領域。在向量空間模型中,文檔的內(nèi)容被形式化為多維空間的一個點,把文檔以向量的形式定義到實數(shù)域中,能夠使用模式識別和其它領域中各種成熟的計算方法,極大地提高自然語

31、言文檔的可計算性和可操作性,因而在文本過濾中獲得廣泛應用并取得良好效果。</p><p>  向量空間模型的缺點在于項之間線性無關的假設,在自然語言中,詞或短語之間存在著十分密切的聯(lián)系,即存在“斜交”現(xiàn)象,很難滿足假設條件,對計算結果的可靠性造成一定的影響。此外,將復雜的語義關系,歸結為簡單的向量結構,將會丟失許多有價值的線索。</p><p>  通過以上分析,可以看出特征文本信息的搜索

32、與分類技術存在著以下幾種發(fā)展趨勢:</p><p>  一是新的搜索引擎不斷涌現(xiàn):比如智能化搜索引擎。新引擎出現(xiàn)得益于人工智能、機器學習、進化計算等領域中新技術的涌現(xiàn)和發(fā)展。</p><p>  二是傳統(tǒng)方法的進一步發(fā)展:比如支持向量機[14]的不斷改進發(fā)展。傳統(tǒng)分類方法的發(fā)展主要利用了機器學習、進化計算、數(shù)據(jù)挖掘、模糊集和粗糙集[15]等理論中的原理和方法。</p><

33、;p>  三是多技術融合:一方面根據(jù)實際問題需要,有針對性地綜合眾多領域的技術,以提高分類的性能;另一方面,文本、語音和圖像搜索分類技術的融合,隨著互聯(lián)網(wǎng)和多媒體技術的進一步發(fā)展,文本搜索和分類技術將與圖像識別、語音識別融合,比如圖像文本的分類、語音文本的分類、多媒體數(shù)據(jù)庫索引等。</p><p>  而本系統(tǒng)暫時停留在只對文本特征信息進行搜索和分類。通過建立一個搜索引擎,根據(jù)文本特征對文本信息實現(xiàn)搜索和分

34、類。這就是預期達到的目標。</p><p>  四、論文詳細工作進度和安排</p><p>  第七學期第10周至第15周(2010年12月27日前):文獻檢索和資料收集,完成畢業(yè)論文(設計)文獻綜述、開題報告和外文翻譯;</p><p>  第八學期 第1周 至第3周(2011年03月19日前):撰寫論文提綱,完成畢業(yè)論文(設計)初稿;需求分析,系統(tǒng)設計;<

35、;/p><p>  第八學期 第4周 至第11周(2011年04月11日前):詳細設計;</p><p>  第八學期第12周至第13周(2011年04月18日前):完成應用軟件系統(tǒng)的設計,畢業(yè)論文定稿;</p><p>  第八學期第12周(2011年04月24日前):完善畢業(yè)論文(設計)文檔,完成答辯準備工作;</p><p>  第八學期

36、第13周:開始參加畢業(yè)論文(設計)答辯。</p><p><b>  五、主要參考文獻</b></p><p>  [1] 馮英健.什么是第三代搜索引擎[EB/OL].http://www. marketingman. net,2005-02-18.</p><p>  [2] 馬少平,張敏.信息檢索研究:過去三十年中我們走了多遠[C].中

37、國中文信息學會二十五周年學術會議.北京:清華大學計算機科學與技術系,2006:11-17.</p><p>  [3] 周旭.知識經(jīng)濟[J].重慶市科學技術協(xié)會,2004,12(2):50-54.</p><p>  [4] Tom M.Mitchell.Machine Learning[M]. New York:McGraw-Hill,1997.</p><p&g

38、t;  [5] 袁軍鵬,朱東華,李毅等.文本挖掘技術研究進展[J].計算機應用研究,2006(2):1—4.</p><p>  [6] 程紅莉,周寧,肖爽.文本驅(qū)動的商務智能研究[J].情報科學,2007(10):1525—1529.</p><p>  [7] 張忠平.文本挖掘(TextMining)[R].河北:燕京大學計算機科學與工程系,2002.03.18.</p&g

39、t;<p>  [8] 李效東,顧毓清.基于DOM的Web信息提取[J].計算機學報,2002,25(5):526-533.</p><p>  [9] KollerD,Sahami M.Hierarchically classifying documents using very few words[J].ICML97,1997:170-178.</p><p>  [

40、10] Buckley C.Implementation of the SMART information retrieval system[R].New York:Cornell University, 1985.</p><p>  [11] 李樹青,韓忠愿.個性化搜索引擎原理與技術[M].北京:科學出版社,2008.</p><p>  [12] 夏迎炬.文本過濾關鍵技術研究[

41、D].上海:復旦大學,2003.</p><p>  [13] 林冬雪.基于改進向量空間模型的網(wǎng)絡信息檢索技術研究[D].四川:重慶大學,2005.</p><p>  [14] Fung G,Mangasarian O L.Incremental support vector machine classification[C].Proceedings of the Second SI

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論