企業(yè)技術需求文本分類器的設計與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、我國的中小型企業(yè)量大面廣,對我國經(jīng)濟發(fā)展有重要貢獻,但員工技術水平低、缺乏創(chuàng)新能力等問題導致中小型企業(yè)壽命普遍較低。而我國高校中的一些先進的研究成果也沒有得到實際應用,產(chǎn)生相應的社會效益。針對此現(xiàn)象,實驗室成員計劃通過建立以促進校企合作為主題的網(wǎng)絡平臺,使企業(yè)能得到相關領域專家的技術支持。本課題中將以企業(yè)提出的技術需求文本為分類對象設計并實現(xiàn)一個文本分類器,將企業(yè)技術需求劃分到工科一級學科的類別下,作為此網(wǎng)絡平臺推薦功能的依據(jù)因素之一。

2、
  文本分類作為自然語言處理領域的重要技術,逐漸成為人們的重點研究對象。目前,文本分類的相關技術已取得大量顯著的研究成果,但多數(shù)是針對中文分詞技術以及分類算法的研究與改進,對特征提取技術的研究偏少。因此,本文將特征提取算法作為主要的研究點,提出了兩種改進的基于LDA的特征提取算法,旨在降低空間向量的維數(shù)的同時能獲取更優(yōu)的分類效果。
  本課題的研究背景較特殊,現(xiàn)有的文本分類器以及分類語料庫(數(shù)據(jù)集)都不滿足上述應用條件,這

3、對于本課題而言,是巨大的挑戰(zhàn)。本文的主要工作如下:
  (1)通過網(wǎng)絡爬蟲獲取萬方數(shù)據(jù)庫的論文摘要,構建出符合課題背景中分類體系的分類實驗語料庫。文中也使用標準的分類實驗語料庫(搜狗新聞語料庫)和自建語料庫對比實驗并分析實驗結果,以驗證本文提出的改進的基于LDA的特征提取算法的通用性。
  (2)使用中科院分詞系統(tǒng)ICTCLAS分詞系統(tǒng)和結巴分詞對語料庫中文本進行分詞對比實驗,根據(jù)分詞結果的分詞粒度大小選擇出結巴分詞完成文本

4、的分詞處理,并對分詞性能進行測試。
  (3)為使文本分類器取得較優(yōu)的分類效果,將LDA主題模型應用到文本分類的特征提取階段,并提出了兩種新的基于LDA主題模型的特征選擇方法(即LDA_SD和LDA_WORD)。同時,也實現(xiàn)兩種傳統(tǒng)的特征選擇方法MI和DF,和上述三種較為新穎的特征選擇方法進行對比分析實驗。
  (4)本文中對比測試了KNN、NB和SVM三種分類算法基于不同特征提取方法結果的分類效果,選擇具有最優(yōu)分類效果的分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論