

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、近年來(lái),隨著互聯(lián)網(wǎng)的飛速發(fā)展,微博作為一種方便快捷的交流工具越來(lái)越受到廣大用戶的喜愛。微博的即時(shí)通訊功能使得微博信息能夠迅速的擴(kuò)散,這些信息不但有很強(qiáng)的社會(huì)影響力,而且蘊(yùn)含了價(jià)值很高的信息。但是,微博的裂變性、自主性等特點(diǎn)使得文本信息量呈現(xiàn)爆發(fā)式增長(zhǎng),從而導(dǎo)致用戶瀏覽的文本信息太多、太分散。因此,幫助人們從海量的微博信息中迅速發(fā)現(xiàn)有價(jià)值的信息,及時(shí)了解自己感興趣的話題及其發(fā)展趨勢(shì),具有十分重要的現(xiàn)實(shí)意義和研究?jī)r(jià)值?;诖?,本文主要在以下
2、三大方面進(jìn)行了研究:
?。?)本文首先對(duì)微博的相關(guān)概念和微博信息采集常用的兩種技術(shù)進(jìn)行介紹,通過(guò)分析基于網(wǎng)絡(luò)爬蟲的信息采集和基于API的微博數(shù)據(jù)信息采集的各自優(yōu)缺點(diǎn),考慮到研究對(duì)象主要是微博文本的話題檢測(cè),在研究過(guò)程中經(jīng)過(guò)對(duì)各個(gè)因素的綜合考量,最終選取后者來(lái)進(jìn)行微博信息的采集工作。
(2)本文在分析話題檢測(cè)整體工作過(guò)程的基礎(chǔ)上,首先通過(guò)數(shù)據(jù)預(yù)處理,過(guò)濾掉微博中大量的垃圾信息;其次通過(guò)文本表示、特征提取和特征項(xiàng)權(quán)重的計(jì)算
3、等對(duì)微博文本進(jìn)行建模,進(jìn)而對(duì)建模后生成的文本向量計(jì)算相似度;再次為了引入改進(jìn)的Single-Pass聚類算法,本文先簡(jiǎn)要敘述了四種常用的文本聚類算法,通過(guò)分析比較各自存在的優(yōu)缺點(diǎn),對(duì)各算法進(jìn)行綜合考量來(lái)確定本文所使用的聚類方法;最后利用召回率、誤檢率這兩個(gè)常用的話題檢測(cè)評(píng)價(jià)指標(biāo)來(lái)測(cè)試改進(jìn)的Single-Pass聚類算法的性能。
?。?)本文采用改進(jìn)的Single-Pass聚類算法進(jìn)行話題檢測(cè)并應(yīng)用到微博話題檢測(cè)系統(tǒng)當(dāng)中,顯示結(jié)果
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于改進(jìn)Single-Pass算法的熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 文本聚類及其在話題檢測(cè)中的應(yīng)用研究.pdf
- 一種聚類算法的并行化改進(jìn)及其在微博用戶聚類中的應(yīng)用.pdf
- 改進(jìn)的SOM算法及其在文本聚類中的應(yīng)用研究.pdf
- 改進(jìn)的模糊聚類算法在入侵檢測(cè)中的應(yīng)用研究.pdf
- 聚類算法及其在頁(yè)面聚類中的應(yīng)用研究
- 中文微博文本聚類與話題檢測(cè)的研究.pdf
- 聚類算法及其在頁(yè)面聚類中的應(yīng)用研究.pdf
- 改進(jìn)的聚類算法在入侵檢測(cè)中的應(yīng)用.pdf
- 基于lda的微博話題聚類研究
- 改進(jìn)的譜聚類算法及其在圖像分割中的應(yīng)用研究.pdf
- SOM聚類算法的改進(jìn)及其在文本挖掘中的應(yīng)用研究.pdf
- 面向微博話題的粒子群優(yōu)化聚類算法研究.pdf
- 基于LDA的微博話題聚類研究.pdf
- 改進(jìn)的粒子群算法及其在聚類算法中的應(yīng)用.pdf
- 聚類算法在入侵檢測(cè)系統(tǒng)中的應(yīng)用研究.pdf
- Affinity Propagation聚類算法的改進(jìn)及其應(yīng)用研究.pdf
- 基于密度的聚類算法及在新聞話題發(fā)現(xiàn)中的應(yīng)用研究.pdf
- 改進(jìn)的模糊聚類算法及其在電信欠費(fèi)數(shù)據(jù)中的應(yīng)用研究.pdf
- 流聚類技術(shù)在微博中的應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論