

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、網(wǎng)絡(luò)爬蟲文檔一、爬蟲基本知識(shí)1、傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁(yè)的URL開始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列直到滿足系統(tǒng)的一定停止條件。2、聚焦爬蟲聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復(fù)上述過(guò)程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。3、傳統(tǒng)爬
2、蟲的局限性(1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè)。(2)通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無(wú)限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。(3)萬(wàn)維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫(kù)、音頻視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對(duì)這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無(wú)能為力,不能很好地發(fā)現(xiàn)和獲取。(4)通用搜索引
3、擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語(yǔ)義信息提出的查詢。4、聚焦爬蟲解決的三個(gè)主要問(wèn)題(1)對(duì)抓取目標(biāo)的描述或定義;①基于目標(biāo)網(wǎng)頁(yè)特征基于目標(biāo)網(wǎng)頁(yè)特征的爬蟲所抓取、存儲(chǔ)并索引的對(duì)象一般為網(wǎng)站或網(wǎng)頁(yè)。具體的和出度(從此網(wǎng)頁(yè)指向別的網(wǎng)頁(yè))來(lái)衡量網(wǎng)頁(yè)的重要性。其最直觀的意義是如果一個(gè)網(wǎng)頁(yè)的重要性很高,則他所指向的網(wǎng)頁(yè)的重要性也高。一個(gè)重要的網(wǎng)頁(yè)被另一個(gè)網(wǎng)頁(yè)所指,則表明指向它的網(wǎng)頁(yè)重要性也會(huì)高。指向別的網(wǎng)頁(yè)定義為Hub值被指向定義為Aut
4、hity值。通常HITS算法是作用在一定范圍的,比如一個(gè)以程序開發(fā)為主題網(wǎng)頁(yè),指向另一個(gè)以程序開發(fā)為主題的網(wǎng)頁(yè),則另一個(gè)網(wǎng)頁(yè)的重要性就可能比較高,但是指向另一個(gè)購(gòu)物類的網(wǎng)頁(yè)則不一定。在限定范圍之后根據(jù)網(wǎng)頁(yè)的出度和入度建立一個(gè)矩陣,通過(guò)矩陣的迭代運(yùn)算和定義收斂的閾值不斷對(duì)兩個(gè)向量Authity和Hub值進(jìn)行更新直至收斂。②基于網(wǎng)頁(yè)內(nèi)容基于網(wǎng)頁(yè)內(nèi)容的分析算法指的是利用網(wǎng)頁(yè)內(nèi)容(文本、數(shù)據(jù)等資源)特征進(jìn)行的網(wǎng)頁(yè)評(píng)價(jià)。網(wǎng)頁(yè)的內(nèi)容從原來(lái)的以超文本
5、為主,發(fā)展到后來(lái)動(dòng)態(tài)頁(yè)面(或稱為HiddenWeb)數(shù)據(jù)為主,后者的數(shù)據(jù)量約為直接可見(jiàn)頁(yè)面數(shù)據(jù)(PIW,PubliclyIndexableWeb)的400~500倍。另一方面,多媒體數(shù)據(jù)、WebService等各種網(wǎng)絡(luò)資源形式也日益豐富。因此,基于網(wǎng)頁(yè)內(nèi)容的分析算法也從原來(lái)的較為單純的文本檢索方法,發(fā)展為涵蓋網(wǎng)頁(yè)數(shù)據(jù)抽取、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、語(yǔ)義理解等多種方法的綜合應(yīng)用。本節(jié)根據(jù)網(wǎng)頁(yè)數(shù)據(jù)形式的不同,將基于網(wǎng)頁(yè)內(nèi)容的分析算法,歸納以下三類
6、:第一種針對(duì)以文本和超鏈接為主的無(wú)結(jié)構(gòu)或結(jié)構(gòu)很簡(jiǎn)單的網(wǎng)頁(yè);第二種針對(duì)從結(jié)構(gòu)化的數(shù)據(jù)源(如RDBMS)動(dòng)態(tài)生成的頁(yè)面,其數(shù)據(jù)不能直接批量訪問(wèn);第三種針對(duì)的數(shù)據(jù)界于第一和第二類數(shù)據(jù)之間,具有較好的結(jié)構(gòu),顯示遵循一定模式或風(fēng)格,且可以直接訪問(wèn)。③基于用戶訪問(wèn)行為(3)對(duì)URL的搜索策略。①?gòu)V度優(yōu)先搜索策略廣度優(yōu)先搜索策略是指在抓取過(guò)程中,在完成當(dāng)前層次的搜索后,才進(jìn)行下一層次的搜索。該算法的設(shè)計(jì)和實(shí)現(xiàn)相對(duì)簡(jiǎn)單。在目前為覆蓋盡可能多的網(wǎng)頁(yè),一
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 網(wǎng)絡(luò)爬蟲
- 網(wǎng)絡(luò)蜘蛛,網(wǎng)絡(luò)爬蟲
- 網(wǎng)絡(luò)爬蟲詳解
- 網(wǎng)絡(luò)爬蟲外文翻譯---基于網(wǎng)絡(luò)爬蟲的有效url緩存
- 網(wǎng)絡(luò)爬蟲技術(shù)淺析
- 網(wǎng)絡(luò)爬蟲源代碼
- 網(wǎng)絡(luò)爬蟲技術(shù)分析
- 網(wǎng)絡(luò)爬蟲源代碼07236
- python網(wǎng)絡(luò)爬蟲實(shí)習(xí)報(bào)告
- 網(wǎng)絡(luò)爬蟲源代碼07320
- 網(wǎng)絡(luò)爬蟲java實(shí)現(xiàn)原理
- python網(wǎng)絡(luò)爬蟲實(shí)習(xí)報(bào)告
- 用python編寫網(wǎng)絡(luò)爬蟲
- 網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)
- 基于Python 的網(wǎng)絡(luò)爬蟲.docx
- 簡(jiǎn)易網(wǎng)絡(luò)爬蟲程序的開發(fā)
- 研究面向服務(wù)的網(wǎng)絡(luò)爬蟲系統(tǒng)——網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)和構(gòu)建---畢業(yè)論文
- 研究面向服務(wù)的網(wǎng)絡(luò)爬蟲系統(tǒng)——網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)和構(gòu)建---畢業(yè)論文
- 畢業(yè)論文外文翻譯-網(wǎng)絡(luò)爬蟲
- 惡意網(wǎng)頁(yè) 高交互 網(wǎng)絡(luò)爬蟲 rootkit
評(píng)論
0/150
提交評(píng)論