国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術(shù)文章
文章詳情頁

淺析python 通⽤爬⾍和聚焦爬⾍

瀏覽:2日期:2022-07-09 16:33:32

一、爬蟲的簡單理解

1. 什么是爬蟲?

網(wǎng)絡爬蟲也叫網(wǎng)絡蜘蛛,如果把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么蜘蛛就是在網(wǎng)上爬來爬去的蜘蛛,爬蟲程序通過請求url地址,根據(jù)響應的內(nèi)容進行解析采集數(shù)據(jù), 比如:如果響應內(nèi)容是html,分析dom結(jié)構(gòu),進行dom解析、或者正則匹配,如果響應內(nèi)容是xml/json數(shù)據(jù),就可以轉(zhuǎn)數(shù)據(jù)對象,然后對數(shù)據(jù)進行解析。

2. 爬蟲有什么作用?

通過有效的爬蟲手段批量采集數(shù)據(jù),可以降低人工成本,提高有效數(shù)據(jù)量,給予運營/銷售的數(shù)據(jù)支撐,加快產(chǎn)品發(fā)展。

3. 爬蟲業(yè)界的情況

目前互聯(lián)網(wǎng)產(chǎn)品競爭激烈,業(yè)界大部分都會使用爬蟲技術(shù)對競品產(chǎn)品的數(shù)據(jù)進行挖掘、采集、大數(shù)據(jù)分析,這是必備手段,并且很多公司都設立了爬蟲工程師的崗位。

4. 合法性

爬蟲是利用程序進行批量爬取網(wǎng)頁上的公開信息,也就是前端顯示的數(shù)據(jù)信息。因為信息是完全公開的,所以是合法的。其實就像瀏覽器一樣,瀏覽器解析響應內(nèi)容并渲染為頁面,而爬蟲解析響應內(nèi)容采集想要的數(shù)據(jù)進行存儲。

5. 反爬蟲

爬蟲很難完全的制止,道高一尺魔高一丈,這是一場沒有硝煙的戰(zhàn)爭,碼農(nóng)VS碼農(nóng)

反爬蟲一些手段:

合法檢測:請求校驗(useragent,referer,接口加簽名,等) 小黑屋:IP/用戶限制請求頻率,或者直接攔截 投毒:反爬蟲高境界可以不用攔截,攔截是一時的,投毒返回虛假數(shù)據(jù),可以誤導競品決策

二、通用爬蟲

根據(jù)使⽤場景,⽹絡爬⾍可分為 通⽤爬⾍ 和 聚焦爬⾍ 兩種.。

1、通⽤爬⾍

通⽤⽹絡爬⾍是?人饕?媯?aidu、Google、Yahoo)抓取系統(tǒng)的重要組成部分。主要⽬的是將互聯(lián)⽹上的⽹⻚下載到本地,形成⼀個互聯(lián)⽹內(nèi)容的鏡像備份。

⽹絡爬⾍的基本⼯作流程如下:

⾸先選取⼀部分精⼼挑選的種⼦URL; 將這些 URL 放⼊待抓取 URL 隊列; 從待抓取 URL 隊列中取出待抓取在 URL,解析 DNS,并且得到主機的 ip,并將 URL 對應的⽹⻚下載下來,存儲進已下載⽹⻚庫中。此外,將 這些 URL 放進已抓取 URL 隊列。 分析已抓取 URL 隊列中的 URL,分析其中的其他 URL,并且將 URL放⼊ 待抓取 URL 隊列,從⽽進⼊下⼀個循環(huán)....

淺析python 通⽤爬⾍和聚焦爬⾍

2、通⽤搜索引擎(Search Engine)⼯作原理

隨著⽹絡的迅速發(fā)展,萬維⽹成為⼤量信息的載體,如何有效地提取并利⽤這些信息成為⼀個巨⼤的挑戰(zhàn),通常⽤戶會通過搜索引擎(Yahoo,Google,百度等),來作為訪問萬維⽹的⼊⼝。

⽽ 通⽤⽹絡爬⾍ 是搜索引擎系統(tǒng)中⼗分重要的組成部分,它負責從互聯(lián)⽹中搜集⽹⻚,采集信息,這些⽹⻚信息⽤于為搜索引擎建⽴索引從⽽提供⽀持,它決定著整個引擎系統(tǒng)的內(nèi)容是否豐富,信息是否即時,因此其性能的優(yōu)劣直接影響著搜索引擎的效果。

淺析python 通⽤爬⾍和聚焦爬⾍

第⼀步:抓取⽹⻚

搜索引擎通過⼀種有特定規(guī)律的軟件,來跟蹤⽹⻚的鏈接,從⼀個鏈接爬到另外⼀個鏈接,像蜘蛛在蜘蛛⽹上爬⾏⼀樣,所以被稱為“蜘蛛”也被稱為“機器⼈”。

但是搜索引擎蜘蛛的爬⾏是被輸⼊了⼀定的規(guī)則的,它需要遵從⼀些命令或⽂件的內(nèi)容。Robots 協(xié)議(也稱為爬⾍協(xié)議、機器⼈協(xié)議等)的全稱是“⽹絡爬⾍排除標準”(Robots Exclusion Protocol),⽹站通過 Robots 協(xié)議告訴搜索引擎哪些⻚⾯可以抓取,哪些⻚⾯不能抓取

https://www.taobao.com/robots...http://www.qq.com/robots.txt

robots.txt 只是約定,爬⾍遵守或者不遵守完全在于爬⾍作者的意愿。舉個例⼦,公交⻋上貼著「請為⽼弱病殘孕讓座」,但是⼤部分⼈并不⻅得會遵守。⼀般來講,只有⼤的搜索引擎爬⾍會遵守你⽹站的 robots.txt 協(xié)議,其它的爬⾍基本都不會看⼀眼你的 robots.txt 寫的是什么。

第⼆步:數(shù)據(jù)存儲

搜索引擎是通過蜘蛛跟蹤鏈接爬⾏到⽹⻚,并將爬⾏的數(shù)據(jù)存⼊原始⻚⾯數(shù)據(jù)庫。其中的⻚⾯數(shù)據(jù)與⽤戶瀏覽器得到的 HTML 是完全⼀樣的。搜索引擎蜘蛛在抓取⻚⾯時,也做⼀定的重復內(nèi)容檢測,⼀旦遇到權(quán)重很低的⽹站上有⼤量抄襲、采集或者復制的內(nèi)容,很可能就不再爬⾏。

第三步:預處理

搜索引擎將蜘蛛抓取回來的⻚⾯,進⾏各種步驟的預處理。

提取⽂字 中⽂分詞 去停⽌ 詞 消除噪⾳(搜索引擎需要識別并消除這些噪聲,⽐如版權(quán)聲明⽂字、導 航條、⼴告等……) 正向索引 倒排索 引鏈接關(guān)系計算 特殊⽂件處理 ....

除了 HTML⽂件外,搜索引擎通常還能抓取和索引以⽂字為基礎的多種⽂件類型,如 PDF、Word、WPS、XLS、PPT、TXT ⽂件等。我們在搜索結(jié)果中也經(jīng)常會看到這些⽂件類型。

但搜索引擎還不能處理圖⽚、視頻、Flash 這類⾮⽂字內(nèi)容,也不能執(zhí)⾏腳本和程序。

第四步:排名,提供檢索服務搜索引擎是根據(jù)⼀定的策略、運⽤特定的計算機程序從互聯(lián)⽹上搜集信息,在對信息進⾏組織和處理后,為⽤戶提供檢索服務,將⽤戶檢索相關(guān)的信息展示給⽤戶的系統(tǒng)。

但是,這些通⽤性搜索引擎也存在著⼀定的局限性:

不同領(lǐng)域、不同背景的⽤戶往往具有不同的檢索⽬的和需求,通⽤搜索引擎所返回的結(jié)果包含⼤量⽤戶不關(guān)⼼的⽹⻚。 通⽤搜索引擎的⽬標是盡可能⼤的⽹絡覆蓋率,有限的搜索引擎服務器資源與⽆限的⽹絡數(shù)據(jù)資源之間的⽭盾將進⼀步加深。 萬維⽹數(shù)據(jù)形式的豐富和⽹絡技術(shù)的不斷發(fā)展,圖⽚、數(shù)據(jù)庫、⾳頻、視頻多媒體等不同數(shù)據(jù)⼤量出現(xiàn),通⽤搜索引擎往往對這些信息含量密集且具有⼀定結(jié)構(gòu)的數(shù)據(jù)⽆能為⼒,不能很好地發(fā)現(xiàn)和獲取。 通⽤搜索引擎⼤多提供基于關(guān)鍵字的檢索,難以⽀持根據(jù)語義信息提出的查詢。

三、聚焦爬⾍(Focused Crawler)

聚焦爬⾍,⼜稱主題爬⾍(或?qū)I(yè)爬⾍),是“⾯向特定主題”的⼀種⽹絡爬⾍程序。它與我們通常所說的爬⾍(通⽤爬⾍)的區(qū)別之處就在于,聚焦爬⾍在實施⽹⻚抓取時要進⾏主題篩選。它盡量保證只抓取與主題相關(guān)的⽹⻚信息。 聚焦⽹絡爬⾍并不追求⼤的覆蓋,⽽將⽬標定為抓取與某⼀特定主題內(nèi)容相關(guān)的⽹⻚,為⾯向主題的⽤戶查詢準備數(shù)據(jù)資源。 聚焦爬⾍的⼯作流程較為復雜,需要根據(jù)⼀定的⽹⻚分析算法過濾與主題⽆關(guān)的鏈接,保留有⽤的鏈接并將其放⼊等待抓取的 URL 隊列。然后,它將根據(jù)⼀定的搜索策略從隊列中選擇下⼀步要抓取的⽹⻚URL,并重復上述過程,直到達到系統(tǒng)的某⼀條件時停⽌。 另外,所有被爬⾍抓取的⽹⻚將會被系統(tǒng)存貯,進⾏⼀定的分析、過濾,并建⽴索引,以便之后的查詢和檢索;對于聚焦爬⾍來說,這⼀過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導。

以上就是淺析python 通⽤爬⾍和聚焦爬⾍的詳細內(nèi)容,更多關(guān)于python 爬蟲的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章!

標簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 亚洲国产欧美91 | 一级片免费网址 | 久久精品亚洲综合一品 | 成人午夜免费在线观看 | 国产三级毛片视频 | 色丁香久久 | 在线国产毛片 | avav在线看 | 日本免费www | 亚洲国产一成人久久精品 | 国产视频久久久久 | 狠狠色狠狠色综合久久第一次 | 日韩在线观看视频免费 | 中文在线免费视频 | 天天舔夜夜操 | 久久88| 美女黄色毛片免费看 | 久久毛片免费看 | 一级a性色生活片久久毛片 一级a做爰片欧欧美毛片4 | 亚洲三级网站 | 亚洲精品一区二区久久 | 美女免费黄网站 | 国内成人免费视频 | 明星国产欧美日韩在线观看 | 亚洲夜| 色综合a怡红院怡红院首页 色综合精品久久久久久久 色综合九九 | 日韩美女免费视频 | 精品在线一区二区三区 | 国产成人无精品久久久久国语 | 国产亚洲精品午夜高清影院 | 亚洲午夜久久 | 草久久久久 | 伊人久久网站 | 九九热国产精品视频 | 欧美黄成人免费网站大全 | 日韩手机看片福利精品 | 国产美女做爰免费视频网址 | 2022国产精品手机在线观看 | 免费欧美一级片 | 欧美成人中文字幕 | 91九色首页 |