文章詳情頁

用sleep間隔進(jìn)行python反爬蟲的實例講解

瀏覽：5日期：2022-07-03 16:14:27

在找尋材料的時候，會看到一些暫時用不到但是內(nèi)容不錯的網(wǎng)頁，就這樣關(guān)閉未免浪費掉了，下次也不一定能再次搜索到。有些小伙伴會提出可以保存網(wǎng)頁鏈接，但這種基本的做法并不能在網(wǎng)頁打不開后還能看到內(nèi)容。我們完全可以用爬蟲獲取這方面的數(shù)據(jù)，不過操作過程中會遇到一些阻攔，今天小編就教大家用sleep間隔進(jìn)行python反爬蟲，這樣就可以得到我們想到的數(shù)據(jù)啦。

步驟

要利用headers拉動請求，模擬成瀏覽器去訪問網(wǎng)站，跳過最簡單的反爬蟲機(jī)制。

獲取網(wǎng)頁內(nèi)容，保存在一個字符串content中。

構(gòu)造正則表達(dá)式，從content中匹配關(guān)鍵詞pattern獲取下載鏈接。需要注意的是，網(wǎng)頁中的關(guān)鍵詞出現(xiàn)了兩遍（如下圖），所以我們要利用set()函數(shù)清除重復(fù)元素。

第三步是遍歷set之后的結(jié)果，下載鏈接。

設(shè)置time.sleep(t)，無sleep間隔的話，網(wǎng)站認(rèn)定這種行為是攻擊，所以我們隔一段時間下載一個，反反爬蟲。

具體代碼

import urllib.request# url requestimport re # regular expressionimport os # dirsimport time’’’url 下載網(wǎng)址pattern 正則化的匹配關(guān)鍵詞Directory 下載目錄def BatchDownload(url,pattern,Directory): # 拉動請求，模擬成瀏覽器去訪問網(wǎng)站->跳過反爬蟲機(jī)制 headers = {’User-Agent’, ’Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36’} opener = urllib.request.build_opener() opener.addheaders = [headers] # 獲取網(wǎng)頁內(nèi)容 content = opener.open(url).read().decode(’utf8’) # 構(gòu)造正則表達(dá)式，從content中匹配關(guān)鍵詞pattern raw_hrefs = re.findall(pattern, content, 0) # set函數(shù)消除重復(fù)元素 hset = set(raw_hrefs) # 下載鏈接 for href in hset: # 之所以if else 是為了區(qū)別只有一個鏈接的特別情況 if(len(hset)>1): link = url + href[0] filename = os.path.join(Directory, href[0]) print('正在下載',filename) urllib.request.urlretrieve(link, filename) print('成功下載！') else: link = url +href filename = os.path.join(Directory, href) # 無sleep間隔，網(wǎng)站認(rèn)定這種行為是攻擊，反反爬蟲 time.sleep(1) #BatchDownload(’https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/’,# ’(Storm-Data-Export-Format.docx)’,# ’E:stormeventscsvfiles’) # ’(Storm-Data-Export-Format.pdf)’,# ’(StormEvents_details-ftp_v1.0_d(d*)_c(d*).csv.gz)’,# ’(StormEvents_fatalities-ftp_v1.0_d(d*)_c(d*).csv.gz)’,# ’(StormEvents_locations-ftp_v1.0_d(d*)_c(d*).csv.gz)’,#BatchDownload(’https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/legacy/’,# ’(ugc_areas.csv)’,# ’E:stormeventscsvfileslegacy’)結(jié)果展示

為了讓大家能夠清楚的知道整個反爬過程，這里小編把思路和代碼都羅列了出來。其中可以time.sleep(t)解除網(wǎng)站對于爬蟲的阻攔問題，著重標(biāo)記了出來

用sleep間隔進(jìn)行python反爬蟲的實例講解

到此這篇關(guān)于用sleep間隔進(jìn)行python反爬蟲的實例講解的文章就介紹到這了,更多相關(guān)如何使用sleep間隔進(jìn)行python反爬蟲內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：Python命令行參數(shù)定義及需要注意的地方下一條：Python基于Faker假數(shù)據(jù)構(gòu)造庫

相關(guān)文章：

1. Android打包篇:Android Studio將代碼打包成jar包教程2. Python使用urlretrieve實現(xiàn)直接遠(yuǎn)程下載圖片的示例代碼3. SpringBoot+TestNG單元測試的實現(xiàn)4. Springboot 全局日期格式化處理的實現(xiàn)5. vue實現(xiàn)web在線聊天功能6. 解決Android Studio 格式化 Format代碼快捷鍵問題7. 完美解決vue 中多個echarts圖表自適應(yīng)的問題8. JavaScript實現(xiàn)頁面動態(tài)驗證碼的實現(xiàn)示例9. Java使用Tesseract-Ocr識別數(shù)字10. JavaEE SpringMyBatis是什么? 它和Hibernate的區(qū)別及如何配置MyBatis

排行榜

					
					完美解決vue 中多個echarts圖表自適應(yīng)的問題
FreeBSD 獲得了Java re-distribution license
Springboot 全局日期格式化處理的實現(xiàn)
JavaScript實現(xiàn)頁面動態(tài)驗證碼的實現(xiàn)示例
Eclipse集成 Lomboz和JBoss開發(fā)J2EE
在Chrome DevTools中調(diào)試JavaScript的實現(xiàn)
Java使用Tesseract-Ocr識別數(shù)字
vue實現(xiàn)web在線聊天功能
JS原生2048小游戲源碼分享(全網(wǎng)最新)
Java 短路運算符和非短路運算符
Python使用urlretrieve實現(xiàn)直接遠(yuǎn)程下載圖片的示例代碼