文章詳情頁

python爬蟲如何批量爬取糗事百科段子

瀏覽：139日期：2022-09-18 13:30:16

問題描述

剛學Python不會scrapy框架，就是想做個簡單爬蟲實現抓取前10頁段子（前N頁）。請問不用scrapy能有什么簡單一些的代碼能實現？之前有試過在page那里加for循環，但是也只能抓到一個頁面，不知道怎么弄。

import urllibimport urllib2import repage = 1url = ’http://www.qiushibaike.com/8hr/page/’ + str(page)user_agent = ’Mozilla/5.0 ( Windows NT 6.1)’headers = { ’User-Agent’ : user_agent }try: request = urllib2.Request(url,headers = headers) response = urllib2.urlopen(request) content = response.read().decode(’utf-8’) pattern = re.compile(’<p.*?class='content'>.*?(.*?).*?.*?’,re.S) items = re.findall(pattern,content) for item in items:print itemexcept urllib2.URLError, e: if hasattr(e,'code'):print e.code if hasattr(e,'reason'):print e.reason

問題解答

回答1：

我跑了一下你的代碼，發現能跑出前2個頁面，后面都返回了一個錯誤碼，我覺得是因為你沒做防反爬處理，因為你這個結果在一秒內就跑出來了，一秒內連續10次訪問肯定不是人能做到的。

很多網站都能知道你這是用代碼在刷他們的網站，有些網站很討厭這個，會做反爬處理，可能直接把你的 IP 都給封了，讓你沒法訪問，因為如果不這樣做，短時間內直接訪問太多次的話可能會把人家的網站都弄癱瘓了。

我的建議是每爬完一個頁面等待1秒，修改了下你的代碼：

import urllibimport urllib2import reimport timefor page in range(1, 11): print(’at page %s’ % page) url = ’http://www.qiushibaike.com/8hr/page/’ + str(page) user_agent = ’Mozilla/5.0 ( Windows NT 6.1)’ headers = { ’User-Agent’ : user_agent } try:request = urllib2.Request(url,headers = headers)response = urllib2.urlopen(request)content = response.read().decode(’utf-8’)pattern = re.compile(’<p.*?class='content'>.*?(.*?).*?.*?’,re.S)items = re.findall(pattern,content)for item in items: print item except urllib2.URLError, e:if hasattr(e,'code'): print e.codeif hasattr(e,'reason'): print e.reasontime.sleep(1)

我這邊是能出結果的，不過我想向你推薦另一個第三方的庫，叫 requests，既然你會 urllib，這也就不難，但是使用起來更人性化，配合 BeatuifulSoup 庫(用來解析和處理 HTML 文本的)很方便，你也可以去網上搜一下，了解一下。

還有就是以后做爬蟲一定要注意做防反爬處理！

Python 編程

上一條：網絡爬蟲 - python sys 模塊設置編碼老是報錯下一條：mysql - python開發web service 中數據庫鏈接和釋放應該怎么處理？

相關文章：

1. php - 請問大批量數據處理，如何分割？2. html5和Flash對抗是什么情況？3. MySQL主鍵沖突時的更新操作和替換操作在功能上有什么差別(如圖)4. javascript - vue過渡效果 css過渡類名的先后順序5. css右浮動字的順序顛倒了6. 數據庫 - Mysql的存儲過程真的是個坑！求助下面的存儲過程哪里錯啦，實在是找不到哪里的問題了。7. ios - 類似微博首頁，一張圖的時候是如何確定圖大小的？8. javascript - vuejs+elementui 購物車價格計算，點擊加減號修改數量總價都不會改變，但是計算執行了9. javascript - 如何使用loadash對[object,object,object]形式的數組進行比較10. javascript - 我是做web前端的，公司最近有一個項目關于數據統計的！

排行榜

					
					javascript - vue過渡效果 css過渡 類名的先后順序
android - 有數據要處理的時候如何使用rxJava進行異步處理數據
javascript - 在ie下為什么會出現這種情況呢 《 無法獲取未定義或 null 引用的屬性“length”》 ？請大神指教。
docker容器呢SSH為什么連不通呢？
docker網絡端口映射，沒有方便點的操作方法么？
docker api 開發的端口怎么獲取？
dockerfile - 為什么docker容器啟動不了？
docker不顯示端口映射呢？
dockerfile - 我用docker build的時候出現下邊問題  麻煩幫我看一下
html5和Flash對抗是什么情況？
android - 哪位大神知道java后臺的api接口的對象傳到前端后輸入日期報錯，是什么情況？求大神指點
				

熱門標簽

国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

python爬蟲如何批量爬取糗事百科段子