国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

python爬蟲如何批量爬取糗事百科段子

瀏覽:139日期:2022-09-18 13:30:16

問題描述

剛學Python不會scrapy框架,就是想做個簡單爬蟲實現抓取前10頁段子(前N頁)。請問不用scrapy能有什么簡單一些的代碼能實現?之前有試過在page那里加for循環,但是也只能抓到一個頁面,不知道怎么弄。

import urllibimport urllib2import repage = 1url = ’http://www.qiushibaike.com/8hr/page/’ + str(page)user_agent = ’Mozilla/5.0 ( Windows NT 6.1)’headers = { ’User-Agent’ : user_agent }try: request = urllib2.Request(url,headers = headers) response = urllib2.urlopen(request) content = response.read().decode(’utf-8’) pattern = re.compile(’<p.*?class='content'>.*?<span>(.*?)</span>.*?</p>.*?’,re.S) items = re.findall(pattern,content) for item in items:print itemexcept urllib2.URLError, e: if hasattr(e,'code'):print e.code if hasattr(e,'reason'):print e.reason

問題解答

回答1:

我跑了一下你的代碼,發現能跑出前2個頁面,后面都返回了一個錯誤碼,我覺得是因為你沒做防反爬處理,因為你這個結果在一秒內就跑出來了,一秒內連續10次訪問肯定不是人能做到的。

很多網站都能知道你這是用代碼在刷他們的網站,有些網站很討厭這個,會做反爬處理,可能直接把你的 IP 都給封了,讓你沒法訪問,因為如果不這樣做,短時間內直接訪問太多次的話可能會把人家的網站都弄癱瘓了。

我的建議是每爬完一個頁面等待1秒,修改了下你的代碼:

import urllibimport urllib2import reimport timefor page in range(1, 11): print(’at page %s’ % page) url = ’http://www.qiushibaike.com/8hr/page/’ + str(page) user_agent = ’Mozilla/5.0 ( Windows NT 6.1)’ headers = { ’User-Agent’ : user_agent } try:request = urllib2.Request(url,headers = headers)response = urllib2.urlopen(request)content = response.read().decode(’utf-8’)pattern = re.compile(’<p.*?class='content'>.*?<span>(.*?)</span>.*?</p>.*?’,re.S)items = re.findall(pattern,content)for item in items: print item except urllib2.URLError, e:if hasattr(e,'code'): print e.codeif hasattr(e,'reason'): print e.reasontime.sleep(1)

我這邊是能出結果的,不過我想向你推薦另一個第三方的庫,叫 requests,既然你會 urllib,這也就不難,但是使用起來更人性化,配合 BeatuifulSoup 庫(用來解析和處理 HTML 文本的)很方便,你也可以去網上搜一下,了解一下。

還有就是以后做爬蟲一定要注意做防反爬處理!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 18videosex性欧美69超高清 | 欧美日本一区二区 | 亚洲高清中文字幕一区二区三区 | 亚洲国产第一区二区香蕉日日 | 国产片91 | 成人午夜大片 | 伊人色综合7777 | 越南高清幻女bbwxxxx | 18免费视频| 久久一日本道色综合久久m 久久伊人成人网 | 日本网址在线观看 | 欧美成人欧美激情欧美风情 | 美女亚洲综合 | 亚洲国产精品久久 | 正在播放国产乱子伦视频 | 国产三级精品三级国产 | 韩国精品一区视频在线播放 | 手机看片国产在线 | 大香伊蕉国产短视频69 | 亚洲高清在线观看播放 | 久久精品国产亚洲高清 | 亚洲 欧美 激情 另类 自拍 | 亚洲一区日韩一区欧美一区a | 97青青草原国产免费观看 | 国产亚洲欧美日韩在线观看一区二区 | 免费嗨片 | 黄毛片一级毛片 | 成人做爰在线视频 | 天天做天天爱夜夜大爽完整 | 成人做爰视频www网站 | 亚洲美女黄色片 | 国产美女精品视频免费观看 | 九草在线视频 | 99精品视频在线 | 国产思思 | 欧美黄色一级视屏 | 国产成人精品久久亚洲高清不卡 | 99视频在线观看免费视频 | 久久免费视频6 | 欧美一级毛片俄罗斯 | 夜鲁夜鲁夜鲁在线观看福利 |