国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取?

瀏覽:95日期:2022-09-03 13:50:21

問題描述

用Python27些爬蟲,想要爬取一些網站,我需要判斷網頁是否可以爬取,第一反應是通過狀態碼來判斷,但是寫完運行后發現有許多目標網站訪問它不存在的頁面時會返回一個404錯誤頁面,可他的狀態碼卻是200,結果爬回來好多根本就不存在的頁面。這個本來是網站設置的問題,但是現在也不能用狀態碼來判斷了,請問還有什么方法可以正確判斷一個頁面是不是404該不該爬?

問題解答

回答1:

首先, 200 狀態碼,是網絡連接狀態, 所以你只判斷200并不能滿足所有網站。

其次, 寫爬蟲嘛, 你應該實際去看看這些網站的規則是什么,可以先人工判斷下, 找找規律, 比如看看網頁返回內容是不是有什么特點之類的。

回答2:

做個網頁內容的判斷,如果他網頁里面沒有內容就直接返回。

回答3:

就算是頁面狀態碼200,返回的404頁面,應該和正常能爬取的頁面html有不同的html元素吧,根據有沒有特定的html元素來判斷是不是404頁面也行的

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 全部孕妇毛片丰满孕妇孕交 | 日本欧美一区二区 | 成人韩免费网站 | 涩涩国产精品福利在线观看 | 男人天堂国产 | 国产91一区二区在线播放不卡 | 成人自拍小视频 | 怡红院爽妇网 | 午夜精品亚洲 | 草草免费视频 | 国产一级强片在线观看 | 亚洲线精品一区二区三区 | 在线a毛片免费视频观看 | 久久精品视频网站 | 亚洲视频一区二区在线观看 | 国产大尺度福利视频在线观看 | 中文在线最新版天堂 | 在线观看精品视频一区二区三区 | 欧美成 人h版在线观看 | 日韩 国产 欧美 | 九九在线精品视频播放 | 亚洲精品二区 | 久久香蕉国产线看免费 | 97高清国语自产拍中国大陆 | 99久久精品国产9999高清 | 精品国产三级a∨在线观看 精品国产三级a在线观看 | 国产欧美日韩一区二区三区 | 色综合91久久精品中文字幕 | 美国做受三级的视频播放 | 夜色爽爽| 日韩美女啪啪 | 中国国产一国产一级毛片视频 | 精品国产96亚洲一区二区三区 | 欧美日本国产 | 91久久精品视频 | 九九99视频在线观看视频观看 | 成人自拍在线 | 永久免费不卡在线观看黄网站 | 精品欧美亚洲韩国日本久久 | 黄色va视频| 国产高清在线看免费视频观 |