文章詳情頁

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取？

瀏覽：95日期：2022-09-03 13:50:21

問題描述

用Python27些爬蟲，想要爬取一些網站，我需要判斷網頁是否可以爬取，第一反應是通過狀態碼來判斷，但是寫完運行后發現有許多目標網站訪問它不存在的頁面時會返回一個404錯誤頁面，可他的狀態碼卻是200，結果爬回來好多根本就不存在的頁面。這個本來是網站設置的問題，但是現在也不能用狀態碼來判斷了，請問還有什么方法可以正確判斷一個頁面是不是404該不該爬？

問題解答

回答1：

首先， 200 狀態碼，是網絡連接狀態，所以你只判斷200并不能滿足所有網站。

其次，寫爬蟲嘛，你應該實際去看看這些網站的規則是什么，可以先人工判斷下，找找規律，比如看看網頁返回內容是不是有什么特點之類的。

回答2：

做個網頁內容的判斷，如果他網頁里面沒有內容就直接返回。

回答3：

就算是頁面狀態碼200，返回的404頁面，應該和正常能爬取的頁面html有不同的html元素吧，根據有沒有特定的html元素來判斷是不是404頁面也行的

Python 編程

上一條：python - Flask內如何跳轉至其他頁面。下一條：Python做掃描，發包速度實在是太慢了，有優化的方案嗎？

相關文章：

1. android - NavigationView 的側滑菜單中如何保存新增項（通過程序添加）2. jquery清除input type為password？3. python-mysqldb - 這樣結構的mysql表，如何快速update4. 這段代碼既不提示錯誤也看不到結果，請老師明示錯在哪里，謝謝！5. php7.3.4中怎么開啟pdo驅動6. 微信小程序可以用gulp,webpack嗎？7. 老師我是一個沒有學過php語言的準畢業生我希望您能幫我一下8. ueditor上傳服務器提示后端配置項沒有正常加載，求助！！！！！9. 提示語法錯誤語法錯誤: unexpected ’abstract’ (T_ABSTRACT)10. tp5 不同控制器中的變量調用問題

排行榜

					
					android - NavigationView 的側滑菜單中如何保存新增項（通過程序添加）
mysql服務無法啟動1067錯誤，誰知道正確的解決方法？
spring - java freemarker沒有@extends，@block這些指令？
python-mysqldb - 這樣結構的mysql表，如何快速update
前端 - 移動端 絕對定位 超出無法隱藏 導致body可以滾動
css - 重寫checkbox樣式 用到id  與label關聯實現 但是現在checkbox循環生成多項 就不能用id了 求解決辦法
apache 報錯信息不是英文或中文
node.js - node的child_process.spawn(...[, options])怎么寫多個options?
javascript - react，獲取radio的值出錯
python - pyspider phantomjs內存泄漏和假死怎么解決呢？
android - RxJava 在onNext(User user) 可以把user賦值給外部成員變量mUser嗎？
				

熱門標簽

国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取？