文章詳情頁

python 爬蟲解析效率如何提升?

瀏覽：129日期：2022-06-29 17:26:48

問題描述

現在采用的是在windows 環境下采用多線程的方式進行爬取,使用beautifulsoup+lxml進行解析.

N個爬取線程->解析隊列->1個解析線程->存儲隊列->1個存儲線程

整個執行程序的效率卡在計算密集的解析線程中，如果只是增加解析線程數量的話，反而增加線程切換開銷速度變慢。

請問下有什么辦法可以較為明顯的提升解析效率？

根據兩位大腿的說明準備采用異步爬取->解析隊列->N個解析進程->存儲隊列->存儲線程

準備開工

問題解答

回答1：

其實我覺得, 你在前面N個爬取線程可以換成協程/線程池實現, 因為你在頻繁創建線程本省一種性能耗費, 用線程池雖然可以減少這部分的損耗, 但是上下文切換還是無法避免, 所以協程這方面, 應該是比較合適的.1個解析線程換成進程池,多開幾個進程去計算密集處理, 其余應該可以不用改, 如果還想再搞, 將核心部分用c/c++ 重寫咯, 希望可以幫到你

回答2：

我的做法是多進程。多進程的好處是當單機性能不夠的時候，可以隨時切換為分布式爬蟲。

回答3：

可以網上找下tornade異步爬蟲吧,我正在用這個

Python 編程

上一條：python - 想做一個批量ping的工具，請問用什么方法更快更好一點？下一條：python - django中找不到css等靜態文件

相關文章：

1. MySQL主鍵沖突時的更新操作和替換操作在功能上有什么差別(如圖)2. 關于mysql聯合查詢一對多的顯示結果問題3. python中如何計算t分布的值?4. mysql在限制條件下篩選某列數據相同的值5. 數據庫 - Mysql的存儲過程真的是個坑！求助下面的存儲過程哪里錯啦，實在是找不到哪里的問題了。6. python執行cmd命令，怎么讓他執行類似Ctrl+C效果將其結束命令？7. python - scrapy url去重8. 實現bing搜索工具urlAPI提交9. python - Django有哪些成功項目？10. Python從URL中提取域名

排行榜

					
					android - 有數據要處理的時候如何使用rxJava進行異步處理數據
javascript - 在ie下為什么會出現這種情況呢 《 無法獲取未定義或 null 引用的屬性“length”》 ？請大神指教。
python中如何計算t分布的值?
docker網絡端口映射，沒有方便點的操作方法么？
5. docker不顯示端口映射呢？
dockerfile - 我用docker build的時候出現下邊問題  麻煩幫我看一下
docker-compose 為何找不到配置文件？
html5和Flash對抗是什么情況？
android - 哪位大神知道java后臺的api接口的對象傳到前端后輸入日期報錯，是什么情況？求大神指點
javascript - 我是做web前端的，公司最近有一個項目關于數據統計的！
				

熱門標簽

国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

python 爬蟲 解析效率如何提升?

python 爬蟲解析效率如何提升?