国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

python 爬蟲 解析效率如何提升?

瀏覽:129日期:2022-06-29 17:26:48

問題描述

現在采用的是在windows 環境下 采用多線程的方式進行爬取,使用beautifulsoup+lxml進行解析.

N個爬取線程->解析隊列->1個解析線程->存儲隊列->1個存儲線程

整個執行程序的效率卡在計算密集的解析線程中,如果只是增加解析線程數量的話,反而增加線程切換開銷速度變慢。

請問下 有什么辦法可以較為明顯的提升解析效率?

根據兩位大腿的說明 準備采用異步爬取->解析隊列->N個解析進程->存儲隊列->存儲線程

準備開工

問題解答

回答1:

其實我覺得, 你在前面N個爬取線程 可以換成協程/線程池實現, 因為你在頻繁創建線程本省一種性能耗費, 用線程池雖然可以減少這部分的損耗, 但是上下文切換還是無法避免, 所以協程這方面, 應該是比較合適的.1個解析線程 換成 進程池,多開幾個進程去計算密集處理, 其余應該可以不用改, 如果還想再搞, 將核心部分用c/c++ 重寫咯, 希望可以幫到你

回答2:

我的做法是多進程。多進程的好處是當單機性能不夠的時候,可以隨時切換為分布式爬蟲。

回答3:

可以網上找下tornade異步爬蟲吧,我正在用這個

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 欧美日韩国产亚洲综合不卡 | 欧美大片aaaa一级毛片 | 男人把女人桶到喷白浆的视频 | 日韩在线免费视频 | 一级v片 | 一本三道a无线码一区v | 国产在线91精品 | 一级毛片免费播放 | 亚洲欧美日韩精品香蕉 | 综合欧美日韩一区二区三区 | 亚洲视频在线免费观看 | 伊人色综合久久天天网蜜月 | 欧美一级手机免费观看片 | 欧美日韩加勒比一区二区三区 | 全部在线播放免费毛片 | 国产大片线上免费观看 | 中文字幕有码在线视频 | 国产精品久久久久久影视 | 国产精品亚洲玖玖玖在线靠爱 | 91久久亚洲精品一区二区 | 国产一区视频在线 | 欧美一区二区三区视频在线 | 国产一级特黄全黄毛片 | 国产亚洲精品久久久久久无 | 亚洲线精品一区二区三区 | 国产一区亚洲二区三区毛片 | 亚洲精品美女视频 | 韩国美女爽快毛片免费 | 91热视频在线观看 | 一区二区三区免费看 | 国产天堂亚洲精品 | 碰碰久久 | 日本一级毛片高清免费观看视频 | 欧美xx在线观看 | 国产91会所洗浴女技师按摩 | 天天综合天天看夜夜添狠狠玩 | 日本欧美不卡一区二区三区在线 | 免费三级网站 | 国产午夜亚洲精品国产 | 成人毛片手机版免费看 | 国产三级做爰在线观看∵ |