文章詳情頁

python - 如何解決scarpy-redis空跑問題？

瀏覽：94日期：2022-06-25 16:52:42

問題描述

scrapy-redis框架中，reids存儲的xxx:requests已經爬取完畢，但程序仍然一直運行，如何自動停止程序，而不是一直在空跑？

2017-07-03 09:17:06 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)2017-07-03 09:18:06 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

可以通過engine.close_spider(spider, ’reason’)來停止程序的運行。

def next_request(self):block_pop_timeout = self.idle_before_closerequest = self.queue.pop(block_pop_timeout)if request and self.stats: self.stats.inc_value(’scheduler/dequeued/redis’, spider=self.spider)if request is None: self.spider.crawler.engine.close_spider(self.spider, ’queue is empty’)return request

還有一個問題不明白：當通過engine.close_spider(spider, ’reason’)來關閉spider時，會出現幾個錯誤之后才能關閉。

# 正常關閉2017-07-03 18:02:38 [scrapy.core.engine] INFO: Closing spider (queue is empty)2017-07-03 18:02:38 [scrapy.statscollectors] INFO: Dumping Scrapy stats:{’finish_reason’: ’queue is empty’, ’finish_time’: datetime.datetime(2017, 7, 3, 10, 2, 38, 616021), ’log_count/INFO’: 8, ’start_time’: datetime.datetime(2017, 7, 3, 10, 2, 38, 600382)}2017-07-03 18:02:38 [scrapy.core.engine] INFO: Spider closed (queue is empty)# 之后還會出現幾個錯誤才關閉spider，難道spider剛啟動時會啟動多個線程一起抓取， # 然后其中一個線程關閉了spider，其他線程就找不到spider才會報錯！Unhandled ErrorTraceback (most recent call last): File 'D:/papp/project/launch.py', line 37, in <module> process.start() File 'D:Program Filespython3libsite-packagesscrapycrawler.py', line 285, in start reactor.run(installSignalHandlers=False) # blocking call File 'D:Program Filespython3libsite-packagestwistedinternetbase.py', line 1243, in run self.mainLoop() File 'D:Program Filespython3libsite-packagestwistedinternetbase.py', line 1252, in mainLoop self.runUntilCurrent()--- <exception caught here> --- File 'D:Program Filespython3libsite-packagestwistedinternetbase.py', line 878, in runUntilCurrent call.func(*call.args, **call.kw) File 'D:Program Filespython3libsite-packagesscrapyutilsreactor.py', line 41, in __call__ return self._func(*self._a, **self._kw) File 'D:Program Filespython3libsite-packagesscrapycoreengine.py', line 137, in _next_request if self.spider_is_idle(spider) and slot.close_if_idle: File 'D:Program Filespython3libsite-packagesscrapycoreengine.py', line 189, in spider_is_idle if self.slot.start_requests is not None:builtins.AttributeError: ’NoneType’ object has no attribute ’start_requests’

問題解答

回答1：

怎樣知道放的requests爬取完畢，這個要定義才知道如果不復雜，可以使用內部擴展關掉！

scrapy.contrib.closespider.CloseSpider

CLOSESPIDER_TIMEOUTCLOSESPIDER_ITEMCOUNTCLOSESPIDER_PAGECOUNTCLOSESPIDER_ERRORCOUNThttp://scrapy-chs.readthedocs...

Python 編程

上一條：win10 hyper-v 安裝Ubuntu黑屏下一條：python redis 多進程使用

相關文章：

1. MySQL的聯合查詢[union]有什么實際的用處2. 怎么能做出標簽切換頁的效果，（文字內容隨動）3. mysql - sql 左連接結果union右連接結果，導致重復性計算怎么解決？4. 從git上下載的laravel項目不能用5. 數組排序，并把排序后的值存入到新數組中6. php多任務倒計時求助7. mysql 遠程連接出錯10060，我已經設置了任意主機了。。。8. mysql怎么表示兩個字段的差9. PHP訂單派單系統10. 默認輸出類型為json，如何輸出html

排行榜

					
					javascript - webpack打包出現react-dom相關錯誤
android - 能夠自定義安卓webview的內核版本嗎
從git上下載的laravel項目不能用
怎么能做出標簽切換頁的效果，（文字內容隨動）
javascript - JS運行時報錯 Cannot read property ’info’ of undefined
javascript - 關于Node 、 commonJs、 vue  之間的故事
python - 安裝anaconda2出錯
html - 爬蟲時出現“DNS lookup failed”，打開網頁卻沒問題，這是什么情況？
vue.js - vue獲取mongodb中的數據起初顯示未定義，但還是可以渲染
mac連接阿里云docker集群，已經卡了2天了，求問？
javascript - [多圖預警]reactjs點擊某表格編輯內容，跳轉傳值this.context.router.params.id時id報錯未定義
				

熱門標簽

国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

python - 如何解決scarpy-redis空跑問題？