javascript - Python 爬蟲(chóng) Ajax 頁(yè)面直接request獲取居然速度比selenium慢。
問(wèn)題描述
因?yàn)樵谂廊〉木W(wǎng)站需要賬號(hào)登陸,不方便公開(kāi)。因此我只能這樣大致性的咨詢,實(shí)在抱歉。
我需要爬一個(gè)目標(biāo)網(wǎng)站的數(shù)據(jù),發(fā)現(xiàn)在點(diǎn)擊下一頁(yè)時(shí)候,網(wǎng)址并沒(méi)有改變.通過(guò)源碼確定是使用了js外加ajax的樣子.通過(guò)chrome的控制臺(tái),捕獲到點(diǎn)擊下一頁(yè)時(shí)候,向指定地址發(fā)送了一條帶多個(gè)參數(shù)的get指令。
原先采用selenium+phantomjs的方式暴力無(wú)腦方式爬取,一個(gè)頁(yè)面大概5S左右就能獲取,實(shí)際用瀏覽器打開(kāi)也是這個(gè)速度。為了爬取大量的數(shù)據(jù),準(zhǔn)備改用多線程+直接requests.get目標(biāo)地址的方式來(lái)采集,但是發(fā)現(xiàn)采集速度非常的慢,從5S降到的20s左右。
請(qǐng)教下,出現(xiàn)這樣現(xiàn)象的原因可能是什么?我該如何解決?請(qǐng)指教
問(wèn)題解答
回答1:抱歉 浪費(fèi)了各位的時(shí)間- -是我開(kāi)始測(cè)試的時(shí)候,周?chē)腥嗽傧卵咐祝W(wǎng)絡(luò)炸了。抱歉 抱歉
相關(guān)文章:
1. javascript - iframe 為什么加載網(wǎng)頁(yè)的時(shí)候滾動(dòng)條這樣顯示?2. 老師您好!我有一個(gè)問(wèn)題、3. 后端開(kāi)發(fā) - mysql按時(shí)間分段統(tǒng)計(jì)的sql語(yǔ)句怎么寫(xiě)好?4. 網(wǎng)頁(yè)爬蟲(chóng) - python+requests 網(wǎng)頁(yè)重定向求解5. 哭遼 求大佬解答 控制器的join方法怎么轉(zhuǎn)模型方法6. mysql - 在下剛?cè)腴T(mén)sql 關(guān)于sql的語(yǔ)法詢問(wèn)7. c++ - 如何在python的阻塞的函數(shù)中獲取變量值8. list - python 求助9. 初來(lái)乍到,相對(duì)路徑問(wèn)題,新手求教10. 請(qǐng)問(wèn)寫(xiě)好python模塊以后,文檔怎么寫(xiě)?
