文章詳情頁

python - scrapy 處理文章分頁的內容

瀏覽：109日期：2022-08-03 16:15:10

問題描述

如一篇文章有2-3頁，然后想把這些內容頁爬下來，拼接成一頁，然后再放入數據庫。文章url如：article_1.html,article_2.htmlitem有：item[’title’],item[’content’]而item[’content’]就是拼接成一頁的內容。大概怎么寫呢？

問題解答

回答1：

找到分頁接口url

回答2：

找到那個下一頁的鏈接，加入到爬取url列表中

回答3：

可以在rules里面寫正則自動掃描符合的url

Python 編程

上一條：python - 如何讓dataframe A 的一列與dataframe B的一列相減相加結果記到A的c列？下一條：亂碼 - VS2013+PTVS，python編碼問題

相關文章：

1. 注冊賬戶文字不能左右分離2. python - 使用readlines()方法讀取文件內容后，再用for循環遍歷文件與變量匹配時出現疑難？3. 對mysql某個字段監控的功能4. javascript - 數組的過濾和渲染5. javascript - table列過多，有什么插件可以提供列排序和選擇顯示列的功能6. html5 - ElementUI table中el-table-column怎么設置百分比顯示。7. html - vue項目中用到了elementUI問題8. showpassword里的this 是什么意思？代表哪個元素9. python - 為什么正常輸出中文沒有亂碼，zip函數之后出現中文編程unicode編碼的問題，我是遍歷輸出的啊。10. JavaScript事件

排行榜

					
					javascript - NodeJS connect模塊use的問題
注冊賬戶文字不能左右分離
javascript - table列過多，有什么插件可以提供列排序和選擇顯示列的功能
docker gitlab 如何git clone？
docker - 各位電腦上有多少個容器啊？容器一多，自己都搞混了，咋辦呢？
golang - 用IDE看docker源碼時的小問題
python - 為什么正常輸出中文沒有亂碼，zip函數之后出現中文編程unicode編碼的問題，我是遍歷輸出的啊。
html - css中怎么命名顏色比較好？
javascript - 數組的過濾和渲染
css3 - less或者scss 顏色計算的知識應該怎么學?或者在哪里學?
android - rxjava merge 返回Object對象數據如何緩存
				

熱門標簽

国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

python - scrapy 處理 文章 分頁的內容

python - scrapy 處理文章分頁的內容