国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

Python Scrapy圖片爬取原理及代碼實例

瀏覽:119日期:2022-07-21 14:47:08

1.在爬蟲文件中只需要解析提取出圖片地址,然后將地址提交給管道

在管道文件對圖片進行下載和持久化存儲

class ImgSpider(scrapy.Spider): name = ’img’ # allowed_domains = [’www.xxx.com’] start_urls = [’http://www.521609.com/daxuemeinv/’] url = ’http://www.521609.com/daxuemeinv/list8%d.html’ pageNum = 1 def parse(self, response): li_list = response.xpath(’//*[@id='content']/div[2]/div[2]/ul/li’) for li in li_list: img_src = ’http://www.521609.com’+li.xpath(’./a[1]/img/@src’).extract_first() item = ImgproItem() item[’src’] = img_src yield item

2.配置文件修改

配置文件要增加IMAGES_STORE = ’./imgsLib’表明圖片存放的路徑

3.管道類的修改

原本管道類繼承的object,處理item對象使用時process_item方法,該方法不能發送請求,要想對圖片地址發送請求,需要繼承ImagesPipeline類,然后重寫該類中的三個方法:get_media_requests,file_path,item_completed

from scrapy.pipelines.images import ImagesPipelineimport scrapyclass ImgproPipeline(ImagesPipeline): #對某一個媒體資源進行請求發送 #item就是接收到的spider提交過來的item def get_media_requests(self, item, info): yield scrapy.Request(item[’src’]) #制定媒體數據存儲的名稱 def file_path(self, request, response=None, info=None): name = request.url.split(’/’)[-1] print(’正在下載:’,name) return name #將item傳遞給下一個即將給執行的管道類 def item_completed(self, results, item, info): return item

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 中国嫩模一级毛片 | 成人在免费视频手机观看网站 | 一区二区中文字幕在线观看 | 草草久久97超级碰碰碰免费 | 国产精品亚洲国产三区 | 538prom精品视频在放免费 | 国产成人久久久精品毛片 | 在线91精品国产免费 | 欧美最大成人毛片视频网站 | 亚洲国产二区三区久久 | 亚洲精品亚洲人成在线 | 在线中文字幕播放 | 国产91一区二区在线播放不卡 | 一本大道香蕉久在线不卡视频 | 国产视频高清在线观看 | 一级午夜a毛片免费视频 | 国产呦系列免费 | 久久香蕉国产视频 | 亚洲国产一级毛片 | 成人免费视频在线看 | 性做久久久久久免费观看 | 天天鲁天天爱天天鲁天天 | 在线观看成年人免费视频 | a级毛片毛片免费很很综合 a级毛片免费 | 欧美日韩国产高清一区二区三区 | 失禁h啪肉尿出来高h男男 | 手机日韩理论片在线播放 | 日韩精品无码一区二区三区 | 欧美久久久久久久一区二区三区 | 国产成人三级 | 国产精品久久视频 | 国产精品区一区二区免费 | 亚洲精品久久久久影 | 一级毛片免费不卡在线视频 | 久久最新 | 国产精品久久久久久吹潮 | 欧美性色一级在线观看 | 成人自拍小视频 | 精品性久久 | 秘书高跟黑色丝袜国产91在线 | 国产精品尹人在线观看免费 |