文章詳情頁

Django結合使用Scrapy爬取數據入庫的方法示例

瀏覽：41日期：2024-09-11 11:40:06

在django項目根目錄位置創建scrapy項目，django_12是django項目，ABCkg是scrapy爬蟲項目，app1是django的子應用

2.在Scrapy的settings.py中加入以下代碼

import osimport syssys.path.append(os.path.dirname(os.path.abspath(’.’)))os.environ[’DJANGO_SETTINGS_MODULE’] = ’django_12.settings’ # 項目名.settingsimport djangodjango.setup()

3.編寫爬蟲，下面代碼以ABCkg為例，abckg.py

# -*- coding: utf-8 -*-import scrapyfrom ABCkg.items import AbckgItem class AbckgSpider(scrapy.Spider): name = ’abckg’ #爬蟲名稱 allowed_domains = [’www.abckg.com’] # 允許爬取的范圍 start_urls = [’http://www.abckg.com/’] # 第一次請求的地址 def parse(self, response): print(’返回內容：{}’.format(response)) ''' 解析函數 :param response: 響應內容 :return: ''' listtile = response.xpath(’//*[@id='container']/div/div/h2/a/text()’).extract() listurl = response.xpath(’//*[@id='container']/div/div/h2/a/@href’).extract() for index in range(len(listtile)): item = AbckgItem() item[’title’] = listtile[index] item[’url’] = listurl[index] yield scrapy.Request(url=listurl[index],callback=self.parse_content,method=’GET’,dont_filter=True,meta={’item’:item}) # 獲取下一頁 nextpage = response.xpath(’//*[@id='container']/div[1]/div[10]/a[last()]/@href’).extract_first() print(’即將請求:{}’.format(nextpage)) yield scrapy.Request(url=nextpage,callback=self.parse,method=’GET’,dont_filter=True) # 獲取詳情頁 def parse_content(self,response): item = response.meta[’item’] item[’content’] = response.xpath(’//*[@id='post-1192']/dd/p’).extract() print(’內容為：{}’.format(item)) yield item

4.scrapy中item.py 中引入django模型類

pip install scrapy-djangoitem

from app1 import modelsfrom scrapy_djangoitem import DjangoItemclass AbckgItem(DjangoItem): # define the fields for your item here like: # name = scrapy.Field() # 普通scrapy爬蟲寫法 # title = scrapy.Field() # url = scrapy.Field() # content = scrapy.Field() django_model = models.ABCkg # 注入django項目的固定寫法，必須起名為django_model =django中models.ABCkg表

5.pipelines.py中調用save()

import jsonfrom pymongo import MongoClient# 用于接收parse函數發過來的itemclass AbckgPipeline(object): # i = 0 def open_spider(self,spider): # print(’打開文件’) if spider.name == ’abckg’: self.f = open(’abckg.json’,mode=’w’) def process_item(self, item, spider): # # print(’ABC管道接收：{}’.format(item)) # if spider.name == ’abckg’: # self.f.write(json.dumps(dict(item),ensure_ascii=False)) # # elif spider.name == ’cctv’: # # img = requests.get(item[’img’]) # # if img != ’’: # # with open(’圖片%d.png’%self.i,mode=’wb’)as f: # # f.write(img.content) # # self.i += 1 item.save() return item # 將item傳給下一個管道執行 def close_spider(self,spider): # print(’關閉文件’) self.f.close()

6.在django中models.py中一個模型類，字段對應爬取到的數據，選擇適當的類型與長度

class ABCkg(models.Model): title = models.CharField(max_length=30,verbose_name=’標題’) url = models.CharField(max_length=100,verbose_name=’網址’) content = models.CharField(max_length=200,verbose_name=’內容’) class Meta: verbose_name_plural = ’爬蟲ABCkg’ def __str__(self): return self.title

7.通過命令啟動爬蟲：scrapy crawl 爬蟲名稱

8.django進入admin后臺即可看到爬取到的數據。

到此這篇關于Django結合使用Scrapy爬取數據入庫的方法示例的文章就介紹到這了,更多相關Django Scrapy爬取數據入庫內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Django

上一條：django中顯示字符串的實例方法下一條：Django MTV和MVC的區別詳解

相關文章：

1. 不要在HTML中濫用div2. react實現組件狀態緩存的示例代碼3. CSS百分比padding制作圖片自適應布局4. React優雅的封裝SvgIcon組件示例5. Vue如何使用ElementUI對表單元素進行自定義校驗及踩坑6. Electron調用外接攝像頭并拍照上傳實現詳解7. CSS清除浮動方法匯總8. HTML5實戰與剖析之觸摸事件(touchstart、touchmove和touchend)9. HTTP協議常用的請求頭和響應頭響應詳解說明（學習）10. TypeScript實現十大排序算法之歸并排序示例詳解

排行榜

					
					JavaScript函數重載操作實例淺析
解決redis與Python交互取出來的是bytes類型的問題
使用Python實現批量ping操作方法
PHP擴展之壓縮與歸檔擴展1——Bzip2
QuickTime流媒體和Java
Android實現動態改變shape.xml中圖形的顏色
Java用BigDecimal解決double類型相減時可能存在的誤差
JavaScript中CreateTextFile函數
python GUI庫圖形界面開發之PyQt5滑塊條控件QSlider詳細使用方法與實例
Spring Boot 整合 JWT的方法
解決idea中Terminal終端無法執行GIT命令+Terminal 中文亂碼問題