Python爬蟲之App爬蟲視頻下載的實現(xiàn)
前言
隨著手app的發(fā)展逐漸強大,我們手機應(yīng)用每天的生活也是非常的多。那我們怎么知道他的數(shù)據(jù)是怎么形成的,通過電腦端如何爬取。相信大家也有這樣的問題。下面我將講解這些操作流程。
一、操作流程
首先我們要有
fidder4 夜神模擬器 pycharm python3.0或以上版本二、fidder4抓包
1.fidder配置
首先我們先下載fidder,打開Fiddler,點擊Tools => Options 打開配置選項,切換到第二個標(biāo)簽頁HTTPS,先在這里打勾
然后就是點下面如圖所示的單選框,點擊Actions,運行第一個Trust Root Certificate。后面會有一個框,記得點擊確定。
打開Fiddler,點擊Tools => Options… 打開配置選項,切換到第三個標(biāo)簽頁Connections,修改如圖所示的地方,端口號可任意修改,這里使用我自定的9999,請記住自己設(shè)置的端口號,后面有需要使用的地方。
2.模擬器配置
我們?yōu)槭裁词褂媚M器,因為由于Fidder抓包,要在局域網(wǎng)環(huán)境下,我們大部分電腦都是以寬帶連接,所以我這里就以模擬器講解抓包,后續(xù)我會更新一期fidder手機抓包。
這里們先打模擬器,設(shè)置模擬器的代理。我們先查看自己的本機IP,通過cmd命令輸入ipconfig即可查看本機的ip,我的本機IP是192.168.1.2
這里打開模擬器的設(shè)置,找到我們WLAN用點擊,我們看到我們的wifi,用鼠標(biāo)點擊時間長一點,它會出現(xiàn)設(shè)置的,下面我用視頻給大家看一下
我們本機ip進(jìn)行代理哦
3.模擬器證書安裝
我們用模擬器打開瀏覽器,輸入我們本機ip加端口,就是 192.168.1.2:9999
點擊這個下載證書,下載完成后安裝證書,命名隨便命名。密碼自己要記入。上述如果都做成功了,應(yīng)該就沒什么問題了。
三、fidder4解析視頻網(wǎng)站
這是我們模擬器里的app,app名字我會在下面評論發(fā)出。
這里的所和上面的正好相對應(yīng),這里相信我們大家都找到了,我們可以把fidder抓包到的數(shù)據(jù)在這里,這個是我們的數(shù)據(jù)網(wǎng)址https://v.6.cn/coop/mobile/index.php?act=recommend&padapi=minivideo-getlist.php&page=1我們通過模擬器視頻往下滑,可以知道它是分頁的,那樣會有好多小姐姐視頻哦,https://v.6.cn/coop/mobile/index.php?act=recommend&padapi=minivideo-getlist.php&page=2這里就是第二頁的數(shù)據(jù),這個時候就可以通過pycharm進(jìn)行解析了。
pycharm編寫app代碼
import requestsimport jsondef Demo(page): url=’https://v.6.cn/coop/mobile/index.php?act=recommend&padapi=minivideo-getlist.php&page={}’.format(page) header={ ’User-Agent’:’XY0xDgIxDAS)wgtOthPHTn5AQUVFdXLOCRwSdEhX5PGQFmlHo6n22D)bw973lz13W2)XlZe8pKEpEEdBTgmU4ricT3kQENEI04ATJcbg2VsnEcvoVttmTXpq7r)sVToAdNLqmaxF1B6HFigkhXgO(f)rCw@@’ } response = requests.get(url,headers=header,verify=False).json() data=response[’content’][’list’]#由于網(wǎng)站是json數(shù)據(jù)我們可以通過json解析,然后在進(jìn)行數(shù)據(jù)的爬取 for i in data: title =i[’title’] #這里爬取的是視頻標(biāo)題 playurl=i[’playurl’]#這里是爬取是的視頻的url Video(title,playurl)def Video(title,playurl): header = { ’User-Agent’: ’XY0xDgIxDAS)wgtOthPHTn5AQUVFdXLOCRwSdEhX5PGQFmlHo6n22D)bw973lz13W2)XlZe8pKEpEEdBTgmU4ricT3kQENEI04ATJcbg2VsnEcvoVttmTXpq7r)sVToAdNLqmaxF1B6HFigkhXgO(f)rCw@@’ } response = requests.get(playurl,headers=header,verify=False) # 文件寫入異常機制 try: #由于寫入可以會有點出錯,我們要加一個異常處理機制,這樣可以提高我們的程序性能。 with open(’VIdeo/{}.mp4’.format(title),’ab’) as f: f.write(response.content) except Exception as e: print(e)for i in range(1,11): Demo(i)
總結(jié)
以上就是今天要講的內(nèi)容,本文簡單的對fidder配置與模擬器的證書安裝,通過fidder監(jiān)視app傳輸?shù)臄?shù)據(jù)進(jìn)行解析,我們知道此網(wǎng)址有分頁功能 ,最后我們通過pycharm編寫程序,這些操作看似繁鎖,其實看懂了,就很簡單。
到此這篇關(guān)于Python爬蟲之App爬蟲視頻下載的實現(xiàn)的文章就介紹到這了,更多相關(guān)Python App爬蟲視頻下載內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!
相關(guān)文章:
1. vue實現(xiàn)web在線聊天功能2. JavaScript實現(xiàn)頁面動態(tài)驗證碼的實現(xiàn)示例3. JavaEE SpringMyBatis是什么? 它和Hibernate的區(qū)別及如何配置MyBatis4. Springboot 全局日期格式化處理的實現(xiàn)5. SpringBoot+TestNG單元測試的實現(xiàn)6. 完美解決vue 中多個echarts圖表自適應(yīng)的問題7. 解決Android Studio 格式化 Format代碼快捷鍵問題8. 在Chrome DevTools中調(diào)試JavaScript的實現(xiàn)9. Python使用urlretrieve實現(xiàn)直接遠(yuǎn)程下載圖片的示例代碼10. Java使用Tesseract-Ocr識別數(shù)字
