文章詳情頁

python 爬取騰訊視頻評論的實現(xiàn)步驟

瀏覽：44日期：2022-06-27 17:25:39

一、網(wǎng)址分析

查閱了網(wǎng)上的大部分資料，大概都是通過抓包獲取。但是抓包有點麻煩，嘗試了F12，也可以獲取到評論。以電視劇《在一起》為例子。評論最底端有個查看更多評論猜測過去應(yīng)該是 Ajax 的異步加載。網(wǎng)上的大部分都是構(gòu)建評論的網(wǎng)址，通過 requests 獲取，正則表達式進行數(shù)據(jù)處理。本文也利用該方法進行數(shù)據(jù)處理，其實利用 scrapy 會更簡單。根據(jù)前輩給出的經(jīng)驗，順利找到了評論所在的鏈接。

在新標(biāo)簽中打開，該網(wǎng)址的鏈接。

python 爬取騰訊視頻評論的實現(xiàn)步驟

評論都在'content':'xxxxx'里面，所有可以通過正則表達式獲取。那么現(xiàn)在要開始構(gòu)建網(wǎng)址，找到其規(guī)律。在查找評論鏈接的過程中無意發(fā)現(xiàn)，點擊影評旁邊的評論總數(shù)，可以獲取到更為干凈的評論界面。結(jié)果是一樣的。

python 爬取騰訊視頻評論的實現(xiàn)步驟

既然是要爬取所有的評論，所以知道評論數(shù)是必不可少的。

python 爬取騰訊視頻評論的實現(xiàn)步驟

再通過F12獲取到評論鏈接，找到網(wǎng)址的規(guī)律，構(gòu)建網(wǎng)址，加載三四個評論就行了。這里加載了四個網(wǎng)址。把所有網(wǎng)址復(fù)制到文本文件中，進行對比分析。

python 爬取騰訊視頻評論的實現(xiàn)步驟

觀察發(fā)現(xiàn)只有 cursor 和 source 進行了改變，其他是不變的，二 source 是在第一個的基礎(chǔ)上進行加一操作，所以只需要獲取到 cursor 即可。我們打開一個評論鏈接的網(wǎng)址，我們可以知道，cursor 其實是上一頁最后一個用戶的ID碼。所以我們只需要在爬取上一頁的時候一起爬蟲了。然后就可以構(gòu)建網(wǎng)址。

python 爬取騰訊視頻評論的實現(xiàn)步驟

二、代碼編寫

這個代碼還是簡單的。套用之前上課做的模板就可以直接進行爬蟲了。通過正則表達式獲取評論，返回一個列表；正則表達式獲得的 cursor 碼是列表，所以要轉(zhuǎn)化為字符串使用；source 很簡單了，直接在上一個的基礎(chǔ)上加一即可。

def getComment(html): # 爬取單頁評論 findeComment = re.compile(r’'content':'(.*?)'’, re.S) comment = re.findall(findeComment, html) # print(comment) return commentdef getCursor(html): # 獲取下一頁的cursor碼 findeCursor = re.compile(r’'last':'(.*?)'’, re.S) cursor = re.findall(findeCursor, html)[0] # print(cursor) return cursordef getSource(source): # 獲取下一頁的source碼 source = int(source) + 1 return str(source)

有點難度的可能就送弄代理吧，但是代理可以模仿網(wǎng)上其他人的寫法，所以還是不是很難。

#添加用戶代理def ua(uapools): thisua = random.choice(uapools) # print(thisua) headers = ('User-Agent', thisua) opener = urllib.request.build_opener() opener.addheaders = [headers] # 設(shè)置為全局變量 urllib.request.install_opener(opener)三、遇到的問題1. 獲取評論的時候也將子評論爬蟲進去了。

仔細(xì)查看了源碼，發(fā)現(xiàn)評論主要在 data 下面的 oriCommList 列表里，其他范圍的評論為子評論。個人認(rèn)為子評論也算有效評論，目前不打算處理。

python 爬取騰訊視頻評論的實現(xiàn)步驟

2. 獲取全部評論數(shù)，直接通過 requests 獲取不到

嘗試了 xpath 和 requests 發(fā)現(xiàn)不能獲取全部評論數(shù)，所以目前只能通過 selenium 獲取，但是 selenium 效率太低了，就獲取一個評論總數(shù)，還不如打開源碼直接修改評論總數(shù)，所以暫時沒有修改

3. 評論總數(shù)數(shù)據(jù)太大

因為之前爬蟲過很多網(wǎng)站，同一個 user-agent 很容易被 ban ，所以目前構(gòu)建了用戶代理，然后進行隨機。其實還想加一個 ip 代理的，但是使用了 ip 代理的網(wǎng)址，上面寫的正常的 ip ，在使用的時候，拒絕連接。也嘗試過構(gòu)建代理池。但是代理池一般都是使用docker 和 Redis 進行獲取。暫時沒有選用，之選用了用戶代理，然后在獲取 headers 的時候加個 time.sleep(1)。目前還是正常的。

4. 報錯’utf-8’ codec can’t decode byte 0xff in position 1: invalid start byte

遇到這個問題，實在無語，我懷疑后面的評論是新出的 emjoy，然后utf-8不能識別，程序掛掉了。但是選取其他格式，在解釋的過程估計還會掛掉，就暫時爬到1萬條吧。

python 爬取騰訊視頻評論的實現(xiàn)步驟

四、完整代碼

代碼倉庫

以上就是python 爬取騰訊視頻評論的實現(xiàn)步驟的詳細(xì)內(nèi)容，更多關(guān)于python 爬取騰訊視頻評論的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

騰訊視頻 Python

相關(guān)文章：

1. ThinkPHP5 通過ajax插入圖片并實時顯示(完整代碼)2. javascript設(shè)計模式 ? 建造者模式原理與應(yīng)用實例分析3. Python使用oslo.vmware管理ESXI虛擬機的示例參考4. IDEA EasyCode 一鍵幫你生成所需代碼5. Java構(gòu)建JDBC應(yīng)用程序的實例操作6. 一篇文章帶你了解JavaScript-對象7. IntelliJ IDEA設(shè)置條件斷點的方法步驟8. Express 框架中使用 EJS 模板引擎并結(jié)合 silly-datetime 庫進行日期格式化的實現(xiàn)方法9. python flask框架快速入門10. 解決Python paramiko 模塊遠程執(zhí)行ssh 命令 nohup 不生效的問題

排行榜

					
					Java構(gòu)建JDBC應(yīng)用程序的實例操作
IDEA EasyCode 一鍵幫你生成所需代碼
ThinkPHP5 通過ajax插入圖片并實時顯示(完整代碼)
Python使用oslo.vmware管理ESXI虛擬機的示例參考
一篇文章帶你了解JavaScript-對象
Express 框架中使用 EJS 模板引擎并結(jié)合 silly-datetime 庫進行日期格式化的實現(xiàn)方法
javascript設(shè)計模式 ? 建造者模式原理與應(yīng)用實例分析
IntelliJ IDEA設(shè)置條件斷點的方法步驟
JavaScript Tab菜單實現(xiàn)過程解析
Spring應(yīng)用拋出NoUniqueBeanDefinitionException異常的解決方案
idea設(shè)置自動導(dǎo)入依賴的方法步驟