文章詳情頁

python 爬蟲如何實現百度翻譯

瀏覽：9日期：2022-07-05 13:02:15

環境

python版本號系統游覽器 python 3.7.2 win7 google chrome

關于本文

本文將會通過爬蟲的方式實現簡單的百度翻譯。本文中的代碼只供學習，不允許作為于商務作用。商務作用請前往api.fanyi.baidu.com購買付費的api。若有侵犯，立即刪文！

實現思路

在網站文件中找到隱藏的免費api。傳入api所需要的參數并對其發出請求。在返回的json結果里找到相應的翻譯結果。

百度翻譯的反爬機制

由js算法生成的sign cookie檢測 token暗號

在網站文件中找到隱藏的免費api

進入百度翻譯，隨便輸入一段需要翻譯的文字。當翻譯結果出來的時候，按下F12，選擇到NETWORK，最后點進XHR文件。這個時候，網站文件都已經加載完了，所以要F5刷新一下。

python 爬蟲如何實現百度翻譯

刷新了之后，我們就能發現一個以v2transapi?開頭的文件，沒錯，它就是我們要找的api接口。讓我們驗證一下，點進去文件-preview，我們就可以在json格式的數據里面找到翻譯結果，驗證成功。另外，我們還需要獲取我們的cookie和token，在之后的反爬機制中我們需要用到它們，位置如以下。cookie位置：

python 爬蟲如何實現百度翻譯

token位置：

python 爬蟲如何實現百度翻譯

api信息

接口：https://fanyi.baidu.com/v2tra...請求方式：post

請求參數大全

參數介紹 from 源語言 to 目標語言 query 翻譯文本 sign 由js算法生成的簽名（反爬） token 請求暗號

開始寫代碼

導入request和execjs庫

import requestsimport execjs requests HTTP庫，用于爬蟲 execjs 用于調用js代碼

反反爬蟲

由于百度翻譯有cookie識別反爬機制，所以我們設置好我們剛剛獲取到的cookie來進行掩護網絡蜘蛛身份。

headers = {’cookie’:’請在這里輸入你的cookie’}

另外，我們還要設置好token（暗號）。

token = ’請在這里放置你的token’

最后只剩下sign反爬機制了，sign是由js算法給譯文生成的一個簽名。我在網上搜了一下，找到了相應的js算法，分享給大家。

等等，我們不是在用python進行爬蟲嗎？那我們又不會js代碼，怎么調用啊？還好python有著強大的第三方庫，當然也少不了調用js代碼的庫。調用js代碼的庫很多，但是本人還是推薦大家使用execjs，簡單功能又完整。

在調用js算法代碼之前，我們還需要讓用戶輸入一段譯文。

q = input(’翻譯：’)

之后我們就能使用execjs的compile和call方法來獲取sign了。

js = ’’’var i = '320305.131321201'function n(r, o) { for (var t = 0; t < o.length - 2; t += 3) { var a = o.charAt(t + 2); a = a >= 'a' ? a.charCodeAt(0) - 87 : Number(a), a = '+' === o.charAt(t + 1) ? r >>> a : r << a, r = '+' === o.charAt(t) ? r + a & 4294967295 : r ^ a } return r} function e(r) { var o = r.match(/[uD800-uDBFF][uDC00-uDFFF]/g); if (null === o) { var t = r.length; t > 30 && (r = '' + r.substr(0, 10) + r.substr(Math.floor(t / 2) - 5, 10) + r.substr(-10, 10)) } else { for (var e = r.split(/[uD800-uDBFF][uDC00-uDFFF]/), C = 0, h = e.length, f = []; h > C; C++) '' !== e[C] && f.push.apply(f, a(e[C].split(''))), C !== h - 1 && f.push(o[C]); var g = f.length; g > 30 && (r = f.slice(0, 10).join('') + f.slice(Math.floor(g / 2) - 5, Math.floor(g / 2) + 5).join('') + f.slice(-10).join('')) } var u = void 0, l = '' + String.fromCharCode(103) + String.fromCharCode(116) + String.fromCharCode(107); u = null !== i ? i : (i = window[l] || '') || ''; for (var d = u.split('.'), m = Number(d[0]) || 0, s = Number(d[1]) || 0, S = [], c = 0, v = 0; v < r.length; v++) { var A = r.charCodeAt(v); 128 > A ? S[c++] = A : (2048 > A ? S[c++] = A >> 6 | 192 : (55296 === (64512 & A) && v + 1 < r.length && 56320 === (64512 & r.charCodeAt(v + 1)) ? (A = 65536 + ((1023 & A) << 10) + (1023 & r.charCodeAt(++v)), S[c++] = A >> 18 | 240, S[c++] = A >> 12 & 63 | 128) : S[c++] = A >> 12 | 224, S[c++] = A >> 6 & 63 | 128), S[c++] = 63 & A | 128) } for (var p = m, F = '' + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(97) + ('' + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(54)), D = '' + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(51) + ('' + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(98)) + ('' + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(102)), b = 0; b < S.length; b++) p += S[b], p = n(p, F); return p = n(p, D), p ^= s, 0 > p && (p = (2147483647 & p) + 2147483648), p %= 1e6, p.toString() + '.' + (p ^ m)}’’’sign = execjs.compile(js).call('e',q)

（以上代碼獲取了sign）

經過一系列的反反爬蟲準備，我們就可以設置好的“源語言”和“目標語言”最后的這兩個參數了。

From = ’en’To = ’zh’

（以上代碼代表著英譯中，若要進行其它語言的翻譯，請輸入語言對應的英文縮寫，英文縮寫對應表將會放到本文最后）接著，我們就能構建參數json了。

data = {’from’:From,’to’:To,’query’:q,’sign’:sign,’token’:’14b5f31e3c65d89a0b1c3f756e53942e’}

最后，我們就能請求數據并打印了。

text = requests.post(url,headers=headers,data=data).json()print(text)

我們發現打印出來的結果是個json字典，翻譯結果就在其中，我們只需要翻譯結果，所以我們可以索引翻譯結果的位置再打印。

text = requests.post(url,headers=headers,data=data).json()[’trans_result’][’data’][0][’dst’]print(text)

運行結果：

python 爬蟲如何實現百度翻譯

完整代碼：

import requestsimport execjsurl = ’https://fanyi.baidu.com/v2transapi’headers = {’cookie’:’你的cookie’}js = ’’’var i = '320305.131321201'function n(r, o) { for (var t = 0; t < o.length - 2; t += 3) { var a = o.charAt(t + 2); a = a >= 'a' ? a.charCodeAt(0) - 87 : Number(a), a = '+' === o.charAt(t + 1) ? r >>> a : r << a, r = '+' === o.charAt(t) ? r + a & 4294967295 : r ^ a } return r} function e(r) { var o = r.match(/[uD800-uDBFF][uDC00-uDFFF]/g); if (null === o) { var t = r.length; t > 30 && (r = '' + r.substr(0, 10) + r.substr(Math.floor(t / 2) - 5, 10) + r.substr(-10, 10)) } else { for (var e = r.split(/[uD800-uDBFF][uDC00-uDFFF]/), C = 0, h = e.length, f = []; h > C; C++) '' !== e[C] && f.push.apply(f, a(e[C].split(''))), C !== h - 1 && f.push(o[C]); var g = f.length; g > 30 && (r = f.slice(0, 10).join('') + f.slice(Math.floor(g / 2) - 5, Math.floor(g / 2) + 5).join('') + f.slice(-10).join('')) } var u = void 0, l = '' + String.fromCharCode(103) + String.fromCharCode(116) + String.fromCharCode(107); u = null !== i ? i : (i = window[l] || '') || ''; for (var d = u.split('.'), m = Number(d[0]) || 0, s = Number(d[1]) || 0, S = [], c = 0, v = 0; v < r.length; v++) { var A = r.charCodeAt(v); 128 > A ? S[c++] = A : (2048 > A ? S[c++] = A >> 6 | 192 : (55296 === (64512 & A) && v + 1 < r.length && 56320 === (64512 & r.charCodeAt(v + 1)) ? (A = 65536 + ((1023 & A) << 10) + (1023 & r.charCodeAt(++v)), S[c++] = A >> 18 | 240, S[c++] = A >> 12 & 63 | 128) : S[c++] = A >> 12 | 224, S[c++] = A >> 6 & 63 | 128), S[c++] = 63 & A | 128) } for (var p = m, F = '' + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(97) + ('' + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(54)), D = '' + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(51) + ('' + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(98)) + ('' + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(102)), b = 0; b < S.length; b++) p += S[b], p = n(p, F); return p = n(p, D), p ^= s, 0 > p && (p = (2147483647 & p) + 2147483648), p %= 1e6, p.toString() + '.' + (p ^ m)}’’’From = ’源語言’To = ’目標語言’token = ’你的token’q = input(’翻譯：’)sign = execjs.compile(js).call('e',q)data = {’from’:From,’to’:To,’query’:q,’sign’:sign,’token’:token}text = requests.post(url,headers=headers,data=data).json()[’trans_result’][’data’][0][’dst’]print(text)

語言英文縮寫對應表

{’zh’: ’中文’,’jp’: ’日語’,’jpka’: ’日語假名’,’th’: ’泰語’,’fra’: ’法語’,’en’: ’英語’,’spa’: ’西班牙語’,’kor’: ’韓語’,’tr’: ’土耳其語’,’vie’: ’越南語’,’ms’: ’馬來語’,’de’: ’德語’,’ru’: ’俄語’,’ir’: ’伊朗語’,’ara’: ’阿拉伯語’,’est’: ’愛沙尼亞語’,’be’: ’白俄羅斯語’,’bul’: ’保加利亞語’,’hi’: ’印地語’,’is’: ’冰島語’,’pl’: ’波蘭語’,’fa’: ’波斯語’,’dan’: ’丹麥語’,’tl’: ’菲律賓語’,’fin’: ’芬蘭語’,’nl’: ’荷蘭語’,’ca’: ’加泰羅尼亞語’,’cs’: ’捷克語’,’hr’: ’克羅地亞語’,’lv’: ’拉脫維亞語’,’lt’: ’立陶宛語’,’rom’: ’羅馬尼亞語’,’af’: ’南非語’,’no’: ’挪威語’,’pt_BR’: ’巴西語’,’pt’: ’葡萄牙語’,’swe’: ’瑞典語’,’sr’: ’塞爾維亞語’,’eo’: ’世界語’,’sk’: ’斯洛伐克語’,’slo’: ’斯洛文尼亞語’,’sw’: ’斯瓦希里語’,’uk’: ’烏克蘭語’,’iw’: ’希伯來語’,’el’: ’希臘語’,’hu’: ’匈牙利語’,’hy’: ’亞美尼亞語’,’it’: ’意大利語’,’id’: ’印尼語’,’sq’: ’阿爾巴尼亞語’,’am’: ’阿姆哈拉語’,’as’: ’阿薩姆語’,’az’: ’阿塞拜疆語’,’eu’: ’巴斯克語’,’bn’: ’孟加拉語’,’bs’: ’波斯尼亞語’,’gl’: ’加利西亞語’,’ka’: ’格魯吉亞語’,’gu’: ’古吉拉特語’,’ha’: ’豪薩語’,’ig’: ’伊博語’,’iu’: ’因紐特語’,’ga’: ’愛爾蘭語’,’zu’: ’祖魯語’,’kn’: ’卡納達語’,’kk’: ’哈薩克語’,’ky’: ’吉爾吉斯語’,’lb’: ’盧森堡語’,’mk’: ’馬其頓語’,’mt’: ’馬耳他語’,’mi’: ’毛利語’,’mr’: ’馬拉提語’,’ne’: ’尼泊爾語’,’or’: ’奧利亞語’,’pa’: ’旁遮普語’,’qu’: ’凱楚亞語’,’tn’: ’塞茨瓦納語’,’si’: ’僧加羅語’,’ta’: ’泰米爾語’,’tt’: ’塔塔爾語’,’te’: ’泰盧固語’,’ur’: ’烏爾都語’,’uz’: ’烏茲別克語’,’cy’: ’威爾士語’,’yo’: ’約魯巴語’,’yue’: ’粵語’,’wyw’: ’文言文’,’cht’: ’中文繁體’ }

以上就是python 爬蟲如何實現百度翻譯的詳細內容，更多關于python 爬蟲實現百度翻譯的資料請關注好吧啦網其它相關文章！

百度 Python

上一條：Python 列表反轉顯示的四種方法下一條：Python list和str互轉的實現示例

相關文章：

1. CentOS郵件服務器搭建系列—— POP / IMAP 服務器的構建（ Dovecot ）2. HTTP協議常用的請求頭和響應頭響應詳解說明（學習）3. ASP.NET MVC通過勾選checkbox更改select的內容4. IntelliJ IDEA創建web項目的方法5. Django使用HTTP協議向服務器傳參方式小結6. 存儲于xml中需要的HTML轉義代碼7. .NET 6實現滑動驗證碼的示例詳解8. django創建css文件夾的具體方法9. ASP中實現字符部位類似.NET里String對象的PadLeft和PadRight函數10. 原生JS實現記憶翻牌游戲

排行榜

					
					HTTP協議常用的請求頭和響應頭響應詳解說明（學習）
IntelliJ IDEA創建web項目的方法
Django使用HTTP協議向服務器傳參方式小結
CentOS郵件服務器搭建系列—— POP / IMAP 服務器的構建（ Dovecot ）
ASP.NET MVC通過勾選checkbox更改select的內容
idea設置提示不區分大小寫的方法
django創建css文件夾的具體方法
docker容器調用yum報錯的解決辦法
IntelliJ IDEA導入項目的方法
ASP中實現字符部位類似.NET里String對象的PadLeft和PadRight函數
.NET SkiaSharp 生成二維碼驗證碼及指定區域截取方法實現