文章詳情頁

使用Python爬取小姐姐圖片（beautifulsoup法）

瀏覽：2日期：2022-06-28 08:01:17

Python有許多強大的庫用于爬蟲，如beautifulsoup、requests等，本文將以網站https://www.xiurenji.cc/XiuRen/為例（慎點！！），講解網絡爬取圖片的一般步驟。為什么選擇這個網站？其實與網站的內容無關。主要有兩項技術層面的原因：①該網站的頁面構造較有規律，適合新手對爬蟲的技巧加強認識。②該網站沒有反爬蟲機制，可以放心使用爬蟲。

第三方庫需求

beautifulsoup requests 步驟

打開網站，點擊不同的頁面：發現其首頁是https://www.xiurenji.cc/XiuRen/，而第二頁是https://www.xiurenji.cc/XiuRen/index2.html，第三頁第四頁以此類推。為了爬蟲代碼的普適性，我們不妨從第二頁以后進行構造url。

使用Python爬取小姐姐圖片（beautifulsoup法）

選中封面圖片，點擊檢查：

使用Python爬取小姐姐圖片（beautifulsoup法）

可以發現，圖片的信息，都在’div’,class_=’dan’里，而鏈接又在a標簽下的href里。據此我們可以寫一段代碼提取出每一個封面圖片的url：

def getFirstPage(page): url=’https://www.xiurenji.cc/XiuRen/index’+str(page)+’.html’#獲得網站每一個首頁的網址 res=requests.get(url)#發送請求 res.encoding='gbk'#設置編碼方式為gbk html=res.text soup=BeautifulSoup(html,features=’lxml’) lists=soup.find_all(’div’,class_=’dan’)#找到儲存每一個封面圖片的標簽值 urls=[] for item in lists: url1=item.find(’a’).get(’href’)#尋找每一個封面對應的網址 urls.append(’https://www.xiurenji.cc’+url1)#在列表的尾部添加一個元素，達到擴充列表的目的，注意要把網址擴充完整 return urls#返回該主頁每一個封面對應的網址

點擊封面圖片，打開不同的頁面，可以發現，首頁的網址是https://www.xiurenji.cc/XiuRen/xxxx.html，而第二頁的網址是https://www.xiurenji.cc/XiuRen/xxxx_1.html，第三第四頁同理。同樣為了普適性，我們從第二頁開始爬取。

使用Python爬取小姐姐圖片（beautifulsoup法）

右鍵，點擊“檢查”：

使用Python爬取小姐姐圖片（beautifulsoup法）

可以發現所有的圖片信息都儲存在’div’,class_=’img’中，鏈接、標題分別在img標簽中的src和alt中，我們同樣也可以將它們提取出來。

完整代碼

import requestsfrom bs4 import BeautifulSoupdef getFirstPage(page): url=’https://www.xiurenji.cc/XiuRen/index’+str(page)+’.html’#獲得網站每一個首頁的網址 res=requests.get(url)#發送請求 res.encoding='gbk'#設置編碼方式為gbk html=res.text soup=BeautifulSoup(html,features=’lxml’) lists=soup.find_all(’div’,class_=’dan’)#找到儲存每一個封面圖片的標簽值 urls=[] for item in lists: url1=item.find(’a’).get(’href’)#尋找每一個封面對應的網址 urls.append(’https://www.xiurenji.cc’+url1)#在列表的尾部添加一個元素，達到擴充列表的目的，注意要把網址擴充完整 return urls#返回該主頁每一個封面對應的網址def download(urls): for url1 in urls: print('prepare to download pictures in '+url1) getEveryPage(url1)#下載頁面內的圖片 print('all pictures in '+url1+'are downloaded') def getEveryPage(url1): total=0#total的作用：對屬于每一個封面內的圖片一次編號 for n in range (1,11):#每一個封面對應下載10張圖，可自行調整 temp=url1.replace(’.html’,’’) url2=temp+’_’+str(n)+’.html’#獲得每一內部頁面的網址 res=requests.get(url2) res.encoding='gbk' html=res.text soup=BeautifulSoup(html,features=’lxml’) lists1=soup.find_all(’div’,class_=’img’)#儲存圖片的路徑 for item in lists1: url=item.find(’img’).get(’src’) title=item.find(’img’).get(’alt’)#獲取圖片及其標題 picurl=’https://www.xiurenji.cc’+url#獲取完整的圖片標題 picture=requests.get(picurl).content#下載圖片 address=’D:pythonimages’+’’#自定義保存圖片的路徑 with open(address+title+str(total)+’.jpg’,’wb’) as file:#保存圖片 print('downloading'+title+str(total)) total=total+1 file.write(picture) if __name__ == '__main__': page=int(input(’input the page you want:’)) urls=getFirstPage(page) download(urls)

本文僅供學習參考，切勿用作其他用途！

到此這篇關于Python爬取小姐姐圖片（beautifulsoup法）的文章就介紹到這了,更多相關Python爬取小姐姐圖片內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：python繪圖模塊之利用turtle畫圖下一條：python 獲取域名到期時間的方法步驟

相關文章：

1. XML入門的常見問題(三)2. .NET Core 分布式任務調度ScheduleMaster詳解3. 不要在HTML中濫用div4. HTML5實戰與剖析之觸摸事件(touchstart、touchmove和touchend)5. CSS清除浮動方法匯總6. HTTP協議常用的請求頭和響應頭響應詳解說明（學習）7. XML在語音合成中的應用8. ASP將數字轉中文數字(大寫金額)的函數9. XML 非法字符（轉義字符）10. jscript與vbscript 操作XML元素屬性的代碼

排行榜

					
					PHP擴展之壓縮與歸檔擴展1——Bzip2
JavaScript函數重載操作實例淺析
Android實現動態改變shape.xml中圖形的顏色
python GUI庫圖形界面開發之PyQt5滑塊條控件QSlider詳細使用方法與實例
Java基于注解實現的鎖實例解析
python使用ctypes庫調用DLL動態鏈接庫
老虎身上的斑紋－－－正確使用JAVA1.5里的Annotation
ASP.NET MVC實現橫向展示購物車
Spring EL表示式的運用@Value說明
python正則表達式re.match()匹配多個字符方法的實現
.Net加密神器Eazfuscator.NET?2023.2?最新版使用教程