文章詳情頁

python BeautifulSoup庫的安裝與使用

瀏覽：4日期：2022-07-01 18:52:05

1.BeautifulSoup簡介

BeautifulSoup4和 lxml 一樣，Beautiful Soup 也是一個HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 數據。

BeautifulSoup支持Python標準庫中的HTML解析器,還支持一些第三方的解析器，如果我們不安裝它，則 Python 會使用 Python默認的解析器，lxml 解析器更加強大，速度更快，推薦使用lxml 解析器。

Beautiful Soup自動將輸入文檔轉換為Unicode編碼，輸出文檔轉換為utf-8編碼。你不需要考慮編碼方式，除非文檔沒有指定一個編碼方式，這時，Beautiful Soup就不能自動識別編碼方式了。然后，你僅僅需要說明一下原始編碼方式就可以了。

2.BeautifulSoup的安裝

首先我們需要安裝一個BeautifulSoup庫。我安裝的版本是python3。所以就可以直接在cmd下用pip3命令進行安裝。

命令：

pip3 install beautifulsoup4

在安裝好BeautifulSoup后，我們可以通過導入該庫來判斷是否安裝成功。

命令：

>>> from bs4 import BeautifulSoup

回車后不報錯，這說明我們已經將其安裝成功。

3.BeautifulSoup常用功能

# beautiful soup 網頁中提取信息的python庫# BeautifulSoup 對象表示的是一個文檔的全部內容# prettify() 按照標準的縮進格式的結構輸出# get_text() 會將HTML文檔中的所有標簽清除,返回一個只包含文字的字符串from bs4 import BeautifulSouptext=’’’<?xml version='1.0' encoding='ISO-8859-1'?><bookstore><book> <title lang='eng'>Harry Potter</title> <price>29.99</price></book><book> <title lang='eng'>Learning XML</title> <price>39.95</price></book></bookstore>’’’# create 對象bf=BeautifulSoup(text)# 按照標準縮進格式輸出print(bf.prettify())# 會將HTML文檔中的所有標簽清除,返回一個只包含文字的字符串print(bf.get_text())# Tag對象 # 標簽表示HTML中的一個個標簽# name# attrstag=bf.title # 獲取title標簽print(tag)print(type(tag)) # tag類型print(tag.name) # 標簽名稱print(tag.attrs) #標簽屬性print(tag.attrs['lang']) #單獨獲取某個屬性方法1print(bf.title['lang']) #單獨獲取某個屬性方法2# NavigableString tag.string# 表示標簽中的文字print(tag.string)print(type(tag.string)) # 查看數據類型# Comment 注釋部分# 一個特殊類型的NavigableString對象# 輸出的內容不包括注釋符號string=’’’<p></p>’’’sp=BeautifulSoup(string)print(sp)print(sp.p.string) # 去獲取標簽中是文字

# 兩個常用函數 # find_all() 搜索當前tag的所有tag子節點,并判斷是否符合給定的條件# 返回結果是一個列,可以包含多個元素print(soup.find_all(’title’),end='n-------n')#find() 直接返回第一個元素print(soup.find('title'))print(soup.find_all('title',lang='eng')) # 查找title標簽屬性lang=engprint(soup.find_all('title',{'lang':'eng'})) # 結果同上print(soup.find_all(['title','price'])) #獲取多個標簽print(soup.find_all('title',lang='eng')[0].get_text()) # 獲取文本# 三大常見節點# 子節點一個Tag可能包含多個字符串或其他的tag，這些都是這個tag的子節點# 父節點配個tag或字符串都有父節點：被包含在某個tag中# 兄弟節點平級的節點end='n-------n'print(soup.book,end) # 獲取book節點信息print(soup.book.contents,end) # 獲取book下的所有子節點print(soup.book.contents[1],end) # 獲取book下的所有子節點中的第一個節點print(soup.book.children,end) # children 生成迭代器for child in soup.book.children: print('===',child) print(soup.title.parent,end)print(soup.book.parent,end)for parent in soup.title.parents: #注意parent和parents區別 print('===',parent.name) print(soup.title.next_sibling,end) # 獲取該節點的下一個兄弟節點print(soup.title.previous_sibling,end) # 獲取該節點的上一個兄弟節點print(soup.title.next_siblings,end) # 獲取該節點的全部兄弟節點for i in soup.title.next_siblings: print('===',i)

以上就是python BeautifulSoup庫的安裝與使用的詳細內容，更多關于python BeautifulSoup庫的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：python 實現一個簡單的線性回歸案例下一條：python中翻譯功能translate模塊實現方法

相關文章：

1. CSS清除浮動方法匯總2. XML入門的常見問題(三)3. HTML5實戰與剖析之觸摸事件(touchstart、touchmove和touchend)4. React優雅的封裝SvgIcon組件示例5. CSS百分比padding制作圖片自適應布局6. js開發中的頁面、屏幕、瀏覽器的位置原理（高度寬度）說明講解（附圖）7. XML 非法字符（轉義字符）8. 不要在HTML中濫用div9. 深入了解React中的合成事件10. TypeScript實現十大排序算法之歸并排序示例詳解

排行榜

					
					JavaScript函數重載操作實例淺析
解決redis與Python交互取出來的是bytes類型的問題
java語言實現猜數字游戲
用ultraEdit打造自己的java IDE
Android實現動態改變shape.xml中圖形的顏色
JavaScript css3實現簡單視頻彈幕功能
簡單的Python人臉識別系統
Android Studio 中獲取屏幕寬度實例
python GUI庫圖形界面開發之PyQt5滑塊條控件QSlider詳細使用方法與實例
Java用BigDecimal解決double類型相減時可能存在的誤差
Spring Boot 整合 JWT的方法