国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

Python網頁解析器使用實例詳解

瀏覽:109日期:2022-07-23 18:07:59

python 網頁解析器

1、常見的python網頁解析工具有:re正則匹配、python自帶的html.parser模塊、第三方庫BeautifulSoup(重點學習)以及lxm庫。

Python網頁解析器使用實例詳解

2、常見網頁解析器分類

(1)模糊匹配 :re正則表達式即為字符串式的模糊匹配模式;

(2)結構化解析: BeatufiulSoup、html.parser與lxml,他們都以DOM樹結構為標準,進行標簽結構信息的提取。

3.DOM樹解釋:即文檔對象模型(Document Object Model),其樹形標簽結構,請見下圖。

所謂結構化解析,就是網頁解析器它會將下載的整個HTML文檔當成一個Doucment對象,然后在利用其上下結構的標簽形式,對這個對象進行上下級的標簽進行遍歷和信息提取操作。

# 引入相關的包,urllib與bs4,是獲取和解析網頁最常用的庫from urllib.request import urlopenfrom bs4 import BeautifulSoup# 打開鏈接html=urlopen('https://www.datalearner.com/website_navi')# 通過urlopen獲得網頁對象,將其放入BeautifulSoup中,bsObj存放的目標網頁的html文檔bsObj=BeautifulSoup(html.read())print(bsObj)

# soup = BeautifulSoup(open(url,’r’,encoding = ’utf-8’))

import requestsfrom bs4 import BeautifulSoupheaders={’User-Agent’: ’Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36’,’referer’:'www.mmjpg.com' }all_url = ’http://www.mmjpg.com/’ #’User-Agent’:請求方式 #’referer’:從哪個鏈接跳轉進來的start_html = requests.get(all_url, headers=headers) #all_url:起始的地址,也就是訪問的第一個頁面 #headers:請求頭,告訴服務器是誰來了。 #requests.get:一個方法能獲取all_url的頁面內容并且返回內容。Soup = BeautifulSoup(start_html.text, ’lxml’) #BeautifulSoup:解析頁面 #lxml:解析器 #start_html.text:頁面的內容

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 久久成人国产精品 | 色屁屁一区二区三区视频国产 | 亚洲欧美成人综合在线 | 欧美色欧美亚洲高清在线视频 | 九九线精品视频 | 欧美三级在线 | 欧美成人免费一区在线播放 | 国产日本三级 | 午夜香港三级a三级三点 | 九九热视频在线免费观看 | 91香蕉成人 | 精品国产1区 | 国产午夜精品理论片久久影视 | 国产精品自拍亚洲 | 日本视频播放免费线上观看 | 亚洲看片网 | 碰碰碰人人澡人人爱摸 | 丝袜足液精子免费视频 | 久久久久亚洲精品影视 | 亚洲精品国产精品一区二区 | 久久精品国产99久久久 | 成人国产在线不卡视频 | 午夜爽爽爽男女免费观看hd | 97青草香蕉依人在线播放 | 日韩一级精品视频在线观看 | 成人免费大片黄在线观看com | 台湾黄三级高清在线观看播放 | 欧美视频网站在线观看 | 天天精品在线 | 久久成人免费网站 | 亚洲美女视频 | 欧美日韩精品一区二区三区视频播放 | 日韩欧美中文字幕在线视频 | 欧美做a欧美| 亚洲第五色综合网啪啪 | 一级片中文字幕 | 免费看孕妇毛片全部播放 | 欧美一区二区三区高清视频 | 一区二区三区在线播放视频 | 91久久99| 亚洲欧美日韩精品香蕉 |