成人视屏在线观看-国产99精品-国产精品1区2区-欧美一级在线观看-国产一区二区日韩-色九九九

您的位置:首頁技術文章
文章詳情頁

網頁爬蟲 - 博客園博客中的圖片怎么用python爬取下來?

瀏覽:114日期:2022-07-25 17:42:22

問題描述

寫了一小段代碼,爬取博客園博客中的圖片,這段代碼對部分鏈接有效,還有一部分鏈接一爬就報錯,這是什么原因呢?

#coding=utf-8import urllibimport refrom lxml import etree#解析地址def getHtml(url): page = urllib.urlopen(url) html = page.read() return html#獲取地址并建樹url = 'http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html'html = getHtml(url)html = html.decode('utf-8')tree = etree.HTML(html)#保存圖片至本地reg = r’src='http://m.cgvv.com.cn/wenda/(.*?)' alt’imgre = re.compile(reg)imglist = re.findall(imgre, html)x = 0for imgurl in imglist: urllib.urlretrieve(imgurl, ’%s.jpg’ % x) x += 1

如圖,可以正確爬取圖片網頁爬蟲 - 博客園博客中的圖片怎么用python爬取下來?

若把url換為

url = 'http://www.cnblogs.com/baronzhang/p/6861258.html'

則立馬報錯

網頁爬蟲 - 博客園博客中的圖片怎么用python爬取下來?

求解決,謝謝!

問題解答

回答1:

錯誤提示已經很明顯了,你去看下網頁源代碼,匹配到的第一張圖片是一個GIF格式的,并且還是相對路徑,所以你是下載不到的,故提示IOerror,就算你下載到了,因為你指定了格式為JPG,你也打不開。 因此你需要做的就是判斷和篩選

for imgurl in imglist: if 'gif' not in imgurl:urllib.urlretrieve(imgurl, ’%s.jpg’ % x)x += 1

看下我增加的地方,當然這只是最簡單的判斷,但可以保證你第二個程序不會報錯,也是給你一個思路!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 网禁呦萝资源网站在线观看 | 99久免费精品视频在线观看2 | 理论视频在线观看 | 理伦毛片 | 俄罗斯aa毛片一级 | 香港激情三级做爰小说 | 盈盈性影院 | 欧美一级特黄做 | 久久久国产高清 | 欧美在线香蕉在线现视频 | 欧美性生交大片免费看 | 亚洲综合资源 | 写真片福利视频在线播放 | 欧美性色xo影院在线观看 | 日本wwwwwwwww| 国产成人3p视频免费观看 | 久久99亚洲精品久久久久99 | 亚洲欧美综合国产不卡 | 91热国产 | 欧美高清在线视频一区二区 | 国产国产人免费人成成免视频 | 国产精品二区三区 | 天堂资源8中文最新版在线 天堂最新版 | 国产va精品网站精品网站精品 | 香蕉依依精品视频在线播放 | 国产91精品一区二区 | 欧美做爰孕妇群 | 成人黄激情免费视频 | 三级网站免费看 | 又www又黄又爽啪啪网站 | 亚洲第一页在线播放 | 欧美综合自拍亚洲综合 | 日韩精品在线免费观看 | 久久久亚洲精品国产 | 99草精品视频 | 亚洲精品一级一区二区三区 | aaaa级毛片欧美的 | 免费三级毛片 | 亚洲狠狠ady亚洲精品大秀 | 国产欧美另类性视频 | 国产精品高清免费网站 |