成人视屏在线观看-国产99精品-国产精品1区2区-欧美一级在线观看-国产一区二区日韩-色九九九

您的位置:首頁技術文章
文章詳情頁

爬蟲圖片 - 請教各位:python爬蟲編碼問題,版本3.6,win10 64位下?

瀏覽:118日期:2022-07-14 15:35:50

問題描述

這是報錯信息:

Traceback (most recent call last): File 'D:pypic_downfrom2255ok.py', line 45, in <module> html = getHtml(url_all[i]) File 'D:pypic_downfrom2255ok.py', line 32, in getHtml html = response.read().decode()UnicodeDecodeError: ’utf-8’ codec can’t decode byte 0xb3 in position 184: invalid start byte

改了好多地方,主要可能是目標網站是gb2312編碼,這個程序在別的網站是可以正常下載圖片的,換上現在的網站就有問題還請各位多多指教,問題出在哪里?試了幾個方法都不行源碼如下:爬蟲圖片 - 請教各位:python爬蟲編碼問題,版本3.6,win10 64位下?

#coding=utf-8import urllib.requestfrom urllib.request import urlopen, urlretrieve import urllibimport urllib.parseimport reimport osfrom bs4 import BeautifulSoupurl_all =[’http://www.shop2255.com/showpro/2603.html’,’http://www.shop2255.com/showpro/1558.html’,’http://www.shop2255.com/showpro/1564.html’,’http://www.shop2255.com/showpro/2411.html’,’http://www.shop2255.com/showpro/2409.html’,’http://www.shop2255.com/showpro/1561.html’,’http://www.shop2255.com/showpro/2414.html’,’http://www.shop2255.com/showpro/2609.html’,’http://www.shop2255.com/showpro/2413.html’,’http://www.shop2255.com/showpro/2604.html’,’http://www.shop2255.com/showpro/2605.html’,’http://www.shop2255.com/showpro/2606.html’,’http://www.shop2255.com/showpro/2608.html’,’http://www.shop2255.com/showpro/2607.html’,’http://www.shop2255.com/showpro/2610.html’]def getHtml(url): response = urlopen(url) html = response.read().decode('gbk') return htmldef getImg(html): reg = ’src='http://m.cgvv.com.cn/wenda/(.+?.jpg)'’ imgre = re.compile(reg) imglist = re.findall(imgre,html) return imglistfor i in range(len(url_all)): html = getHtml(url_all[i]) list=getImg(html.decode()) x = 0 for imgurl in list:print(x)file_path = url_all[i](filepath,tempfilename) = os.path.split(file_path)(filename,extension) = os.path.splitext(tempfilename)if not os.path.exists(’d:%s’ % filename): os.mkdir(’d:%s’ % filename)# os.mkdir(’D:%s’ % filename2)local=r’D:%s%s.jpg’ % (filename,imgurl.splite('/')[-1])urllib.request.urlretrieve(imgurl,local)x+=1print('done')

問題解答

回答1:

# coding: utf-8import urllibimport requestsfrom pyquery import PyQuery as Qimport osbase_url = ’http://www.shop2255.com/’url_all =[’http://www.shop2255.com/showpro/2603.html’]for url in url_all: _, file_name = os.path.split(url) dir_name, _ = os.path.splitext(file_name) if not os.path.exists(dir_name):os.mkdir(dir_name) r = requests.get(url) for _ in Q(r.text).find(’img’):src = Q(_).attr(’src’)image_url = src if src.startswith(’http’) else os.path.join(base_url, src)_, image_name = os.path.split(image_url)image_path = os.path.join(dir_name, image_name)urllib.urlretrieve(image_url, image_path)回答2:

首先在你這個代碼里面 local=r’D:%s%s.jpg’ % (filename,imgurl.splite('/')[-1])中split寫成了splite.

還有 urllib.request.urlretrieve(imgurl,local)這個imgurl不是一個合法的 url,只是一個相對 url, 要改成絕對 url,需要加上 base_url = ’http://www.shop2255.com/’

還有生成的文件路徑好像也有問題.

# -*- coding: utf-8 -*-import urllib.requestfrom urllib.request import urlopen, urlretrieveimport urllibimport urllib.parseimport reimport osfrom bs4 import BeautifulSoupbase_url = ’http://www.shop2255.com/’url_all =[’http://www.shop2255.com/showpro/2603.html’,’http://www.shop2255.com/showpro/1558.html’,’http://www.shop2255.com/showpro/1564.html’,’http://www.shop2255.com/showpro/2411.html’,’http://www.shop2255.com/showpro/2409.html’,’http://www.shop2255.com/showpro/1561.html’,’http://www.shop2255.com/showpro/2414.html’,’http://www.shop2255.com/showpro/2609.html’,’http://www.shop2255.com/showpro/2413.html’,’http://www.shop2255.com/showpro/2604.html’,’http://www.shop2255.com/showpro/2605.html’,’http://www.shop2255.com/showpro/2606.html’,’http://www.shop2255.com/showpro/2608.html’,’http://www.shop2255.com/showpro/2607.html’,’http://www.shop2255.com/showpro/2610.html’]def getHtml(url): response = urlopen(url) # print(response.read()) html = response.read().decode('gbk') print(html) return htmldef getImg(html): reg = ’src='http://m.cgvv.com.cn/wenda/(.+?.jpg)'’ imgre = re.compile(reg) imglist = re.findall(imgre, html) return imglistfor i in range(len(url_all)): html = getHtml(url_all[i]) # 注意: 我這里沒有你那個錯誤,我只需要改這個就行了 # list = getImg(html.decode()) list = getImg(html) # print(list) x = 0 for imgurl in list:print(x)file_path = url_all[i](filepath, tempfilename) = os.path.split(file_path)(filename, extension) = os.path.splitext(tempfilename)if not os.path.exists(’d:%s’ % filename): os.mkdir(’d:%s’ % filename)# os.mkdir(’D:%s’ % filename2)local = r’D:%s%s.jpg’ % (filename, imgurl.split('/')[-1])try: urllib.request.urlretrieve(base_url + imgurl, local)except: print('can’t retrieve the' + base_url + imgurl)x += 1print('done')

標簽: Windows系統 win10
主站蜘蛛池模板: 中文字幕国产亚洲 | 亚洲天堂视频网站 | 成年午夜一级毛片视频 | 亚洲精品久久九九热 | 成人国产在线视频在线观看 | 国产亚洲福利精品一区二区 | 久久综合香蕉久久久久久久 | 99re6这里有精品热视频在线 | 女人张开腿让男人桶视频免费大全 | 国产精品爱久久久久久久小 | 久久aa毛片免费播放嗯啊 | 欧美日韩国产在线人成dvd | 香蕉成人 | 午夜在线播放免费人成无 | 毛茸茸年轻成熟亚洲人 | 欧美国产视频 | 欧美午夜视频一区二区三区 | 米奇777第四久久久99 | 国产成人免费在线 | 亚洲综合视频网 | 永久免费91桃色福利 | 国产精品毛片无码 | 久久精品一 | 亚州免费 | 亚洲视频aaa | 欧做爰xxxⅹ性欧美大 | 免费aⅴ在线 | 午夜看片网站 | 亚洲经典在线中文字幕 | 国产va免费精品高清在线观看 | 亚洲国产系列久久精品99人人 | 亚洲国产精品久久日 | 国产一区曰韩二区欧美三区 | 欧美精品午夜久久久伊人 | 免费看特级淫片日本 | 一区二区精品视频 | 国产美女视频网站 | 亚洲国产激情 | 国产精品久久久久久一区二区三区 | 久久综合色播 | 三级黄网|