国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

python - 關于代碼的優化問題

瀏覽:119日期:2022-08-17 09:32:17

問題描述

我新手寫的代碼,用來處理爬蟲下來的htm文件內容,雖然解決問題,但是會有遺漏文件不處理。爬蟲是爬一些文章的網站下來的,和網頁另存為沒什么區別。

想大神們幫我看看我的代碼,怎么優化不會有遺漏。比較小白的代碼,麻煩了!!!

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’&#8217;’, ’’, threetxt) fivetxt=re.sub(’&#8221;’, ’'’, fourtxt) sixtxt=re.sub(’&#8220;’, ’'’, fivetxt)endstr=re.sub(’&#8211;’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

問題解答

回答1:

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 亚洲深夜视频 | 久草手机在线视频 | 免费一区区三区四区 | 播播网手机在线播放 | 在线免费成人网 | 成人男男黄网色视频免费 | 欧美一级欧美一级在线播放 | 黄色美女视频网站 | 九九久久国产 | 国内偷拍免费视频 | 中文字幕一区二区三区视频在线 | 国产系列在线观看 | 91久久精品国产一区二区 | 欧美日韩亚洲一区二区三区在线观看 | ririai99在线视频观看 | 亚洲网站www | 成人看片黄a毛片 | 国产午夜精品久久久久免费视 | 欧美日韩一区二区三在线 | 国产极品精频在线观看 | 日韩男人天堂 | 欧美一级片免费在线观看 | 欧美成人精品久久精品 | 特黄大片aaaaa毛片 | 成人免费视频一区二区 | 国产91专区 | 国产自产在线 | 韩国日本一级毛片免费视频 | 久久精品成人一区二区三区 | 成a人片亚洲日本久久 | 欧美亚洲国产人成aaa | 女人被男人躁得好爽免费视频免费 | 永久黄网站色视频免费网站 | 国内精品免费一区二区三区 | 99久久精品国产一区二区小说 | 99视频免费在线 | 亚洲图片偷拍自拍 | 亚洲一区二区三区久久久久 | 加勒比毛片 | 久久精品国产亚洲欧美 | 欧美91精品久久久久网免费 |