国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python - 關(guān)于代碼的優(yōu)化問(wèn)題

瀏覽:155日期:2022-08-17 09:32:17

問(wèn)題描述

我新手寫的代碼,用來(lái)處理爬蟲(chóng)下來(lái)的htm文件內(nèi)容,雖然解決問(wèn)題,但是會(huì)有遺漏文件不處理。爬蟲(chóng)是爬一些文章的網(wǎng)站下來(lái)的,和網(wǎng)頁(yè)另存為沒(méi)什么區(qū)別。

想大神們幫我看看我的代碼,怎么優(yōu)化不會(huì)有遺漏。比較小白的代碼,麻煩了!!!

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’&#8217;’, ’’, threetxt) fivetxt=re.sub(’&#8221;’, ’'’, fourtxt) sixtxt=re.sub(’&#8220;’, ’'’, fivetxt)endstr=re.sub(’&#8211;’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

問(wèn)題解答

回答1:

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 欧美日韩国产一区三区 | 国产一区二区亚洲精品 | 国产欧美精品午夜在线播放 | 天天干夜夜怕 | 成人欧美一级毛片免费观看 | 九九热久久免费视频 | 二区久久国产乱子伦免费精品 | 视频一区久久 | 欧美另类孕交 | 国产精品久久久久免费a∨ 国产精品久久久久免费视频 | 亚洲涩涩精品专区 | 曰本aaaaa毛片午夜网站 | 台湾三级香港三级在线中文 | 在线观看精品国内福利视频 | 亚洲天堂手机在线 | 久久福利青草精品资源站免费 | 国产成人深夜福利在线观看 | 天天看片天天爽 | 亚洲三级一区 | 久久精品操 | 三级在线国产 | 亚洲国产中文字幕 | 男女男精品视频免费观看 | 最新在线精品国自拍视频 | 久香草视频在线观看 | 国产福利在线91 | 欧美成人影院 | 亚洲午夜成激人情在线影院 | 成人免费午夜性视频 | 精品久久在线观看 | 久久成人免费大片 | 手机看片1024欧美日韩你懂的 | 亚洲国产一区二区三区最新 | 国产草草影院ccyycom软件 | 日本三级香港三级人妇 m | 欧美精品在欧美一区二区 | 午夜三级理论在线观看视频 | 三级午夜三级三点在看 | 手机看片国产免费 | 夜夜躁狠狠躁日日躁2021 | 国产在线一区观看 |