python - 關(guān)于代碼的優(yōu)化問(wèn)題
問(wèn)題描述
我新手寫的代碼,用來(lái)處理爬蟲(chóng)下來(lái)的htm文件內(nèi)容,雖然解決問(wèn)題,但是會(huì)有遺漏文件不處理。爬蟲(chóng)是爬一些文章的網(wǎng)站下來(lái)的,和網(wǎng)頁(yè)另存為沒(méi)什么區(qū)別。
想大神們幫我看看我的代碼,怎么優(yōu)化不會(huì)有遺漏。比較小白的代碼,麻煩了!!!
# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’’’, ’’, threetxt) fivetxt=re.sub(’”’, ’'’, fourtxt) sixtxt=re.sub(’“’, ’'’, fivetxt)endstr=re.sub(’–’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)
問(wèn)題解答
回答1:filename_list = glob.glob(’.html’) + glob.glob(’.htm’)
相關(guān)文章:
1. javascript - 在ie下為什么會(huì)出現(xiàn)這種情況呢 《 無(wú)法獲取未定義或 null 引用的屬性“l(fā)ength”》 ?請(qǐng)大神指教。2. 數(shù)據(jù)庫(kù) - Mysql的存儲(chǔ)過(guò)程真的是個(gè)坑!求助下面的存儲(chǔ)過(guò)程哪里錯(cuò)啦,實(shí)在是找不到哪里的問(wèn)題了。3. javascript - 我是做web前端的,公司最近有一個(gè)項(xiàng)目關(guān)于數(shù)據(jù)統(tǒng)計(jì)的!4. MySQL主鍵沖突時(shí)的更新操作和替換操作在功能上有什么差別(如圖)5. javascript - 只是想用node建立一個(gè)簡(jiǎn)單的服務(wù)器6. javascript - vuejs+elementui 購(gòu)物車價(jià)格計(jì)算,點(diǎn)擊加減號(hào)修改數(shù)量總價(jià)都不會(huì)改變,但是計(jì)算執(zhí)行了7. javascript - vue過(guò)渡效果 css過(guò)渡 類名的先后順序8. css右浮動(dòng)字的順序顛倒了9. html5和Flash對(duì)抗是什么情況?10. javascript - 如何使用loadash對(duì)[object,object,object]形式的數(shù)組進(jìn)行比較
