国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python文本處理的方案(結(jié)巴分詞并去除符號(hào))

瀏覽:3日期:2022-06-18 11:21:09
看代碼吧~

import reimport jieba.analyseimport codecsimport pandas as pddef simplification_text(xianbingshi): '''提取文本''' xianbingshi_simplification = [] with codecs.open(xianbingshi,’r’,’utf8’) as f:for line in f : line = line.strip() line_write = re.findall(’(?<=<b>).*?(?=<e>)’,line) for line in line_write:xianbingshi_simplification.append(line) with codecs.open(r’C:UsersAdministrator.SC-201812211013PycharmProjectsuntitled29yiwoqucodexianbingshi_write.txt’,’w’,’utf8’) as f:for line in xianbingshi_simplification: f.write(line + ’n’)def jieba_text(): '''''' word_list = [] data = open(r'C:UsersAdministrator.SC-201812211013PycharmProjectsuntitled29xianbingshi_write.txt', encoding=’utf-8’).read() seg_list = jieba.cut(data, cut_all=False) # 精確模式 for i in seg_list:word_list.append(i.strip()) data_quchong = pd.DataFrame({’a’:word_list}) data_quchong.drop_duplicates(subset=[’a’],keep=’first’,inplace=True) word_list = data_quchong[’a’].tolist() with codecs.open(’word.txt’,’w’,’utf8’)as w:for line in word_list: w.write(line + ’n’)def word_messy(word): '''詞語(yǔ)提煉''' word_sub_list = [] with codecs.open(word,’r’,’utf8’) as f:for line in f: line_sub = re.sub('^[1-9]d*.d*|^[A-Za-z0-9]+$|^[0-9]*$|^(-?d+)(.d+)?$|^[A-Za-z0-9]{4,40}.*?',’’,line) word_sub_list.append(line_sub) word_sub_list.sort() with codecs.open(’word.txt’,’w’,’utf8’)as w:for line in word_sub_list: w.write(line.strip('n') + ’n’)if __name__ == ’__main__’: xianbingshi = r’C:UsersAdministrator.SC-201812211013PycharmProjectsuntitled29yiwoquxianbingshi_sub_sen_all(1).txt’ # simplification_text(xianbingshi) # word = r’C:UsersAdministrator.SC-201812211013PycharmProjectsuntitled29word.txt’ simplification_text(xianbingshi)

補(bǔ)充:python 進(jìn)行結(jié)巴分詞 并且用re去掉符號(hào)

看代碼吧~

# 把停用詞做成字典stopwords = {}fstop = open(’stop_words.txt’, ’r’,encoding=’utf-8’,errors=’ingnore’)for eachWord in fstop: stopwords[eachWord.strip()] = eachWord.strip() #停用詞典fstop.close()f1=open(’all.txt’,’r’,encoding=’utf-8’,errors=’ignore’)f2=open(’allutf11.txt’,’w’,encoding=’utf-8’)line=f1.readline()while line: line = line.strip() #去前后的空格 line = re.sub(r'[0-9s+.!/_,$%^*()?;;:-【】+'’]+|[+——!,;:。?、~@#¥%……&*()]+', ' ', line) #去標(biāo)點(diǎn)符號(hào) seg_list=jieba.cut(line,cut_all=False) #結(jié)巴分詞 outStr='' for word in seg_list:if word not in stopwords: outStr+=word outStr+=' ' f2.write(outStr) line=f1.readline()f1.close()f2.close()

python文本處理的方案(結(jié)巴分詞并去除符號(hào))

以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持好吧啦網(wǎng)。

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 国产精品无圣光一区二区 | 免费播放毛片 | 456主播喷水在线观看 | 国产精自产拍久久久久久 | 99久久精品免费看国产免费软件 | 久久精品国产91久久综合麻豆自制 | 久久国产精品自线拍免费 | 日韩亚洲人成网站在线播放 | 国产精品久久久久久久hd | 欧美日韩性视频一区二区三区 | 欧美做爰孕妇群 | 亚洲欧美韩日 | 91国内精品久久久久影院优播 | 久草在线视频免费资源观看 | 中文字幕亚洲一区二区va在线 | www.91亚洲| 欧美白人和黑人xxxx猛交视频 | 女人张开腿让男人 | 久草在线最新 | 国产精品亚洲二区在线 | 成人一级网站 | 91tv成人影院免费 | 国产乱子伦真实china | 女人张开腿给男人桶爽免费 | 亚洲精品三级 | 久久精品国产亚洲网站 | 久久久久国产一级毛片高清板 | 激情综| 亚洲字幕 | 国产精品久久久久亚洲 | 日韩精品毛片 | 亚洲欧美久久一区二区 | 亚洲无卡视频 | 欧美大尺度aaa级毛片 | 亚洲国产成人影院播放 | 韩国一级性生活片 | 欧美一级毛片欧美一级成人毛片 | 日本一视频一区视频二区 | 国产美女视频黄a视频全免费网站 | 国产一区二区在线观看视频 | 国产精品久久永久免费 |