成人视屏在线观看-国产99精品-国产精品1区2区-欧美一级在线观看-国产一区二区日韩-色九九九

您的位置:首頁技術(shù)文章
文章詳情頁

python - 大文本數(shù)據(jù)合并問題思路

瀏覽:92日期:2022-08-12 15:46:37

問題描述

背景:

我有三個(gè)csv文件,分別如下:

afile: userid, username, ....bfile: postid, userid, postname, ...cfile: postid, postnum, ...

afile = 10Gbfile = 150Gcfile = 20G

注:各個(gè)field的分隔符并不是單個(gè)字符(例如逗號(hào)),而是一串特殊符號(hào),因?yàn)椴糠謋ield可能會(huì)包含某些單字符分隔符,鍵盤上的單字符都試過了,都有包含,所以用了一串幾個(gè)字符組成的特殊字符串來分隔,所以并不是嚴(yán)格的csv,這是最蛋疼的地方

目的:

我想合并這三個(gè)文件,bfile和cfile根據(jù)postid列合并,合并后再根據(jù)userid列合并afile,最終大概是postid, userid, postname, postnum, username這樣的形式。

目前我的偽代碼如下:

import pandas as pdchunksize = 1000000 # 100W 目前看沒問題 try:resultchunktotal = []bfilereader = pd.read_csv(bfile, iterator=True, engine=’python’, sep=’##’)goon_1 = Truewhile goon_1: try:# 分塊讀取 bfilebfilechunk = bfilereader.get_chunk(chunksize)if not bfilechunk.empty: cfilereader = pd.read_csv(cfile, iterator=True, engine=’python’, sep=’##’) goon_2 = True while goon_2:try: # 分塊讀取 cfile cfilechunk = cfilereader.get_chunk(chunksize) if not cfilechunk.empty:bfilecfilechunk = pd.merge(bfilechunk, cfilechunk, on=’postid’)# 不為空代表 bfile cfile有共同的postidif not bfilecfilechunk.empty: afilereader = pd.read_csv(afile, iterator=True, engine=’python’, sep=’##’) goon_3 = True while goon_3:try: # 分塊讀取afile afilechunk = afilereader.get_chunk(chunksize) if not afilechunk.empty:chunkresult = pd.merge(bfilecfilechunk, afilechunk, on=’’)# 不為空表示有共同的useridif not chunkresult.empty:resultchunktotal.append(chunkresult)except StopIteration: goon_3 = Falseexcept StopIteration: goon_2 = False except StopIteration:goon_1 = Falseif len(resultchunktotal) > 0: pd.concat(resultchunktotal).to_csv(’result.csv’, index=False) except Exception as e:print(e)

但是感覺這樣,很低效,所以跪求各位大神好的思路以及好的工具方法

ps: 這是一道“大數(shù)據(jù)”的偽命題,無非數(shù)據(jù)稍大了點(diǎn)

問題解答

回答1:

別寫代碼啦。看起來是一行 shell 腳本的事情,用 xsv join 子命令。

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 一级美女黄色片 | 日本精品一区二区三区在线视频 | 久草在线2 | 国产孕妇孕交大片孕 | 91免费视 | 一级做a毛片免费视频 | 亚洲精品一区国产二区 | 日韩精品999 | 欧美一区二区三区久久综 | 福利视频美女国产精品 | 日韩高清在线不卡 | 国产成人久久精品二区三区 | 欧美精品久久久久久久免费观看 | 久久精品国产午夜伦班片 | 国产午夜亚洲精品理论片不卡 | 久久99国产精品 | 欧洲老妇bbbbbxxxxx | 日韩三级在线 | 一级不卡毛片免费 | 黄色亚洲网站 | 五月激情丁香婷婷综合第九 | bt天堂午夜国产精品 | 99视频在线观看视频一区 | cao草棚视频网址成人 | 视频一区在线播放 | 中文字幕曰韩一区二区不卡 | 在线久草视频 | 国产精品日韩一区二区三区 | 亚洲精品不卡久久久久久 | 国产福利一区二区在线精品 | 免费看日韩欧美一级毛片 | 精品国产_亚洲人成在线高清 | 欧美一级片a | 青青爽国产手机在线观看免费 | 日本高清免费视频www | 国内成人自拍视频 | 日韩精品中文字幕视频一区 | jizzjizz成熟丰满舒服 | 特级av毛片免费观看 | 在线一区二区三区 | 性感美女视频黄.免费网站 性高湖久久久久久久久 |