python - 大文本數(shù)據(jù)合并問題思路
問題描述
背景:
我有三個(gè)csv文件,分別如下:
afile: userid, username, ....bfile: postid, userid, postname, ...cfile: postid, postnum, ...
afile = 10Gbfile = 150Gcfile = 20G
注:各個(gè)field的分隔符并不是單個(gè)字符(例如逗號(hào)),而是一串特殊符號(hào),因?yàn)椴糠謋ield可能會(huì)包含某些單字符分隔符,鍵盤上的單字符都試過了,都有包含,所以用了一串幾個(gè)字符組成的特殊字符串來分隔,所以并不是嚴(yán)格的csv,這是最蛋疼的地方
目的:
我想合并這三個(gè)文件,bfile和cfile根據(jù)postid列合并,合并后再根據(jù)userid列合并afile,最終大概是postid, userid, postname, postnum, username這樣的形式。
目前我的偽代碼如下:
import pandas as pdchunksize = 1000000 # 100W 目前看沒問題 try:resultchunktotal = []bfilereader = pd.read_csv(bfile, iterator=True, engine=’python’, sep=’##’)goon_1 = Truewhile goon_1: try:# 分塊讀取 bfilebfilechunk = bfilereader.get_chunk(chunksize)if not bfilechunk.empty: cfilereader = pd.read_csv(cfile, iterator=True, engine=’python’, sep=’##’) goon_2 = True while goon_2:try: # 分塊讀取 cfile cfilechunk = cfilereader.get_chunk(chunksize) if not cfilechunk.empty:bfilecfilechunk = pd.merge(bfilechunk, cfilechunk, on=’postid’)# 不為空代表 bfile cfile有共同的postidif not bfilecfilechunk.empty: afilereader = pd.read_csv(afile, iterator=True, engine=’python’, sep=’##’) goon_3 = True while goon_3:try: # 分塊讀取afile afilechunk = afilereader.get_chunk(chunksize) if not afilechunk.empty:chunkresult = pd.merge(bfilecfilechunk, afilechunk, on=’’)# 不為空表示有共同的useridif not chunkresult.empty:resultchunktotal.append(chunkresult)except StopIteration: goon_3 = Falseexcept StopIteration: goon_2 = False except StopIteration:goon_1 = Falseif len(resultchunktotal) > 0: pd.concat(resultchunktotal).to_csv(’result.csv’, index=False) except Exception as e:print(e)
但是感覺這樣,很低效,所以跪求各位大神好的思路以及好的工具方法
ps: 這是一道“大數(shù)據(jù)”的偽命題,無非數(shù)據(jù)稍大了點(diǎn)
問題解答
回答1:別寫代碼啦。看起來是一行 shell 腳本的事情,用 xsv join 子命令。
相關(guān)文章:
1. Docker for Mac 創(chuàng)建的dnsmasq容器連不上/不工作的問題2. html5 - javascript讀取自定義屬性的值,有的能夠取到,有的取不到怎么回事??3. html - Python2 BeautifulSoup 提取網(wǎng)頁中的表格數(shù)據(jù)及連接4. python - PyCharm里的一個(gè)文件不小心忽略了wx包5. android - VideoView與百度Map沖突6. python - (2006, ’MySQL server has gone away’)7. 小白學(xué)python的問題 關(guān)于%d和%s的區(qū)別8. python - 使用eclipse運(yùn)行django代碼,修改了views.py這個(gè)文件,但是瀏覽器顯示的還是原有沒修改的結(jié)果,怎么處理?9. django - pycharm 如何配置 python3 的開發(fā)環(huán)境?10. win10 Apache24+PHP8.0,Apache不能正常加載php.ini。
