文章詳情頁(yè)

Python 循環(huán)讀取數(shù)據(jù)內(nèi)存不足的解決方案

瀏覽：88日期：2022-06-18 13:11:44

看代碼吧~

import gcfor x in list(locals().keys())[:]: del locals()[x]# del all_s_x, AE, AE_split, x_ticks, splitgc.collect()

補(bǔ)充：Python讀取大文件的'坑“與內(nèi)存占用檢測(cè)

python讀寫(xiě)文件的api都很簡(jiǎn)單，一不留神就容易踩”坑“。筆者記錄一次踩坑歷程，并且給了一些總結(jié)，希望到大家在使用python的過(guò)程之中，能夠避免一些可能產(chǎn)生隱患的代碼。

1.read()與readlines()：

隨手搜索python讀寫(xiě)文件的教程，很經(jīng)常看到read()與readlines()這對(duì)函數(shù)。所以我們會(huì)常常看到如下代碼：

with open(file_path, ’rb’) as f: sha1Obj.update(f.read())

with open(file_path, ’rb’) as f: for line in f.readlines():print(line)

這對(duì)方法在讀取小文件時(shí)確實(shí)不會(huì)產(chǎn)生什么異常，但是一旦讀取大文件，很容易會(huì)產(chǎn)生MemoryError，也就是內(nèi)存溢出的問(wèn)題。

Why Memory Error？

我們首先來(lái)看看這兩個(gè)方法：

當(dāng)默認(rèn)參數(shù)size=-1時(shí)，read方法會(huì)讀取直到EOF，當(dāng)文件大小大于可用內(nèi)存時(shí)，自然會(huì)發(fā)生內(nèi)存溢出的錯(cuò)誤。

Python 循環(huán)讀取數(shù)據(jù)內(nèi)存不足的解決方案

同樣的，readlines會(huì)構(gòu)造一個(gè)list。list而不是iter，所以所有的內(nèi)容都會(huì)保存在內(nèi)存之上，同樣也會(huì)發(fā)生內(nèi)存溢出的錯(cuò)誤。

Python 循環(huán)讀取數(shù)據(jù)內(nèi)存不足的解決方案

2.正確的用法：

在實(shí)際運(yùn)行的系統(tǒng)之中如果寫(xiě)出上述代碼是十分危險(xiǎn)的，這種”坑“十分隱蔽。所以接下來(lái)我們來(lái)了解一下正確用，正確的用法也很簡(jiǎn)單，依照API之中對(duì)函數(shù)的描述來(lái)進(jìn)行對(duì)應(yīng)的編碼就OK了：

如果是二進(jìn)制文件推薦用如下這種寫(xiě)法，可以自己指定緩沖區(qū)有多少byte。顯然緩沖區(qū)越大，讀取速度越快。

with open(file_path, ’rb’) as f: while True:buf = f.read(1024)if buf:sha1Obj.update(buf)else: break

而如果是文本文件，則可以用readline方法或直接迭代文件（python這里封裝了一個(gè)語(yǔ)法糖，二者的內(nèi)生邏輯一致，不過(guò)顯然迭代文件的寫(xiě)法更pythonic ）每次讀取一行，效率是比較低的。筆者簡(jiǎn)單測(cè)試了一下，在3G文件之下，大概性能和前者差了20%.

with open(file_path, ’rb’) as f: while True:line = f.readline()if buf:print(line)else: breakwith open(file_path, ’rb’) as f: for line in f:print(line)3.內(nèi)存檢測(cè)工具的介紹：

對(duì)于python代碼的內(nèi)存占用問(wèn)題，對(duì)于代碼進(jìn)行內(nèi)存監(jiān)控十分必要。這里筆者這里推薦兩個(gè)小工具來(lái)檢測(cè)python代碼的內(nèi)存占用。

memory_profiler

首先先用pip安裝memory_profiler

pip install memory_profiler

memory_profiler是利用python的裝飾器工作的，所以我們需要在進(jìn)行測(cè)試的函數(shù)上添加裝飾器。

from hashlib import sha1import sys@profiledef my_func(): sha1Obj = sha1() with open(sys.argv[1], ’rb’) as f:while True: buf = f.read(10 * 1024 * 1024) if buf:sha1Obj.update(buf) else:break print(sha1Obj.hexdigest())if __name__ == ’__main__’: my_func()

之后在運(yùn)行代碼時(shí)加上** -m memory_profiler**

就可以了解函數(shù)每一步代碼的內(nèi)存占用了

Python 循環(huán)讀取數(shù)據(jù)內(nèi)存不足的解決方案

guppy

依樣畫(huà)葫蘆，仍然是通過(guò)pip先安裝guppy

pip install guppy

之后可以在代碼之中利用guppy直接打印出對(duì)應(yīng)各種python類(lèi)型（list、tuple、dict等）分別創(chuàng)建了多少對(duì)象，占用了多少內(nèi)存。

from guppy import hpyimport sysdef my_func(): mem = hpy() with open(sys.argv[1], ’rb’) as f:while True: buf = f.read(10 * 1024 * 1024) if buf:print(mem.heap()) else:break

如下圖所示，可以看到打印出對(duì)應(yīng)的內(nèi)存占用數(shù)據(jù)：

Python 循環(huán)讀取數(shù)據(jù)內(nèi)存不足的解決方案

通過(guò)上述兩種工具guppy與memory_profiler可以很好地來(lái)監(jiān)控python代碼運(yùn)行時(shí)的內(nèi)存占用問(wèn)題。

4.小結(jié)：

python是一門(mén)崇尚簡(jiǎn)潔的語(yǔ)言，但是正是因?yàn)樗暮?jiǎn)潔反而更多了許多需要仔細(xì)推敲和思考的細(xì)節(jié)。希望大家在日常工作與學(xué)習(xí)之中也能多對(duì)一些細(xì)節(jié)進(jìn)行總結(jié)，少踩一些不必要的“坑”。

以上為個(gè)人經(jīng)驗(yàn)，希望能給大家一個(gè)參考，也希望大家多多支持好吧啦網(wǎng)。

Python 編程

上一條：python 辦公自動(dòng)化——基于pyqt5和openpyxl統(tǒng)計(jì)符合要求的名單下一條：python基于機(jī)器學(xué)習(xí)預(yù)測(cè)股票交易信號(hào)

相關(guān)文章：

1. python裝飾器三種裝飾模式的簡(jiǎn)單分析2. 以PHP代碼為實(shí)例詳解RabbitMQ消息隊(duì)列中間件的6種模式3. Python如何進(jìn)行時(shí)間處理4. python使用ctypes庫(kù)調(diào)用DLL動(dòng)態(tài)鏈接庫(kù)5. 詳解Python模塊化編程與裝飾器6. Python 日期與時(shí)間轉(zhuǎn)換的方法7. Python中l(wèi)ogger日志模塊詳解8. Python實(shí)現(xiàn)迪杰斯特拉算法過(guò)程解析9. python web框架的總結(jié)10. html小技巧之td,div標(biāo)簽里內(nèi)容不換行

排行榜

					
					關(guān)于Java下奇怪的Base64詳解
Python使用shutil模塊實(shí)現(xiàn)文件拷貝
Spring security 自定義過(guò)濾器實(shí)現(xiàn)Json參數(shù)傳遞并兼容表單參數(shù)(實(shí)例代碼)
SpringBoot Shiro 權(quán)限注解不起作用的解決方法
Effective java學(xué)習(xí)筆記4:避免創(chuàng)建重復(fù)對(duì)象
Java14發(fā)布了,再也不怕NullPointerException了
Python實(shí)現(xiàn)迪杰斯特拉算法過(guò)程解析
Python基于pyjnius庫(kù)實(shí)現(xiàn)訪問(wèn)java類(lèi)
Python 日期與時(shí)間轉(zhuǎn)換的方法
Android studio報(bào)錯(cuò):The emulator process for AVD (xxx) was killed
讓你的Java會(huì)說(shuō)話-用Java實(shí)現(xiàn)IRC文本到語(yǔ)音轉(zhuǎn)換
				

成人视屏在线观看-国产99精品-国产精品1区2区-欧美一级在线观看-国产一区二区日韩-色九九九

Python 循環(huán)讀取數(shù)據(jù)內(nèi)存不足的解決方案