文章詳情頁

Python實現快速大文件比較代碼解析

瀏覽：3日期：2022-07-12 10:37:15

問題

假如，在有兩個大文件分別存儲了大量的數據，數據其實很簡單就是一堆字符串，每行存儲一條，如何快速篩選出兩個文件的異同之處么，或者如何篩選出兩個文件中不同的元素呢？

剛開始我是通過最簡單的方法，利用for循環去一個個的判斷，時間復雜度為m的n次冪，當然當文件數量級為十萬或者百萬時，速率簡直慢到了極點。

解決方法

利用set()的different(方法)可快速比較，兩個set集合的不同之處，也就是對集合進行數學運算

假設:數據1擁有858882條記錄，數據2有360029條記錄，快速挑選出數據2中而不存在與數據1中的數據

方法：先將兩個文件中的數據讀入兩個list：data1和data2，然后通過：set(data2).difference(set(data1))，獲取data2與data1的差集

下面為一個小的demo，可以看到近百萬級的數據，比較出差集也就需要1秒左右，效率不是一般的高

import timet1 = time.time()data1 = []for i in open('inDB.txt','r',encoding='utf-8'): i = i.strip('n') i = i.lower() data1.append(i)data2 = []for i in open('data/18年.filename','r',encoding='utf-8'): i = i.strip('n') i = i.lower() data2.append(i)newdata = set(data2).difference(set(data1))t2 = time.time()print(f'data1 length:t{len(data1)}')print(f'data2 length:t{len(data2)}')print(f'newdata length:t{len(newdata)}')print(f'time use:t{round(t2 - t1,3)}s')

Python實現快速大文件比較代碼解析

list最多可以存放多少條數據呢？

python中list最多可以存放多少條數據呢？

對于這個問題，有個網友調研了python的文檔，結果跟計算機的性能相關

64位機器：2^63-1=922337203685477580732位機器：2^31-1=2147483647import sysprint(sys.maxsize)print(pow(2,63)-1)92233720368547758079223372036854775807

集合set的操作

內置函數作用 add() 為集合添加元素 clear() 移除集合中的所有元素 copy() 拷貝一個集合 difference() 返回多個集合的差集 difference_update() 移除集合中的元素，該元素在指定的集合也存在。 discard() 刪除集合中指定的元素 intersection() 返回集合的交集 intersection_update() 返回集合的交集。 isdisjoint() 判斷兩個集合是否包含相同的元素，如果沒有返回 True，否則返回 False。 issubset() 判斷指定集合是否為該方法參數集合的子集。 issuperset() 判斷該方法的參數集合是否為指定集合的子集 pop() 隨機移除元素 remove() 移除指定元素 symmetric_difference() 返回兩個集合中不重復的元素集合。 symmetric_difference_update() 移除當前集合中在另外一個指定集合相同的元素，并將另外一個指定集合中不同的元素插入到當前集合中。 union() 返回兩個集合的并集 update() 給集合添加元素

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網。

Python 編程

上一條：Python filter()及reduce()函數使用方法解析下一條：基于python實現圖片轉字符畫代碼實例

相關文章：

1. PHP循環與分支知識點梳理2. WMLScript的語法基礎3. js的一些潛在規則使用分析4. 利用CSS制作3D動畫5. javascript xml xsl取值及數據修改第1/2頁6. asp與php中定時生成頁面的思路與代碼7. WML語言的基本情況8. asp批量添加修改刪除操作示例代碼9. XML入門的常見問題(四)10. HTML5 Canvas繪制圖形從入門到精通

排行榜

					
					AJAX原理以及axios、fetch區別實例詳解
python學習之plot函數的使用教程
PHP5中PDO的簡單使用
深入了解JAVA 虛引用
python按照list中字典的某key去重的示例代碼
npm下載慢或下載失敗問題解決的三種方法
javascript函數報Uncaught?ReferenceError:?XXX?is?not?defined
SpringBoot2.3.0配置JPA的實現示例
django 解決model中類寫不到數據庫中,數據庫無此字段的問題
詳解Java中的HashTable
Android okhttp的啟動流程及源碼解析