今天就跟大家聊聊有關(guān)Python中怎么查找重復(fù)文件,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
創(chuàng)新互聯(lián)主要企業(yè)基礎(chǔ)官網(wǎng)建設(shè),電商平臺(tái)建設(shè),移動(dòng)手機(jī)平臺(tái),小程序制作等一系列專為中小企業(yè)定制網(wǎng)站開發(fā)產(chǎn)品體系;應(yīng)對中小企業(yè)在互聯(lián)網(wǎng)運(yùn)營的各種問題,為中小企業(yè)在互聯(lián)網(wǎng)的運(yùn)營中保駕護(hù)航。
Python查找重復(fù)文件主要思路如下:
1. 查找同命文件
2. 利用了crc32,先檢查出同樣尺寸的文件,再計(jì)算crc32,得出相同的文件名列表。
下面是轉(zhuǎn)載的一個(gè)Python查找重復(fù)文件的代碼,雖然可以滿足要求,但是在查找大量文件時(shí)候,速度很慢,我抽空把它調(diào)優(yōu)。
#!/usr/bin/env python #coding=utf-8 import binascii, os filesizes = {} samefiles = [] def filesize(path): if os.path.isdir(path): files = os.listdir(path) for file in files: filesize(path + "/" + file) else: size = os.path.getsize(path) if not filesizes.has_key(size): filesizes[size] = [] filesizes[size].append(path) def filecrc(files): filecrcs = {} for file in files: f = open(file, "r") 23 crc = binascii.crc32(f.read()) 24 f.close() if not filecrcs.has_key(crc): filecrcs[crc] = [] filecrcs[crc].append(file) for filecrclist in filecrcs.values(): if len(filecrclist) > 1: samefiles.append(filecrclist) if __name__ == '__main__': path = r"J:\My Work" filesize(path) for sizesamefilelist in filesizes.values(): if len(sizesamefilelist) > 1: filecrc(sizesamefilelist) for samfile in samefiles: print "****** same file group ******" for file in samefile: print file
看完上述內(nèi)容,你們對Python中怎么查找重復(fù)文件有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝大家的支持。