總結一下之前的項目,主要用到了Python多進程的知識,其他的一些零碎的輔助知識也會用到,這里主要對整體框架進行總結,至于性能,因為經(jīng)驗問題,不能優(yōu)化的很好,加上本項目有很多文件的讀寫,只能算穩(wěn)定而已。
創(chuàng)新互聯(lián)服務項目包括天峻網(wǎng)站建設、天峻網(wǎng)站制作、天峻網(wǎng)頁制作以及天峻網(wǎng)絡營銷策劃等。多年來,我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術優(yōu)勢、行業(yè)經(jīng)驗、深度合作伙伴關系等,向廣大中小型企業(yè)、政府機構等提供互聯(lián)網(wǎng)行業(yè)的解決方案,天峻網(wǎng)站推廣取得了明顯的社會效益與經(jīng)濟效益。目前,我們服務的客戶以成都為中心已經(jīng)輻射到天峻省份的部分城市,未來相信會繼續(xù)擴大服務區(qū)域并繼續(xù)獲得客戶的支持與信任!
這個項目是大量的音頻文件格式和頻率轉換,大概300多萬個,一個轉成7個,原來那個也要用,也就是說最后大概有300*8W個文件,總共大概2T的數(shù)據(jù)。好了,回憶下要求,首先轉換過程中不能破壞原始文件的目錄結構;第二,保證所有文件都轉換過;第三,異常檢測,日志分析,進度檢測;第四,保證意外死機等情況下,重新跑代碼可以繼續(xù)執(zhí)行上次中斷的位置而不是要重復在進行轉換(重復轉換會出現(xiàn)1個文件本來轉成8個了,那重復執(zhí)行,這8個又會各自再生出8個,就產(chǎn)生錯誤了);最后,分析匯總錯誤日志,得到最終處理結果,問題文件匯總查看原因。
其實說白了,就是保證不出現(xiàn)不可逆的錯誤,保證穩(wěn)定執(zhí)行,保證準確,保證完整,保證效率。那么我們要有一個解決問題的思路,一開始說是,有好幾臺機器可用,就用分布式框架吧,例如Hadoop。??上r間短任務重,從頭學的話,不得至少一個月?還是Python來的快,多進程執(zhí)行,多核利用,有幾個核就開幾個進程,標準庫multiprocessing完全可以勝任,一開始想的是thread多線程,后來想到Python的多線程不是類似Java的多線程,Python有一個全局鎖機制,多個線程其實并不是并行執(zhí)行(是不是并發(fā)更準確?),而是輪換執(zhí)行,況且不能有效利用多核,那就確定最終的路線是:multiprocessing+多核(我用的進程池Pool,因為自己一個一個造的進程容易出錯,而且性能也沒有Pool好),具體的代碼后面再說。
好了,下面就說代碼吧,首先要從給定的目錄中找到目標文件作為待處理任務列表,我寫的函數(shù)如下:
[python] view plain copy print?
span style="font-size:14px;"def get_filepath(src):
filepath = collections.deque()
for root,dirs,files in os.walk(src):
for afile in files:
if "_" not in afile:
filepath.append(os.path.join(root,afile))
return filepath
/span
比方我有一個4核的CPU,那么這樣一來,在單位時間內(nèi)每個核只能跑一個線程,然后時間片輪轉切換。但是Python不一樣,它不管你有幾個核,單位時間多個核只能跑一個線程,然后時間片輪轉??雌饋砗懿豢伤甲h?但是這就是GIL搞的鬼。任何Python線程執(zhí)行前,必須先獲得GIL鎖,然后,每執(zhí)行100條字節(jié)碼,解釋器就自動釋放GIL鎖,讓別的線程有機會執(zhí)行。這個GIL全局鎖實際上把所有線程的執(zhí)行代碼都給上了鎖,所以,多線程在Python中只能交替執(zhí)行,即使100個線程跑在100核CPU上,也只能用到1個核。通常我們用的解釋器是官方實現(xiàn)的CPython,要真正利用多核,除非重寫一個不帶GIL的解釋器。
1、首先多進程是在各自單獨的進程內(nèi)存管理下運行代碼,而多線程是共享一個進程內(nèi)存。
2、其次首先打開m1macpython,點擊主界面。
3、最后在主菜單點擊調(diào)用多核即可。