bzip2
在烈山等地區(qū),都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局,加強發(fā)展的系統(tǒng)性、市場前瞻性、產(chǎn)品創(chuàng)新能力,以專注、極致的服務(wù)理念,為客戶提供網(wǎng)站制作、成都網(wǎng)站制作 網(wǎng)站設(shè)計制作按需設(shè)計網(wǎng)站,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),品牌網(wǎng)站設(shè)計,營銷型網(wǎng)站,外貿(mào)網(wǎng)站制作,烈山網(wǎng)站建設(shè)費用合理。使用Burrows-Wheeler塊排序文本壓縮算法,將文件進行壓縮,壓縮比率比一般算法高一些。bzip2要求命令行標志附帶一個文件名列表。每個文件都被自己的壓縮版本替換,名稱為“original_name.bz2”。每個壓縮文件與相應(yīng)的原始文件具有相同的修改日期、權(quán)限和所有權(quán)(如果可能的話),因此可以在解壓縮時正確地還原這些屬性。
默認情況下,bzip2和bunzip2不會覆蓋現(xiàn)有文件。如果希望發(fā)生這種情況,請指定“-f”標志。如果沒有指定文件名,bzip2將從標準輸入壓縮到標準輸出。在這種情況下,bzip2拒絕將壓縮輸出寫入終端,因為這將是完全不可理解的,因此毫無意義。
bunzip2( 或bzip2 -d)解壓縮所有指定的文件。未由bzip2創(chuàng)建的文件將被檢測和忽略,并發(fā)出警告。bzip2試圖從壓縮文件中猜測解壓縮文件的文件名,如下所示:
|
如果文件沒有以.bz2、.bz、.tbz2或.tbz中的某個結(jié)尾,bzip2抱怨它無法猜測原始文件的名稱,并使用原始名稱并附加.out。與壓縮一樣,不提供文件名會導致從標準輸入到標準輸出的解壓縮。bunzip2將正確解壓縮一個文件,該文件是兩個或多個壓縮文件的級聯(lián)。其結(jié)果是連接相應(yīng)的未壓縮文件。還支持連接壓縮文件的完整性測試(-t)。
還可以通過賦予“-c”標志將文件壓縮或解壓縮到標準輸出??梢韵襁@樣壓縮和解壓縮多個文件。結(jié)果輸出按順序輸入到stdout。以這種方式壓縮多個文件會生成包含多個壓縮文件表示的流。這樣的流只能通過bzip2版本0.9.0或更高版本正確地解壓縮。在解壓縮流中的第一個文件后,bzip2的早期版本將停止。
bzcat( 或bzip2 -dc)將所有指定的文件解壓到標準輸出。bzip2將按照這個順序從環(huán)境變量BZIP2和BZIP讀取參數(shù),并在從命令行讀取任何參數(shù)之前對它們進行處理。這為提供默認參數(shù)提供了一種方便的方法。
壓縮總是被執(zhí)行,即使壓縮文件比原始文件稍大。小于100個字節(jié)的文件往往會變大,因為壓縮機制在50個字節(jié)的范圍內(nèi)有一個恒定的開銷。隨機數(shù)據(jù)(包括大多數(shù)文件壓縮器的輸出)編碼大約為每字節(jié)8.05位,擴展幅度約為0.5%。
bzip2 使用32位crc來確保解壓縮版本的文件與原始文件相同。這可以防止壓縮數(shù)據(jù)的損壞,防止bzip2中未被檢測到的bug(希望非常不可能)。數(shù)據(jù)損壞的可能性是微乎其微的,大約每處理40億個文件就有一個機會。但是,請注意,檢查是在解壓時發(fā)生的,因此它只能告訴您某些事情是錯誤的。它無法幫助您恢復原始未壓縮數(shù)據(jù)。您可以使用bzip2recover嘗試從損壞的文件中恢復數(shù)據(jù)。
返回值:0表示正常退出,1表示環(huán)境問題(文件未找到,無效標志,I/O錯誤,&c),2表示損壞的壓縮文件,3表示內(nèi)部一致性錯誤(例如,bug),導致bzip2恐慌。
此命令的適用范圍:RedHat、RHEL、Ubuntu、CentOS、SUSE、openSUSE、Fedora。
1 、語法
bzip2 [ -cdfkqstvzVL123456789 ] [ filenames ... ]
2 、選項列表
選項 | 說明 |
-h | --help | 幫助信息 |
-V | --version | 顯示命令版本信息 |
-c | --stdout | 將解壓或者解壓文件寫到標準輸出 |
-d | --decompress | 解壓 |
--z | -compress | 對-d的補充:強制壓縮,而不管調(diào)用名稱如何 |
-t | --test | 檢查指定文件的完整性,但不要解壓縮它們。這確實執(zhí)行了一次嘗試解壓縮,并丟棄了結(jié)果。 |
-f | --force | 強制執(zhí)行 |
-k | --keep | 解壓之后,保留源文件 |
-s | --small | 減少內(nèi)存使用,用于壓縮、解壓縮和測試。使用修改的算法對文件進行解壓縮和測試,該算法每個塊字節(jié)只需要2.5字節(jié)。這意味著任何文件都可以在2300 k內(nèi)存中解壓縮,盡管速度是正常速度的一半。 在壓縮期間,-s選擇200 k的塊大小,這將內(nèi)存的使用限制在大約相同的數(shù)字上,而代價是壓縮比。簡而言之,如果你的機器內(nèi)存不足(8兆字節(jié)或更少),那就用-s來做所有的事情。請參閱下面的內(nèi)存管理。 |
-L | --license | -V | --version | 列出gzip的許可證 |
-q | --quite | 跳過所有的警告信息 |
-v | --verbose | 顯示詳細執(zhí)行過程 |
-1 ~-9 | 指定壓縮比率,將塊大小設(shè)為100k,200k,900K。解壓時無效,“-1”等價于“--fast”,“-9”等價于“--best“。 |
-v | --verbose | 顯示執(zhí)行過程 |
-- | 將所有后續(xù)參數(shù)視為文件名,即使它們以‘-’開頭。這樣您就可以處理以‘-’開頭的文件,例如:“ bzip2 -- -myfilename ”。 |
--repetitive-fast --repetitive-best | 這些標志在0.9.5及以上版本中是多余的。它們對早期版本中排序算法的行為提供了一些粗略的控制,這有時是有用的。0.9.5及以上版本的改進算法使這些標志不相關(guān) |
3 、內(nèi)存管理
bzip2 以塊壓縮大型文件。塊大小既影響壓縮比,也影響壓縮和解壓縮所需的內(nèi)存量。標志-1到-9指定塊大小分別為100000字節(jié)至900000字節(jié)(默認值)。解壓縮時,從壓縮文件的頭讀取用于壓縮的塊大小,然后為其分配足夠的內(nèi)存來解壓縮文件。由于塊大小存儲在壓縮文件中,因此在解壓縮過程中,標志-1至-9與此無關(guān),因而被忽略。壓縮和解壓縮需求(以字節(jié)為單位)可估計為
|
更大的區(qū)塊大小給出迅速遞減的邊際回報。大部分壓縮來自塊大小的前兩三百k,在小型機器上使用bzip 2時要記住這一點。同樣重要的是要認識到,解壓縮內(nèi)存需求是通過選擇塊大小在壓縮時間設(shè)置的。
對于默認的900k塊大小壓縮的文件,bunzip2需要大約3700千字節(jié)來解壓縮。為了支持對4MB機器上的任何文件進行解壓縮,bunzip2可以選擇使用大約一半的內(nèi)存(約2300千字節(jié))來解壓縮。解壓縮速度也減半,因此您應(yīng)該只在必要時使用此選項。相關(guān)的標志是-s。通常,嘗試并使用允許的大塊大小的內(nèi)存約束,因為這樣可以大限度地實現(xiàn)壓縮。壓縮和解壓縮速度幾乎不受塊大小的影響。
另一個要點適用于適合單個塊的文件,意味著大多數(shù)使用大塊大小的文件。接觸到的實際內(nèi)存量與文件大小成正比,因為文件小于塊。例如,使用標志-9壓縮一個文件的長度為20000字節(jié),將導致壓縮器分配大約7600k的內(nèi)存,但只會觸及400k+20000*8=56萬字節(jié)的內(nèi)存。類似地,解壓縮程序?qū)⒎峙?700k,但只會觸及100k+20000*4=180 k字節(jié)。
下面是一個表,它總結(jié)了不同塊大小的大內(nèi)存使用量
Compress Decompress Decompress Corpus
Flag usage usage -s usage Size
-1 1200k 500k 350k 914704
-2 2000k 900k 600k 877703
-3 2800k 1300k 850k 860338
-4 3600k 1700k 1100k 846899
-5 4400k 2100k 1350k 845160
-6 5200k 2500k 1600k 838626
-7 6100k 2900k 1850k 834096
-8 6800k 3300k 2100k 828642
-9 7600k 3700k 2350k 828642
4 、從損壞的文件中恢復數(shù)據(jù)
bzip2 以塊的形式壓縮文件,通常長達900千字節(jié)。每個塊都是獨立處理的。如果媒體或傳輸錯誤導致multi-block .bz2文件損壞,則可以從文件中未損壞的塊恢復數(shù)據(jù)。每個塊的壓縮表示由一個48位模式分隔,這使得以合理的確定性找到塊邊界成為可能。每個塊還帶有自己的32位CRC,因此損壞的塊可以與未損壞的塊區(qū)分開來。
bzip2Recovery 是一個簡單的程序,其目的是搜索“.bz2”文件中的塊,并將每個塊寫入自己的“.bz2”文件中。然后可以使用“bzip2 –t”測試結(jié)果文件的完整性,并解壓縮未損壞的文件。
bzip2Recovery 接受一個參數(shù),即受損文件的名稱,并寫入一些文件“rec00001file.bz2”、“rec00002file.bz2”等,其中包含提取的塊。輸出文件名的設(shè)計使得在隨后的處理中使用通配符。例如,“bzip2 -dc rec*file.bz2 > recovered_data”按正確的順序處理文件。
處理大型bz2文件時,bzip2恢復應(yīng)該是最有用的,因為這些文件將包含許多塊。在損壞的單塊文件上使用它顯然是徒勞無功的,因為損壞的塊無法恢復。如果希望通過媒體或傳輸錯誤大限度地減少任何潛在的數(shù)據(jù)丟失,可以考慮使用較小的塊大小進行壓縮。
5 、執(zhí)行情況說明
壓縮的排序階段收集文件中類似的字符串。正因為如此,包含大量重復符號的文件,如“aabaabaabaab.”(重復幾百次)可能比正常壓縮速度慢。在這方面,0.9.5及以上的版本比以前的版本要好得多。最壞壓縮時間與平均壓縮時間之比在10:1左右.對于以前的版本,這個數(shù)字更像是100:1。如果需要,可以使用-vvvv選項來非常詳細地監(jiān)視進度。減壓速度不受這些現(xiàn)象的影響。
bzip 2 通常分配幾兆字節(jié)的內(nèi)存進行操作,然后以相當隨機的方式對其進行充電。這意味著壓縮和解壓縮的性能在很大程度上取決于您的機器能夠為緩存丟失提供服務(wù)的速度。正因為如此,通過對代碼進行小幅度的更改以降低漏出率,從而提供了不成比例的大幅度性能改進。我認為bzip 2在具有非常大緩存的機器上表現(xiàn)最好。
7 、實例
1 )壓縮文件
|
2 )解壓
|
3 )將兩個文件壓縮到一個文件中
|