這篇文章將為大家詳細(xì)講解有關(guān)HDFS塊和Input Splits的區(qū)別有哪些,小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。
站在用戶的角度思考問題,與客戶深入溝通,找到大同網(wǎng)站設(shè)計(jì)與大同網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗(yàn),讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個(gè)性化、用戶體驗(yàn)好的作品,建站類型包括:網(wǎng)站制作、網(wǎng)站設(shè)計(jì)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、空間域名、虛擬空間、企業(yè)郵箱。業(yè)務(wù)覆蓋大同地區(qū)。
HDFS塊
現(xiàn)在我有一個(gè)名為 iteblog.txt 的文件,如下:
[iteblog@iteblog.com /home/iteblog]$ ll iteblog.txt -rw-r--r-- 1 iteblog iteblog 454669963 May 15 12:07 iteblog.txt
很明顯,這個(gè)文件大于一個(gè) HDFS 塊大小,所有如果我們將這個(gè)文件存放到 HDFS 上會(huì)生成 4 個(gè) HDFS 塊,如下(注意下面的輸出做了一些刪除操作):
[iteblog@iteblog.com /home/iteblog]$ hadoop -put iteblog.txt /tmp [iteblog@iteblog.com /home/iteblog]$ hdfs fsck /tmp/iteblog.txt -files -blocks /tmp/iteblog.txt 454669963 bytes, 4 block(s): OK 0. BP-1398136447-192.168.246.60-1386067202761:blk_8133964845_1106679622318 len=134217728 repl=3 1. BP-1398136447-192.168.246.60-1386067202761:blk_8133967228_1106679624701 len=134217728 repl=3 2. BP-1398136447-192.168.246.60-1386067202761:blk_8133969503_1106679626977 len=134217728 repl=3 3. BP-1398136447-192.168.246.60-1386067202761:blk_8133970122_1106679627596 len=52016779 repl=3
可以看出 iteblog.txt 文件被切成 4 個(gè)塊了,前三個(gè)塊大小正好是 128MB(134217728),剩下的數(shù)據(jù)存放到第 4 個(gè) HDFS 塊中。
答案是這行記錄會(huì)被切割成兩部分,一部分存放在 block 0 里面;剩下的部分存放在 block 1 里面。具體的,偏移量為134217710,長度為18的數(shù)據(jù)存放到 block 0 里面;偏移量134217729,長度為82的數(shù)據(jù)存放到 block 1 里面。 可以將這部分的邏輯以下面的圖概括
說明:
圖中的紅色塊代表一個(gè)文件
中間的藍(lán)色矩形塊代表一個(gè) HDFS 塊,矩形里面的數(shù)字代表 HDFS 塊的編號(hào),讀整個(gè)文件的時(shí)候是從編號(hào)為0的 HDFS 塊開始讀,然后依次是1,2,3...
最下面的一行矩形代表文件里面存儲(chǔ)的內(nèi)容,每個(gè)小矩形代表一行數(shù)據(jù),里面的數(shù)字代表數(shù)據(jù)的編號(hào)。紅色的豎線代表 HDFS 塊邊界(block boundary)。
從上圖我們可以清晰地看出,當(dāng)我們往 HDFS 寫文件時(shí),HDFS 會(huì)將文件切割成大小為 128MB 的塊,切割的時(shí)候不會(huì)判斷文件里面存儲(chǔ)的到底是什么東西,所以邏輯上屬于一行的數(shù)據(jù)會(huì)被切割成兩部分,這兩部分的數(shù)據(jù)被物理的存放在兩個(gè)不同的 HDFS 塊中,正如上圖中的第5、10以及14行被切割成2部分了。
File Split
現(xiàn)在我們需要使用 MapReduce 來讀取上面的文件,由于是普通的文本文件,所以可以直接使用 TextInputFormat
來讀取。下面是使用 TextInputFormat
獲取到的 FileSplit
信息:
scala> FileInputFormat.addInputPath(job,new Path("/tmp/iteblog.txt")); scala> val format = new TextInputFormat; scala> val splits = format.getSplits(job) scala> splits.foreach(println) hdfs://iteblogcluster/tmp/iteblog.txt:0+134217728 hdfs://iteblogcluster/tmp/iteblog.txt:134217728+134217728 hdfs://iteblogcluster/tmp/iteblog.txt:268435456+134217728 hdfs://iteblogcluster/tmp/iteblog.txt:402653184+52016779
可以看出,每個(gè) FileSplit 的起始偏移量和上面 HDFS 每個(gè)文件塊一致。但是具體讀數(shù)據(jù)的時(shí)候,MapReduce 是如何處理的呢?我們現(xiàn)在已經(jīng)知道,在將文件存儲(chǔ)在 HDFS 的時(shí)候,文件被切割成一個(gè)一個(gè) HDFS Block,其中會(huì)導(dǎo)致一些邏輯上屬于一行的數(shù)據(jù)會(huì)被切割成兩部分,那 TextInputFormat
遇到這樣的數(shù)據(jù)是如何處理的呢?
對(duì)于這種情況,TextInputFormat
會(huì)做出如下兩種操作:
在初始化 LineRecordReader
的時(shí)候,如果 FileSplit
的起始位置 start
不等于0, 說明這個(gè) Block 塊不是第一個(gè) Block,這時(shí)候一律丟掉這個(gè) Block 的第一行數(shù)據(jù)。
在讀取每個(gè) Block 的時(shí)候,都會(huì)額外地多讀取一行,如果出現(xiàn)數(shù)據(jù)被切割到另外一個(gè) Block 里面,這些數(shù)據(jù)能夠被這個(gè)任務(wù)讀取。
使用圖形表示可以概括如下:
說明:
圖中的紅色虛線代表 HDFS 塊邊界(block boundary);
藍(lán)色的虛線代表Split 讀數(shù)的邊界。
從圖中可以清晰地看出:
當(dāng)程序讀取 Block 0 的時(shí)候,雖然第五行數(shù)據(jù)被分割并被存儲(chǔ)在 Block 0 和 Block 1 中,但是,當(dāng)前程序能夠完整的讀取到第五行的完整數(shù)據(jù)。
當(dāng)程序讀取 Block 1 的時(shí)候,由于其 FileSplit
的起始位置 start
不等于0,這時(shí)候會(huì)丟掉第一行的數(shù)據(jù),也就是說 Block 1 中的第五行部分?jǐn)?shù)據(jù)會(huì)被丟棄,而直接從第六行數(shù)據(jù)讀取。這樣做的原因是,Block 1 中的第五行部分?jǐn)?shù)據(jù)在程序讀取前一個(gè) Block 的時(shí)候已經(jīng)被讀取了,所以可以直接丟棄。
其他剩下的 Block 讀取邏輯和這個(gè)一致。
從上面的分析可以得出以下的總結(jié)
Split 和 HDFS Block 是一對(duì)多的關(guān)系;
HDFS block 是數(shù)據(jù)的物理表示,而 Split 是 block 中數(shù)據(jù)的邏輯表示;
滿足數(shù)據(jù)本地性的情況下,程序也會(huì)從遠(yuǎn)程節(jié)點(diǎn)上讀取少量的數(shù)據(jù),因?yàn)榇嬖谛斜磺懈畹讲煌?Block 上。
關(guān)于“HDFS塊和Input Splits的區(qū)別有哪些”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,使各位可以學(xué)到更多知識(shí),如果覺得文章不錯(cuò),請(qǐng)把它分享出去讓更多的人看到。