真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Hadoop中MapTask如何實現(xiàn)

小編給大家分享一下Hadoop中MapTask如何實現(xiàn),希望大家閱讀完這篇文章之后都有所收獲,下面讓我們一起去探討吧!

向陽ssl適用于網(wǎng)站、小程序/APP、API接口等需要進行數(shù)據(jù)傳輸應用場景,ssl證書未來市場廣闊!成為創(chuàng)新互聯(lián)的ssl證書銷售渠道,可以享受市場價格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:18980820575(備注:SSL證書合作)期待與您的合作!

         
         整體執(zhí)行流程 
Hadoop中MapTask如何實現(xiàn) 
         如上圖示,MapTask的整個處理流程分五個階段: 
         ●read階段:通過RecordReader從InputSplit分片中將數(shù)據(jù)解析成一個個key/value。 
         ●map階段:將由RecordReader解析出的key/value交給map()方法處理,并生成一個個新的key/value。 
         ●collect階段:將map()中新生成key/value由OutpCollector.collect()寫入內存中的環(huán)形數(shù)據(jù)緩沖區(qū)。 
         ●spill階段:當環(huán)形緩沖區(qū)達到一定閥值后,會將數(shù)據(jù)寫到本地磁盤上,生成一個spill文件。在寫文件之前,會先將數(shù)據(jù)進行一次本地排序,必要的時候(按配置要求)還會對數(shù)據(jù)進行壓縮。 
         ●combine階段:當所有數(shù)據(jù)處理完后,將所有的臨時的spill文件進行一次合并,最終之生成一個數(shù)據(jù)文件。 
     
         接下來我們會對該流程中最重要的collect、spill和combine三個階段進行更深入的學習。 
         Collect過程 
         前階段的map中新生成key/value對后,會調用OutpCollector.collect(key,value),在該方法內部,先調用Partitioner.getPartition()獲取該記錄的分區(qū)號,然后將傳給MapOutputBuffer.collect()作進一步的處理。 
         MapOutputBuffer內部使用了一個內部的環(huán)形的緩沖區(qū)來暫時保存用戶的輸出數(shù)據(jù),當緩沖區(qū)使用率達到一定閥值后,由SpillThread線程將緩沖區(qū)中的數(shù)據(jù)spill到本地磁盤上,當所有的數(shù)據(jù)處理完畢后,對所有的文件進行合并,最終只生成一個文件。該數(shù)據(jù)緩沖區(qū)直接用想到MapTask的寫效率。 
         環(huán)形緩沖區(qū)使得collect階段和spill階段可以并行處理。 
         MapOutputBuffer內部采用了兩級索引結構,涉及三個環(huán)形的內存緩沖區(qū),分別是kvoffsets、kvindices和kvbuffer,這個環(huán)形緩沖區(qū)的大小可以通過io.sot.mb來設置,默認大小是100MB,圖示如下: 
Hadoop中MapTask如何實現(xiàn)
         kvoffsets即偏移量索引數(shù)組,用于保存key/value在kvindices中的偏移量。一個key/value對在kvoffsets數(shù)組中占一個int的大小,而在kvindices數(shù)組中站3個int的大小(如上圖示,包括分區(qū)號partition,key的起始位置和value的起始位置)。 
         當kvoffsets的使用率超過io.sort.spill.percent(默認為80%)后,便會觸發(fā)SpillTread線程將數(shù)據(jù)spill到磁盤上。 
         kvindices即文職索引數(shù)組,用于保存實際的key/value在數(shù)據(jù)緩沖區(qū)kvbuffer中的起始位置。 
         kvbuffer即數(shù)據(jù)局緩沖區(qū),用于實際保存key/value,默認情況下可使用io.sort.mb的95%,當該緩沖區(qū)使用率使用率超過io.sort.spill.percent后,便會觸發(fā)SpillTread線程將數(shù)據(jù)spill到磁盤上。 

         Spill過程 
         在collect階段的執(zhí)行過程中,當內存中的環(huán)形數(shù)據(jù)緩沖區(qū)中的數(shù)據(jù)達到一定發(fā)之后,便會觸發(fā)一次Spill操作,將部分數(shù)據(jù)spill到本地磁盤上。SpillThread線程實際上是kvbuffer緩沖區(qū)的消費者,主要代碼如下:

Java代碼  Hadoop中MapTask如何實現(xiàn)

  1. spillLock.lock();  

  2. while(true){  

  3.    spillDone.sinnal();  

  4.    while(kvstart == kvend){  

  5.       spillReady.await();  

  6.    }  

  7.    spillDone.unlock();  

  8.    //排序并將緩沖區(qū)kvbuffer中的數(shù)據(jù)spill到本地磁盤上  

  9.    sortAndSpill();  

  10.    spillLock.lock;  

  11.    //重置各個指針,為下一下spill做準備  

  12.    if(bufend < bufindex && bufindex < bufstart){  

  13.       bufvoid = kvbuffer.length;  

  14.    }  

  15.    vstart = vend;  

  16.    bufstart = bufend;  

  17. }  

  18. spillLock.unlock();  

  19.            


         sortAndSpill()方法中的內部流程是這樣的: 
         第一步,使用用快速排序算法對kvbuffer[bufstart,bufend)中的數(shù)據(jù)排序,先對partition分區(qū)號排序,然后再按照key排序,經(jīng)過這兩輪排序后,數(shù)據(jù)就會以分區(qū)為單位聚集在一起,且同一分區(qū)內的數(shù)據(jù)按key有序; 
         第二步,按分區(qū)大小由小到大依次將每個分區(qū)中的數(shù)據(jù)寫入任務的工作目錄下的臨時文件中,如果用戶設置了Combiner,則寫入文件之前,會對每個分區(qū)中的數(shù)據(jù)做一次聚集操作,比如合并成>; 
         第三步,將分區(qū)數(shù)據(jù)的元信息寫到內存索引數(shù)據(jù)結構SpillRecord中。分區(qū)的元數(shù)據(jù)信息包括臨時文件中的偏移量、壓縮前數(shù)據(jù)的大小和壓縮后數(shù)據(jù)的大小。 

         Combine過程 
         當任務的所有數(shù)據(jù)都處理完后,MapTask會將該任務所有的臨時文件年合并成一個大文件,同時生成相應的索引文件。在合并過程中,是以分區(qū)文單位進行合并的。 
         讓每個Task最終生成一個文件,可以避免同時打開大量文件和對小文件產(chǎn)生隨機讀帶來的開銷。

看完了這篇文章,相信你對“Hadoop中MapTask如何實現(xiàn)”有了一定的了解,如果想了解更多相關知識,歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!


網(wǎng)頁名稱:Hadoop中MapTask如何實現(xiàn)
鏈接URL:http://weahome.cn/article/pjdioi.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部