使用BulkLoad從HDFS批量導(dǎo)入數(shù)據(jù)到HBase-創(chuàng)新互聯(lián)

在向Hbase中寫入數(shù)據(jù)時，常見的寫入方法有使用HBase API，Mapreduce批量導(dǎo)入數(shù)據(jù)，使用這些方式帶入數(shù)據(jù)時，一條數(shù)據(jù)寫入到HBase數(shù)據(jù)庫中的大致流程如圖。
使用BulkLoad從HDFS批量導(dǎo)入數(shù)據(jù)到HBase

成都一家集口碑和實力的網(wǎng)站建設(shè)服務(wù)商，擁有專業(yè)的企業(yè)建站團隊和靠譜的建站技術(shù)，十年企業(yè)及個人網(wǎng)站建設(shè)經(jīng)驗 ,為成都1000多家客戶提供網(wǎng)頁設(shè)計制作,網(wǎng)站開發(fā),企業(yè)網(wǎng)站制作建設(shè)等服務(wù),包括成都營銷型網(wǎng)站建設(shè)，成都品牌網(wǎng)站建設(shè)，同時也為不同行業(yè)的客戶提供做網(wǎng)站、成都做網(wǎng)站的服務(wù),包括成都電商型網(wǎng)站制作建設(shè),裝修行業(yè)網(wǎng)站制作建設(shè)，傳統(tǒng)機械行業(yè)網(wǎng)站建設(shè),傳統(tǒng)農(nóng)業(yè)行業(yè)網(wǎng)站制作建設(shè)。在成都做網(wǎng)站,選網(wǎng)站制作建設(shè)服務(wù)商就選創(chuàng)新互聯(lián)。

數(shù)據(jù)發(fā)出后首先寫入到雨鞋日志W(wǎng)Al中，寫入到預(yù)寫日志中之后，隨后寫入到內(nèi)存MemStore中，最后在Flush到Hfile中。這樣寫數(shù)據(jù)的方式不會導(dǎo)致數(shù)據(jù)的丟失，并且道正數(shù)據(jù)的有序性，但是當(dāng)遇到大量的數(shù)據(jù)寫入時，寫入的速度就難以保證。所以，介紹一種性能更高的寫入方式BulkLoad。

使用BulkLoad批量寫入數(shù)據(jù)主要分為兩部分：
一、使用HFileOutputFormat2通過自己編寫的MapReduce作業(yè)將HFile寫入到HDFS目錄，由于寫入到HBase中的數(shù)據(jù)是按照順序排序的，HFileOutputFormat2中的configureIncrementalLoad()可以完成所需的配置。
二、將Hfile從HDFS移動到HBase表中，大致過程如圖
使用BulkLoad從HDFS批量導(dǎo)入數(shù)據(jù)到HBase

實例代碼pom依賴：


            org.apache.hbase
            hbase-server
            1.4.0
        

        
            org.apache.hadoop
            hadoop-client
            2.6.4
        

        
            org.apache.hbase
            hbase-client
            0.99.2

package com.yangshou;

import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class BulkLoadMapper extends Mapper {
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //讀取文件中的每一條數(shù)據(jù)，以序號作為行鍵
        String line = value.toString();
        //將數(shù)據(jù)進行切分
        //切分后數(shù)組中的元素分別為：序號，用戶id,商品id,用戶行為，商品分類，時間，地址
        String[] str = line.split(" ");
        String id = str[0];
        String user_id = str[1];
        String item_id = str[2];
        String behavior = str[3];
        String item_type = str[4];
        String time = str[5];
        String address = "156";
        //拼接rowkey和put
        ImmutableBytesWritable rowkry = new ImmutableBytesWritable(id.getBytes());
        Put put = new Put(id.getBytes());
        put.add("info".getBytes(),"user_id".getBytes(),user_id.getBytes());
        put.add("info".getBytes(),"item_id".getBytes(),item_id.getBytes());
        put.add("info".getBytes(),"behavior".getBytes(),behavior.getBytes());
        put.add("info".getBytes(),"item_type".getBytes(),item_type.getBytes());
        put.add("info".getBytes(),"time".getBytes(),time.getBytes());
        put.add("info".getBytes(),"address".getBytes(),address.getBytes());
        //將數(shù)據(jù)寫出
        context.write(rowkry,put);
    }
}

package com.yangshou;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2;
import org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class BulkLoadDriver  {
    public static void main(String[] args) throws Exception {
        //獲取Hbase配置
        Configuration conf = HBaseConfiguration.create();
        Connection conn = ConnectionFactory.createConnection(conf);
        Table table = conn.getTable(TableName.valueOf("BulkLoadDemo"));
        Admin admin = conn.getAdmin();

        //設(shè)置job
        Job job = Job.getInstance(conf,"BulkLoad");
        job.setJarByClass(BulkLoadDriver.class);
        job.setMapperClass(BulkLoadMapper.class);
        job.setMapOutputKeyClass(ImmutableBytesWritable.class);
        job.setMapOutputValueClass(Put.class);

        //設(shè)置文件的輸入輸出路徑
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(HFileOutputFormat2.class);
        FileInputFormat.setInputPaths(job,new Path("hdfs://hadoopalone:9000/tmp/000000_0"));
        FileOutputFormat.setOutputPath(job,new Path("hdfs://hadoopalone:9000/demo1"));

        //將數(shù)據(jù)加載到Hbase表中
        HFileOutputFormat2.configureIncrementalLoad(job,table,conn.getRegionLocator(TableName.valueOf("BulkLoadDemo")));
        if(job.waitForCompletion(true)){
            LoadIncrementalHFiles load = new LoadIncrementalHFiles(conf);
            load.doBulkLoad(new Path("hdfs://hadoopalone:9000/demo1"),admin,table,conn.getRegionLocator(TableName.valueOf("BulkLoadDemo")));

        }

    }
}

實例數(shù)據(jù)

44979   100640791   134060896   1   5271    2014-12-09  天津市
44980   100640791   96243605    1   13729   2014-12-02  新疆

在Hbase shell 中創(chuàng)建表

create 'BulkLoadDemo','info'

打包后執(zhí)行
```hadoop jar BulkLoadDemo-1.0-SNAPSHOT.jar com.yangshou.BulkLoadDriver

注意：在執(zhí)行hadoop jar之前應(yīng)該先將Hbase中的相關(guān)包加載過來

export HADOOP_CLASSPATH=$HBASE_HOME/lib/*

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn，海內(nèi)外云服務(wù)器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

網(wǎng)站欄目：使用BulkLoad從HDFS批量導(dǎo)入數(shù)據(jù)到HBase-創(chuàng)新互聯(lián)
網(wǎng)頁鏈接：http://weahome.cn/article/goggj.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

使用BulkLoad從HDFS批量導(dǎo)入數(shù)據(jù)到HBase-創(chuàng)新互聯(lián)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管