4.通过PutAPI的方法来导出数据
- 概述
- Bulk Load基本原理

4.通过PutAPI的方法来导出数据

概述

HBase本身提供了很多种数据导入的方式，通常有两种常用方式：

使用HBase提供的TableOutputFormat，原理是通过一个Mapreduce作业将数据导入HBase
另一种方式就是使用HBase原生Client API

这两种方式由于需要频繁的与数据所存储的RegionServer通信，一次性入库大量数据时，特别占用资源，所以都不是最有效的。了解过HBase底层原理的应该都知道，HBase在HDFS中是以HFile文件结构存储的，一个比较高效便捷的方法就是使用 “Bulk Loading”方法直接生成HFile，即HBase提供的HFileOutputFormat类。

Bulk Load基本原理

Bulk Load处理由两个主要步骤组成

准备数据文件
Bulk Load的第一步，会运行一个Mapreduce作业，其中使用到了HFileOutputFormat输出HBase数据文件：StoreFile。HFileOutputFormat的作用在于使得输出的HFile文件可以适应单个region，使用TotalOrderPartitioner类将map输出结果分区到各个不同的key区间中，每个key区间都对应着HBase表的region。
导入HBase表
第二步使用completebulkload工具将第一步的结果文件依次交给负责文件对应region的RegionServer，并将文件move到region在HDFS上的存储目录中，一旦完成，将数据开放给clients。
如果在bulk load准备导入或在准备导入与完成导入的临界点上发现region的边界已经改变，completebulkload工具会自动split数据文件到新的边界上，但是这个过程并不是最佳实践，所以用户在使用时需要最小化准备导入与导入集群间的延时，特别是当其他client在同时使用其他工具向同一张表导入数据。

4.基于Bulk load的数据迁移

4.通过PutAPI的方法来导出数据

概述

Bulk Load基本原理