"Hadoop/MapReduce/HBase"分享总结-白红宇

"Hadoop/MapReduce/HBase"分享总结

阅读量：4111 次

发布时间：2019-05-25

本文共 922 字，大约阅读时间需要 3 分钟。

概述：

此分享是关于hadoop生态系统的简单介绍包括起源到相对应用

技术点：

1.hadoop核心包括Common，HDFS和MapReduce；2.Pig，Hbase，Hive，Zookeeper；3.Hadoop日志分析工具Chukwa；4.MR解决的问题：海量输入数据，简单任务划分和集群计算环境；5.执行流程：FileSplit / Map / Combine(Partition)和Copy / Sort / Reduce 6.分布式计算包括:作业和任务调度和执行，预测执行，故障处理和针对不同应用环境的优化7.HDFS可靠性措施：NameNode备份，多数据结点(冗余)，数据结点的心跳检测，块报告和完整性检验，NameNode的日志文件和镜像文件；8.两个系列版本：Apache和Cloudera；9.SSH无密码访问；10.内置web服务器：JobTrackerIP:50030 TaskTrackerIP:50060 NamenodeIP:50070 DatanodeIP:50075 11.HBase以以Region为单位管理region(startKey,endKey)；12.HBase的每个Column Family单独存储：storeFile；13.HBase的RegionServer为Region读写操作的场所；14.HBase的Master管理Region的分配和基于zookeeper来保证HA；15.HBase的强一致性：同一行数据的读写只在同一台regionserver上进行；16.HBase的水平伸缩：region的自动分裂以及master的balance，只用增加datanode机器即可增加容量和增加regionserver机器即可增加读写吞吐量；17.HBase的行事务；18.HBase三维有序rowKey (ASC) + columnLabel(ASC) + Version (DESC)  --> value 19.HBase支持范围查询和高性能随机写 ；20.HBase基于Hadoop；21.HBase不支持二级索引和join操作;22.Hbase具有特定的适用场景;

详情参见附件

转载地址：http://bjqsi.baihongyu.com/

你可能感兴趣的文章