博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
"Hadoop/MapReduce/HBase"分享总结
阅读量:4111 次
发布时间:2019-05-25

本文共 922 字,大约阅读时间需要 3 分钟。

概述:

此分享是关于hadoop生态系统的简单介绍包括起源到相对应用

技术点:

1.hadoop核心包括Common,HDFS和MapReduce;2.Pig,Hbase,Hive,Zookeeper;3.Hadoop日志分析工具Chukwa;4.MR解决的问题:海量输入数据,简单任务划分和集群计算环境;5.执行流程:FileSplit / Map / Combine(Partition)和Copy / Sort / Reduce 6.分布式计算包括:作业和任务调度和执行,预测执行,故障处理和针对不同应用环境的优化7.HDFS可靠性措施:NameNode备份,多数据结点(冗余),数据结点的心跳检测,块报告和完整性检验,NameNode的日志文件和镜像文件;8.两个系列版本:Apache和Cloudera;9.SSH无密码访问;10.内置web服务器:JobTrackerIP:50030 TaskTrackerIP:50060 NamenodeIP:50070 DatanodeIP:50075 11.HBase以以Region为单位管理region(startKey,endKey);12.HBase的每个Column Family单独存储:storeFile;13.HBase的RegionServer为Region读写操作的场所;14.HBase的Master管理Region的分配和基于zookeeper来保证HA;15.HBase的强一致性:同一行数据的读写只在同一台regionserver上进行;16.HBase的水平伸缩:region的自动分裂以及master的balance,只用增加datanode机器即可增加容量和增加regionserver机器即可增加读写吞吐量;17.HBase的行事务;18.HBase三维有序rowKey (ASC) + columnLabel(ASC) + Version (DESC)  --> value 19.HBase支持范围查询和高性能随机写 ;20.HBase基于Hadoop;21.HBase不支持二级索引和join操作;22.Hbase具有特定的适用场景;

详情参见附件

转载地址:http://bjqsi.baihongyu.com/

你可能感兴趣的文章
Oracle -常用命令
查看>>
JAVA技术简称
查看>>
ORACLE模糊查询优化浅谈
查看>>
2016——个人年度总结
查看>>
2017——新的开始,加油!
查看>>
【Python】学习笔记——-6.2、使用第三方模块
查看>>
【Python】学习笔记——-7.0、面向对象编程
查看>>
【Python】学习笔记——-7.1、类和实例
查看>>
【Python】学习笔记——-7.2、访问限制
查看>>
【Python】学习笔记——-7.3、继承和多态
查看>>
【Python】学习笔记——-7.4、获取对象信息
查看>>
【Python】学习笔记——-7.5、实例属性和类属性
查看>>
Linux设备模型(总线、设备、驱动程序和类)之四:class_register
查看>>
git中文安装教程
查看>>
虚拟机 CentOS7/RedHat7/OracleLinux7 配置静态IP地址 Ping 物理机和互联网
查看>>
弱类型、强类型、动态类型、静态类型语言的区别是什么?
查看>>
Struts2技术内幕图书 转载
查看>>
Java异常分类
查看>>
项目中的jackson与json-lib使用比较
查看>>
Jackson Tree Model Example
查看>>