深刻理解Hadoop原理与调优
深刻理解Hive原理掌握程序开发
深刻理解Hbase掌握程序开发
深刻理解Hadoop日常运维管理
课程主题 |
课程内容 |
Hadoop和传统数据库技术优劣势对比 |
Hadoop/Hive 对比 Oracle 在构建数据仓库上的优劣势 Hadoop 如何和传统IT系统配合完成原来不可能的任务 Hadoop版本讲解及Hadoop新旧版本使用对比 |
案例及实验 |
|
Apache社区版本:Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本 |
|
Hadoop的来源和动机 |
传统大规模系统存在的问题 Hadoop概述 Hadoop分布式文件系统 MapReduce*原理 Hadoop集群剖析 Hadoop生态系统对一种新的解决方案的需求 Hadoop的行业应用案例分析 Hadoop在云计算和大数据的位置和关系 非结构化数据与半结构化数据在大数据中的应用 |
案例及实验 |
|
某银行数据统一处理平台,通过Hadoop进行系统优化 某电信运营商用户行为分析系统 某电力行业数据采集大数据分析案例 联通使用Hadoop/Hbase解决3G详单查询问题。 |
|
Hadoop生态系统介绍和演示 |
Hadoop数据库之HBase HBase架构及如何应用与编程开发相结合 Hadoop数据仓库之Hive Hive架构及如何应用与编程开发相结合 Hadoop数据处理脚本Pig Pig架构及如何应用与编程开发相结合 Hadoop数据接口Sqoop和Flume Sqoop和Flume架构及如何应用与编程开发相结合 Hadoop*流引擎 Oozie Oozie架构及如何应用与编程开发相结合 Hadoop生态系统各模块应用与编程开发相结合 |
案例及实验 |
|
某银行如何使用Hadoop统一数据平台 手机上网日志分析 移动GPRS上网日志查询系统 国家电网城区用电量分析 联通不良信息检测系统 电厂海量数据监控分析系统 某银行数据统一处理平台 海量指纹比对系统 |
|
Hadoop集群调优 |
选择适合hadoop的硬件配置 Hadoop配置项优化 Hadoop配置优化 - core-site.xml Hadoop配置优化 - hdfs-site.xml Hadoop配置优化 - mapred-site.xml Hadoop配置优化 - 机架感知 网络带宽参数调优 系统参数调优 配置文件管理 严格控制root权限 Java的GC模式 选择正确的JDK hadoop作业调优 Map side tuning设置 Map side设置 Linux操作系统优化 其他配置和参数调优 |
案例及实验 |
|
Hadoop硬件优化 不是所有的硬件都合适拿来直接使用 安装调优的*步服务器硬件的选型的窍门 如何选择适合业务使用的CPU 内存越大越好吗?设置合理的的内存配置 连接网络的选择和优化 高速硬盘的选择注意事项 硬盘为什么不做raid? 设置网络的注意事项 中间结果压缩对磁盘和网络的优化 机架感知,网络和磁盘IO优化作用,确定存储的具体位置, 内存参数,map/reduce槽位数的计算方法。 对磁盘和网络的优化 Java工具使用,jstack使用 Sun和open之间的区别,JIT编译器的使用 inux系统参数调优 Linux监控系统的使用 cacti, ganglia 常用的linux排错工具lsof,strace,iostat,vmstat,netstat... 常见异常现象级处理方法 网卡流量导致连接失败 权限错误 主机名IP转换错误 NN与DN namespaceID不一致 磁盘满导致报错 Jave heap size OOM |
|
HDFS高级程序实战演练 |
HDFS实战-命令行等使用 HDFS命令行工具 启动、停止HDFS服务 如何查看HDFS日志 如何查看HDFS Web控制台 HDFS参数配置 |
案例及实验 |
|
HDFS实战-Java API使用 Eclipse 开发环境介绍 HDFS 开发基本步骤 HDFS Java API详解 Configuration Path FileSystem Stream、IOUtils |
|
Hadoop HDFS HA方案介绍 |
Hadoop 1.0 系 HA的一些办法 Hadoop 2.0 介绍 |
MapReduce高级程序实战演练 |
使用 Hadoop MapReduce Streaming 编程 MapReduce流程 剖析一个MapReduce程序 基本MapReduceAPI 概念 驱动代码 Mapper、Reducer Hadoop流 API 使用Eclipse进行快速开发 新MapReduce API MapReduce的优化 MapReduce的任务调度 MapReduce编程实战 满足解决实际数据分析问题的高级Hadoop API |
案例及实验 |
|
Hadoop Streaming 和 Java MapReduce Api差异。 MapReduce 实现数据库功能 利用Combiners来减少中间数据 编写Partitioner来优化负载平衡 直接访问Hadoop分布式文件系统(HDFS) Hadoop的join操作 辅助排序在Reducer方的合并 定制Writables和WritableComparables 使用SequenceFiles和Avro文件保存二进制数据 创建InputFormats OutputFormats Hadoop的二次排序 Hadoop的海量日志分析 在Map方的合并 |
|
Hadoop SQL 接口Hive |
Hive基础 Hive的作用和原理说明 Hadoop仓库和传统数据仓库的协作关系;Hive与传统数据库的对接使用 Hadoop/Hive仓库数据数据流 Hive Cli 的基本用法 HQL基本语法 自行编写数据库与Hadoop相互ETL工具的思路 |
案例及实验 |
|
使用JDBC 连接Hive进行查询和分析 使用正则表达式加载数据 HQL高级语法 编写UDF函数 编写UDAF自定义函数 执行嵌套sql的优化 |
|
Hadoop数据库之HBase及HBase优化 |
hbase概念与架构 hbase核心知识点 hbase安装、部署 HBase配置优化综述 表设计优化相关参数 监控工具使用方法及注意事项 常见异常现象级处理方法 |
案例及实验 |
|
hot region造成读请求瓶颈 region预划分 Memstore合并设置的时机选择 合并storefile策略设置技巧 Memstore flush设置时机选择 Hbase-env.sh、Single、multi-thread、CMS使用及参数调整 GC回收垃圾时机、GC日志打印设置 GC阶段,region无法提供服务如何如何处理 Split时机控制(增大、disable)方法 CF数量多少对读写性能的影响 自动关闭flush的目的 |