北京hadoop生态系统介绍,北京hadoop生态系统架构,hadoop生态系统技术

Hadoop作为开源的云计算平台，为大数据处理提供了一整套解决方案，应用非常广泛。Hadoop作为一个平台框架，*括了如何存储海量数据，如何处理海量数据，以及相应的数据库、数据仓库、数据流处理、数据分析和挖掘算法库，等等。

Hadoop 生态系统实战课程培训

一、课程目标：

深刻理解Hadoop原理与调优

深刻理解Hive原理掌握程序开发

深刻理解Hbase掌握程序开发

深刻理解Hadoop日常运维管理

二、课程大纲：

课程主题	课程内容
Hadoop和传统数据库技术优劣势对比	Hadoop/Hive 对比 Oracle 在构建数据仓库上的优劣势 Hadoop 如何和传统IT系统配合完成原来不可能的任务 Hadoop版本讲解及Hadoop新旧版本使用对比
	案例及实验
	Apache社区版本：Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本
Hadoop的来源和动机	传统大规模系统存在的问题 Hadoop概述 Hadoop分布式文件系统 MapReduce*原理 Hadoop集群剖析 Hadoop生态系统对一种新的解决方案的需求 Hadoop的行业应用案例分析 Hadoop在云计算和大数据的位置和关系非结构化数据与半结构化数据在大数据中的应用
	案例及实验
	某银行数据统一处理平台，通过Hadoop进行系统优化某电信运营商用户行为分析系统某电力行业数据采集大数据分析案例联通使用Hadoop/Hbase解决3G详单查询问题。
Hadoop生态系统介绍和演示	Hadoop数据库之HBase HBase架构及如何应用与编程开发相结合 Hadoop数据仓库之Hive Hive架构及如何应用与编程开发相结合 Hadoop数据处理脚本Pig Pig架构及如何应用与编程开发相结合 Hadoop数据接口Sqoop和Flume Sqoop和Flume架构及如何应用与编程开发相结合 Hadoop*流引擎 Oozie Oozie架构及如何应用与编程开发相结合 Hadoop生态系统各模块应用与编程开发相结合
	案例及实验
	某银行如何使用Hadoop统一数据平台手机上网日志分析移动GPRS上网日志查询系统国家电网城区用电量分析联通不良信息检测系统电厂海量数据监控分析系统某银行数据统一处理平台海量指纹比对系统
Hadoop集群调优	选择适合hadoop的硬件配置 Hadoop配置项优化 Hadoop配置优化 - core-site.xml Hadoop配置优化 - hdfs-site.xml Hadoop配置优化 - mapred-site.xml Hadoop配置优化 - 机架感知网络带宽参数调优系统参数调优配置文件管理严格控制root权限 Java的GC模式选择正确的JDK hadoop作业调优 Map side tuning设置 Map side设置 Linux操作系统优化其他配置和参数调优
	案例及实验
	Hadoop硬件优化不是所有的硬件都合适拿来直接使用安装调优的*步服务器硬件的选型的窍门如何选择适合业务使用的CPU 内存越大越好吗？设置合理的的内存配置连接网络的选择和优化高速硬盘的选择注意事项硬盘为什么不做raid？设置网络的注意事项中间结果压缩对磁盘和网络的优化机架感知，网络和磁盘IO优化作用，确定存储的具体位置，内存参数，map/reduce槽位数的计算方法。对磁盘和网络的优化 Java工具使用，jstack使用 Sun和open之间的区别，JIT编译器的使用 inux系统参数调优 Linux监控系统的使用 cacti, ganglia 常用的linux排错工具lsof,strace,iostat,vmstat,netstat... 常见异常现象级处理方法网卡流量导致连接失败权限错误主机名IP转换错误 NN与DN namespaceID不一致磁盘满导致报错 Jave heap size OOM
HDFS高级程序实战演练	HDFS实战-命令行等使用 HDFS命令行工具启动、停止HDFS服务如何查看HDFS日志如何查看HDFS Web控制台 HDFS参数配置
	案例及实验
	HDFS实战-Java API使用 Eclipse 开发环境介绍 HDFS 开发基本步骤 HDFS Java API详解 Configuration Path FileSystem Stream、IOUtils
Hadoop HDFS HA方案介绍	Hadoop 1.0 系 HA的一些办法 Hadoop 2.0 介绍
MapReduce高级程序实战演练	使用 Hadoop MapReduce Streaming 编程 MapReduce流程剖析一个MapReduce程序基本MapReduceAPI 概念驱动代码 Mapper、Reducer Hadoop流 API 使用Eclipse进行快速开发新MapReduce API MapReduce的优化 MapReduce的任务调度 MapReduce编程实战满足解决实际数据分析问题的高级Hadoop API
	案例及实验
	Hadoop Streaming 和 Java MapReduce Api差异。 MapReduce 实现数据库功能利用Combiners来减少中间数据编写Partitioner来优化负载平衡直接访问Hadoop分布式文件系统（HDFS） Hadoop的join操作辅助排序在Reducer方的合并定制Writables和WritableComparables 使用SequenceFiles和Avro文件保存二进制数据创建InputFormats OutputFormats Hadoop的二次排序 Hadoop的海量日志分析在Map方的合并
Hadoop SQL 接口Hive	Hive基础 Hive的作用和原理说明 Hadoop仓库和传统数据仓库的协作关系；Hive与传统数据库的对接使用 Hadoop/Hive仓库数据数据流 Hive Cli 的基本用法 HQL基本语法自行编写数据库与Hadoop相互ETL工具的思路
	案例及实验
	使用JDBC 连接Hive进行查询和分析使用正则表达式加载数据 HQL高级语法编写UDF函数编写UDAF自定义函数执行嵌套sql的优化
Hadoop数据库之HBase及HBase优化	hbase概念与架构 hbase核心知识点 hbase安装、部署 HBase配置优化综述表设计优化相关参数监控工具使用方法及注意事项常见异常现象级处理方法
	案例及实验
	hot region造成读请求瓶颈 region预划分 Memstore合并设置的时机选择合并storefile策略设置技巧 Memstore flush设置时机选择 Hbase-env.sh、Single、multi-thread、CMS使用及参数调整 GC回收垃圾时机、GC日志打印设置 GC阶段，region无法提供服务如何如何处理 Split时机控制（增大、disable）方法 CF数量多少对读写性能的影响自动关闭flush的目的

北京Hadoop 生态系统实战课程培训

课程详情

推荐课程

北京IT认证培训中心