北京Hadoop 生态系统实战课程培训

导读 Hadoop作为开源的云计算平台,为大数据处理提供了一整套解决方案,应用非常广泛。Hadoop作为一个平台框架,*括了如何存储海量数据,如何处理海量数据,以及相应的数据库、数据仓库、数据流处理、数据分析和挖掘算法库,等等。
400-888-9073 46
华为 安全 自动化运维 云计算与物联网 前沿课程 项目管理 编程语言 研发改进 软件测试 大数据与人工智能 架构设计 职业素养 管理技能

课程详情

2021-04-09

Hadoop生态系统实战课程培训

Hadoop作为开源的云计算平台,为大数据处理提供了一整套解决方案,应用非常广泛。Hadoop作为一个平台框架,*括了如何存储海量数据,如何处理海量数据,以及相应的数据库、数据仓库、数据流处理、数据分析和挖掘算法库,等等。
Hadoop 生态系统实战课程培训
一、课程目标:

深刻理解Hadoop原理与调优

深刻理解Hive原理掌握程序开发

深刻理解Hbase掌握程序开发

深刻理解Hadoop日常运维管理

二、课程大纲:

课程主题

课程内容

Hadoop和传统数据库技术优劣势对比

Hadoop/Hive 对比 Oracle 在构建数据仓库上的优劣势

Hadoop 如何和传统IT系统配合完成原来不可能的任务

Hadoop版本讲解及Hadoop新旧版本使用对比

案例及实验

Apache社区版本:Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本

Hadoop的来源和动机

传统大规模系统存在的问题

Hadoop概述

Hadoop分布式文件系统

MapReduce*原理

Hadoop集群剖析

Hadoop生态系统对一种新的解决方案的需求

Hadoop的行业应用案例分析

Hadoop在云计算和大数据的位置和关系

非结构化数据与半结构化数据在大数据中的应用

案例及实验

某银行数据统一处理平台,通过Hadoop进行系统优化

某电信运营商用户行为分析系统

某电力行业数据采集大数据分析案例

联通使用Hadoop/Hbase解决3G详单查询问题。

Hadoop生态系统介绍和演示

Hadoop数据库之HBase

HBase架构及如何应用与编程开发相结合

Hadoop数据仓库之Hive

Hive架构及如何应用与编程开发相结合

Hadoop数据处理脚本Pig

Pig架构及如何应用与编程开发相结合

Hadoop数据接口Sqoop和Flume

Sqoop和Flume架构及如何应用与编程开发相结合

Hadoop*流引擎 Oozie

Oozie架构及如何应用与编程开发相结合

Hadoop生态系统各模块应用与编程开发相结合

案例及实验

某银行如何使用Hadoop统一数据平台

手机上网日志分析

移动GPRS上网日志查询系统

国家电网城区用电量分析

联通不良信息检测系统

电厂海量数据监控分析系统

某银行数据统一处理平台

海量指纹比对系统

Hadoop集群调优

选择适合hadoop的硬件配置

Hadoop配置项优化

Hadoop配置优化 - core-site.xml

Hadoop配置优化 - hdfs-site.xml

Hadoop配置优化 - mapred-site.xml

Hadoop配置优化 - 机架感知

网络带宽参数调优

系统参数调优

配置文件管理

严格控制root权限

Java的GC模式

选择正确的JDK

hadoop作业调优

Map side tuning设置

Map side设置

Linux操作系统优化

其他配置和参数调优

案例及实验

Hadoop硬件优化

不是所有的硬件都合适拿来直接使用

安装调优的*步服务器硬件的选型的窍门

如何选择适合业务使用的CPU

内存越大越好吗?设置合理的的内存配置

连接网络的选择和优化

高速硬盘的选择注意事项

硬盘为什么不做raid?

设置网络的注意事项

中间结果压缩对磁盘和网络的优化

机架感知,网络和磁盘IO优化作用,确定存储的具体位置,

内存参数,map/reduce槽位数的计算方法。

对磁盘和网络的优化

Java工具使用,jstack使用

Sun和open之间的区别,JIT编译器的使用

inux系统参数调优

Linux监控系统的使用

cacti,

ganglia

常用的linux排错工具lsof,strace,iostat,vmstat,netstat...

常见异常现象级处理方法

网卡流量导致连接失败

权限错误

主机名IP转换错误

NN与DN namespaceID不一致

磁盘满导致报错

Jave heap size OOM

HDFS高级程序实战演练

HDFS实战-命令行等使用

HDFS命令行工具

启动、停止HDFS服务

如何查看HDFS日志

如何查看HDFS Web控制台

HDFS参数配置

案例及实验

HDFS实战-Java API使用

Eclipse 开发环境介绍

HDFS 开发基本步骤

HDFS Java API详解

Configuration

Path

FileSystem

Stream、IOUtils

Hadoop HDFS HA方案介绍

Hadoop 1.0 系 HA的一些办法

Hadoop 2.0 介绍

MapReduce高级程序实战演练

使用 Hadoop MapReduce Streaming 编程

MapReduce流程

剖析一个MapReduce程序

基本MapReduceAPI 概念

驱动代码 Mapper、Reducer

Hadoop流

API 使用Eclipse进行快速开发

新MapReduce API

MapReduce的优化

MapReduce的任务调度

MapReduce编程实战

满足解决实际数据分析问题的高级Hadoop API

案例及实验

Hadoop Streaming 和 Java MapReduce Api差异。

MapReduce 实现数据库功能

利用Combiners来减少中间数据

编写Partitioner来优化负载平衡

直接访问Hadoop分布式文件系统(HDFS)

Hadoop的join操作

辅助排序在Reducer方的合并

定制Writables和WritableComparables

使用SequenceFiles和Avro文件保存二进制数据

创建InputFormats OutputFormats

Hadoop的二次排序

Hadoop的海量日志分析

在Map方的合并

Hadoop SQL 接口Hive

Hive基础

Hive的作用和原理说明

Hadoop仓库和传统数据仓库的协作关系;Hive与传统数据库的对接使用

Hadoop/Hive仓库数据数据流

Hive Cli 的基本用法

HQL基本语法

自行编写数据库与Hadoop相互ETL工具的思路

案例及实验

使用JDBC 连接Hive进行查询和分析

使用正则表达式加载数据

HQL高级语法

编写UDF函数

编写UDAF自定义函数

执行嵌套sql的优化

Hadoop数据库之HBase及HBase优化

hbase概念与架构

hbase核心知识点

hbase安装、部署

HBase配置优化综述

表设计优化相关参数

监控工具使用方法及注意事项

常见异常现象级处理方法

案例及实验

hot region造成读请求瓶颈

region预划分

Memstore合并设置的时机选择

合并storefile策略设置技巧

Memstore flush设置时机选择

Hbase-env.sh、Single、multi-thread、CMS使用及参数调整

GC回收垃圾时机、GC日志打印设置

GC阶段,region无法提供服务如何如何处理

Split时机控制(增大、disable)方法

CF数量多少对读写性能的影响

自动关闭flush的目的

上一篇: 北京Spark技术全解课程培训 下一篇: 北京Qlik Sense数据可视化设计培训

推荐课程

查看全部课程
北京IT认证培训中心

北京IT认证培训中心

海淀校区

查看全部校区 进入官方主页