课程内容 |
Apache Hadoop介绍 Hadoop介绍及优势 基本概念 Hadoop核心组件 实操练习:网络配置 Hadoop集群安装 集群管理方案 Cloudera Manager特征 Cloudera Manager安装 CDH介绍及安装 实操练习1:安装Cloudera Manager服务 实操练习2:创建Hadoop集群 Hadoop分布式文件系统(HDFS) HDFS特性 读写文件 NameNode内存注意事项 HDFS安全简介 HDFS web UI 使用hadoop 文件 shell 实操练习:使用HDFS |
YARN上的MapRduce和Spark 计算平台在hadoop中扮演的角色 YARN(集群资源管理器)的介绍 MapRduce概念介绍 Spark概念介绍 在YARN上运行计算框架 通过web UIs和shell探索YARN应用程序 YARN应用程序日志介绍 实操练习:运行YARN应用程序 Hadoop配置及服务运行日志 Cloudera Manager的配置管理机制 定位配置参数及更改应用配置 管理角色实例及添加服务 配置HDFS服务 配置Hadoop Daemon日志 配置YARN服务 实操练习:探索hadoop配置及守护程序日志 向HDFS导入数据 使用Flume从外部数据源实时导入数据 使用Sqooq从关系数据库中导入数据 REST接口介绍 导入数据的*实践 实操练习1:Flume的使用 实操练习2:使用Sqooq导入数据 |
Hadoop集群规划 总体规划考虑因素 硬件选择 虚拟化选项 云部署选项 网络考虑因素 节点配置 Hive、Impala及Pig的安装及配置 Hive介绍 Impala介绍 Pig介绍 Cloudera搜索 实操练习:使用Hive和Impala查询HDFS Hadoop客户端及Hue Hadoop客户端介绍 安装和配置Hadoop客户端 安装和配置Hue 使用Hue进行身份验证及授权 实操练习:使用Hue来控制hadoop用户访问 集群高级配置 高级配置参数 Hadoop端口配置 HDFS机柜感知配置 HDFS高可靠性配置 实操练习:配置HDFS的高可靠性 |
Hadoop安全 Hadoop安全的重要性 Hadoop的安全性概念 Kerberos简介及*原理介绍 使用Kerberos保护Hadoop集群 其他安全特性 资源管理 使用静态服务资源池配置cgroups 公平调度器 配置动态资源池 YARN内存和CPU设置 Impala查询调度 实操练习:Fair Sheduler的使用 集群维护 检查HDFS状态 集群间的数据拷贝 添加和移除Cluster节点 集群数据的负载平衡 创建目录快照 集群更新升级 实操练习1:验证集群的自我修复功能 实操练习2:创建HDFS快照 集群监控及排错 Cloudera Manager监控特性 监控Hadoop集群 Hadoop集群的排错 实操练习1:配置Email警告 实操练习2:排错挑战 |