1、掌握大数据的的开发与维护;
2、提升团队的开发与维护能力
模块名称 |
课程内容 |
一天 |
Hadoop简介 1.1 为什么写《Hadoop实战》 1.2 什么是Hadoop 1.3 了解分布式系统和Hadoop 1.4 比较SOL数据库和Hadoop 1.5 理解MapReduce 1.6 用Hadoop统计单词 —— 运行*个程序 1.7 Hadoop历史
初识Hadoop 2.1 Hadoop的构造模块 2.2 为Hadoop集群安装SSH 2.3 运行Hadoop 2.4 基于Web的集群用户界面
Hadoop组件 3.1 HDFS文件操作 3.2 剖析MapReduce程序 3.3 读和写
第二部分 实战
编写MapReduce基础程序 4.1 获得专利数据集 4.2 构建MapReduce程序的基础模板 4.3 计数 4.4 适应Hadoop API的改变 4.5 Hadoop的Streaming 4.6 使用combiner 提升性能
高阶MapReduce作业 5.1 链接MapReduce作业 5.2 联结不同来源的数据 5.3 创建一个Bloom filter
编程事件 6.1 开发MapReduce程序 6.2 生产集群上的监视和调试 6.3 性能调优
细则手册 7.1 向任务传递作业定制的参数 7.2 探查任务特定信息 7.3 划分为多个输出文件 7.4 以数据库作为输入输出 7.5 保持输出的顺序
|
二天 |
管理Hadoop 8.1 位实际应用设置特定参数值 8.2 系统体检 8.3 权限设置 8.4 配额管理 8.5 启用回收站 8.6 删减DataNode 8.7 增加DataNode 8.8 管理NameNode和SNN 8.9 恢复失效的NameNode 8.10 感知网络布局和机架的设计 8.11 多用户作业的调度
第三部分 Hadoop高级
在云上运行Hadoop 9.1 Amazon Web Services 简介 9.2 安装 AWS 9.3 在EC2上安装Hadoop 9.4 在EC2上运行MapReduce程序 9.5 清空和关闭EC2实例 9.6 Amazon Elastic MapReduce和其他AWS服务
用Pig 编程 10.1像Pig一样思考 10.2 安装Pig 10.3 运行Pig 10.4 通过Grunt学习Pig Latin 10.5 谈谈Pig Latin 10.6 用户定义函数 10.7 脚本 10.8 Pig实战——计算相似专利的例子
Hive及Hadoop群 11.1 Hive 11.2 其他Hadoop相关的部分 |
三天 |
Spark topic
Spark大数据架构概述及案例简介 介绍Spark大数据层级架构及各层软件设计要求 Hadoop与Spark区别与联系 Spark生态系统概述以及版本演化 Spark产生动机与基本概念 Spark产生背景 Spark核心概念 Spark程序架构 Spark安装部署 Spark运行模式简介 搭建一个spark on yarn集群 Spark程序设计实例 Scala语言基础 Spark程序设计方法 Spark内部原理 Spark程序运行流程概述 Spark内部执行流程 Spark shuffle实现 Spark算子的内部机制 Spark调优方法 Spark调优思想 spark调优方法 Spark Streaming应用及案例分析 Spark Streaming产生动机 Spark Streaming程序设计 Spark Streaming容错与性能优化 Spark SQL Spark SQL定位 如何使用SparkSQL处理数据 Spark SQL与Spark及Spark Streaming结合 |