第1阶段:Linux课程
|
Linux课程
|
centos linux镜像、桌面环境、shell环境、文件系统操作、网络管理、虚拟机与linux的通信设置、进程管理、软件管理、环境变量配置、ssh管理、防火墙管理、调度管理等。
|
讲解linux基础操作,讲的是在命令行下进行文件系统的操作,这是hadoop学习的基础,后面的所有视频都是基于linux操作的。鉴于很多学员没有linux基础,特增加该内容,*零linux基础入门。如果你从没有使用过linux,本节内容可以让你快速入门。
|
第二阶段:hadoop课程
|
搭建分布实验环境
|
核心组成介绍、hdfs/mapreduce体系结构、Hadoop集群结构、详细安装步骤、通过命令行和浏览器观察hadoop等。
|
本节是最基本的课程,属于入门级别,主要讲述在linux单机上面安装hadoop的分布模式,在linux集群上面安装hadoop集群。对于不熟悉linux的同学,课程中会简单的讲解常用的linux命令。这两种是必须要掌握的。尤其是在hadoop的部署上,一定要使用分布模式,这样学习才有立体概念。
|
介绍HDFS体系结构及shell、java操作方式
|
Hdfs/NameNode/DataNode/SecondaryNameNode体系结构、hadoop的HA及和Zookeeper的关系、block的划分原理和存储方式、修改namenode、datanode数据存储位置、操纵hdfs、使用java操作hdfs、rpc机制、hdfs的多种文件及压缩等。
|
本节是对hadoop核心之一——hdfs的讲解。在本节学习中,我们不仅对理论和操作进行讲解,也会讲解hdfs的源代码,方便部分学员以后对hadoop源码进行修改。通过该节学习我们能够熟练的对hadoop进行配置HA、hdfs的操作及深入原理的分析,同时也会给同学分享独家源码流程图。
|
介绍MapReduce基本技术
|
Mapreduce原理及执行的八大步骤、mapreduce实现单词计数功能、覆盖Mapper/Reducer功能、Writable接口、自定义hadoop类型、输入来源处理器、输出来源处理器、读取hdfs文件等。
|
本节开始对hadoop核心之一——mapreduce的讲解。在本次讲解中,掌握mapreduce执行的详细过程,以实际例子,讲解mapreduce的详细执行过程。还讲解hadoop的序列化机制和数据类型,并使用自定义类型实现广电日志信息的统计。
|
MapReduce进阶
|
mapreduce,讲解计数器、combiner、partitioner、排序算法、分组算法等全部知识。
|
通过这两次课程学习,学员可以把整个mapreduce的执行细节搞清楚,把各个可扩展点学习明白,包括MapReduce配置、优化等技术难点的讲解。
|
第三阶段:zookeeper课程
|
zookeeper课程
|
zookeeper集群环境、命令行操作、java操作、zookeeper和hadoopp生态环境中的应用。
|
在整个Hadoop生态环境中Zookeeper扮演着不可或缺的角色,在Hadoop的HA、Hbase的Master和regionserver等等都使用了Zookeeper的一致性等特性,虽然在开发中没有和Zookeeper直接打交道,但是理解该课程尤为重要。
|
第四阶段:HBase课程
|
HBase课程
|
Hbase的概述、数据模型、表设计、伪分布式和集群安装、shell操作、JavaAPI操作、数据迁移、数据备份及恢复、Hive使用、集群管理、性能调优。
|
hbase做为hadoop中列式数据库,在各种行业应用处于不可缺少的组件。本节讲解hbase的分布集群的安装,讲解基本理论和各种操作。我们通过对hbase原理的讲解,以及对各个行业的技术支持。最后讲解hbase如何设计表结构,这是hbase优化的重点,最后讲解hbase的优化配置,以及架构上的设计及优化,避免很多大坑。
|
第五阶段:Hive课程
|
Hive课程
|
Hive的体系结构、安装、导入数据、导出数据、学习分区导入、增量导入、优化导入过程 、Hive查询语句、单行函数、聚合函数、表函数、自定义函数、Hive操作普通文件格式、Hive的性能调优、广电项目的日志导入服务器通过Hive进行分析。
|
本课程的目的就是把Hive框架的边边角角都涉猎到,重点讲解Hive的数据库管理、数据表管理、表连接、查询优化、如何设计Hive表结构。
|
第六阶段:Sqoop2课程
|
Sqoop2课程
|
Sqoop2概述、Sqoop2把mysql中的数据导入到hdfs中、Sqoop2把hdfs中的数据导出到mysql中、Job化Sqoop2。
|
通过sqoop2将关系数据库与hdfs之间进行双向数据转换的。
|
第七阶段:Flume课程
|
Flume课程
|
Flume是什么、Flume的体系结构、agent配置信息、动态监控文件夹中文件变化、数据导入到hdfs中、通过flume动态监控广电日志文件变化,导入到hdfs中。
|
Flume是cloudera公布的分布式日志收集系统,在日志服务器中数据收集,统一提交到hdfs或者Kafka,再由后续storm或spark处理。
|
第八阶段:Kafka课程
|
Kafka课程
|
kafka是什么、体系结构、安装、存储策略、发布与订阅、Zookeeper协调管理、和Spark Streaming的综合应用。
|
Kafka是分布式消息订阅系统,学习kafka内部原理及优化配置,使用方法。
|
第九阶段:Redis课程
|
Redis课程
|
redis特点、与其他数据库的比较、安装redis、使用命令行客户端、字符串类型、散列类型、列表类型、集合类型、使用java访问redis、事务、管道、持久化、优化、主从复制、sentinel高可用、redis3.x集群安装配置。
|
redis是一款高性能的基于内存的分布式键值数据库,常常在项目中做为缓存及根据特征做为特定业务场景的数据库。
|
第十阶段:Scala课程
|
Scala课程
|
Scala的解释器、变量、常用数据类型、条件表达式、输入输出、循环等控制结构、函数、默认参数、变长参数、数组、变长数组、多维数组、映射、元祖等操作、类、对象、单例对象、伴生对象、扩展类、apply方法、包、引入、继承等概念、特质、操作符、高阶函数、集合。
|
Scala是学习spark的必备基础语言。
|
第十一阶段:Spark课程
|
Spark课程
|
Spark入门,与Hadoop的比较、环境搭建、完成单词计数、缓存策略、transformation和action、容错机制、核心组件、各种RDD、流计算、与Kafka结合、使用低阶Api控制kafka数据读取。
|
Spark是一款高性能的分布式计算框架,该框架几乎做为大部分公司应用的首选,所以未来Spark是趋势!
|
第十二阶段:Spark Mllib课程
|
Spark Mllib课程
|
Spark Mllib体系结构介绍、Spark Mllib如何在推荐、分类、聚类领域中使用。
|
Spark Mllib是数据挖掘和机器学习领域的利器,本课程是带领大家进入到这个领域中。
|
第十三阶段:CM+CDH集群管理课程
|
CM+CDH集群管理课程
|
CM + CDH集群的安装、CM主机及各种服务组件的管理、CDH集群的配置和参数调优、CDH集群HA配置及集群升级、CM的监控管理、集群管理的注意事项。
|
学习商用Hadoop版本,掌握通过web工具对hadoop集群进行安装、配置、调优、监控各个组件运行情况以及服务器IO、CPU、磁盘等*情况。
|