1.有Java编程语言基础
2.有数据库基础
3.了解计算机基本操作,掌握一般文字输入和处理的基础知识;
了解大数据业内最新发展趋势,深入掌握Hadoop的原理,Hadoop生态系统
深入学习yarn框架下的MapReduce,掌握MapReduce研发
掌握HDFS开发
了解Hadoop集群规划,应用案例解析
列式数据库HBase的基本原理,应用场景,掌握基本的编程技巧
掌握主流的实时处理引擎Flink
学习掌握Hive工具,分布式协调系统Zookeeper的基本原理,应用场景,掌握基本的编程技
深入掌握Spark
时 间 |
主要授课内容 |
大数据技术基础 |
内容一:大数据基础 1.什么是大数据 2.大数据技术的产生背景 3.大数据应用场景 4.大数据思维 5.大数据产业链 6.大数据是如何变革各行业的技术架构、商业模式 7.国内外主流的大数据解决方案介绍 8.当前大数据解决方案与传统数据库方案的剖析比较 9.开源的大数据生态系统平台剖析 内容二:Linux集群 1. Linux操作系统知识 2. Linux网络配置管理 3. Linux的x86服务器集群管理 内容三:Hadoop大数据平台 1.Hadoop的发展历程以及产业界的实际应用介绍 2.Hadoop大数据平台架构 3.基于Hadoop平台的PB级大数据存储管理 4.分析处理的*原理与机制 5.Hadoop的核心组件剖析 |
HDFS |
内容一:HDFS 1.分布式文件系统HDFS的简介 2.HDFS系统的主从式平台架构和*原理 3.HDFS核心组件技术讲解 4.HDFS NameNode的*机制和元数据管理设计 5.HDFS DataNode的数据存储机制设计 6.HDFS的副本机制设计 7.HDFS的可靠性机制设计 8.HDFS的I/O存取技术应用 9.基于HDFS的大型存储系统应用开发实战 10.HDFS集群的安装、部署、配置与性能优化实践 11.分布式键值存储系统的平台架构、核心技术以及应用开发 12.PB及大数据存储系统的项目案例分析 |
MapReduce与Yarn、ZooKeeper |
内容一:MapReduce与Yarn技术实践 1.MapReduce并行计算模型 2.MapReduce作业执行与调度技术 3.第二代大数据处理框架Yarn的并行处理实战 4.MapReduce应用开发环境的部署,以及大数据并行处理应用程序开发 5.MapReduceLevel 5编程技巧与性能优化实践 6.MapReduce与Yarn大数据分析处理案例分析 内容二:ZooKeeper分布式协调服务 1.ZooKeeper分布式协调服务系统的*原理、平台架构、集群部署应用实战 2.ZooKeeper集群的原理架构,以及应用配置 3.部署与配置ZooKeeper分布式集群 |
Hbase |
内容:Hbase 4.NoSQL数据库与NewSQL数据库技术概述 5.HBase分布式数据库简介 6.HBase分布式数据库集群的主从式平台架构和关键技术剖析 7.HBase伪分布式和物理集群分布式的控制与运行配置 8.HBase的逻辑数据模型,HBase的表、行、列族、列、单元格、版本、row key排序 9.HBase的物理模型,命名空间(表空间)、表模式(Schema)的设计法则 10.HBase 主节点HMaster的*原理,HMaster的高可用配置,以及性能调优 11.HBase 从节点RegionServer(分区服务节点)的*原理,表分区及存储I/O高并发配置,以及性能调优 12.HBase的存储引擎*原理,以及HBase表数据的键值存储结构,以及HFile存储结构 13.HBase表设计与数据操作以及数据管理操作 14.HBase集群安装部署、参数配置和性能优化 15.HBase的元数据管理,以及与ZooKeeper的交互机制 16.HBase集群的运维与监控管理,以及常见故障的解决之道 |
大型数据仓库Hive集群平台 |
内容:Hive 1.数据仓库概述 2.Hive大数据仓库简介以及应用介绍 3.Hive Server的*原理、机制与应用 4.Hive数据仓库集群的安装部署与配置优化 5.Hive应用开发技巧 6.Hive SQL剖析与应用实践 7.Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧 8.Hive数据仓库报表设计 |
Scala |
内容:Scala应用基础 1.Scala基础语法 2.数据类型 3.变量 4.循环 5.函数 6.数组 7.类和对象 8.模式匹配 文件读写 |
Spark大数据实时处理 |
内容一:Spark大数据实时处理平台剖析 1.Spark的发展历程以及业界的实际应用介绍 2.Spark实时大数据处理平台架构 3.Spark RDD内存弹性分布式数据集的*原理与机制 4.Spark的核心组件剖析 5.基于Spark的应用实践案例 内容二:Spark应用基础 1.Spark的实时处理基础知识 2.Spark生态系统概述以及发展历程 3.Spark在处理实时数据场景下的优势和处理模式 4.Spark内存计算编程框架 5.Spark Core的基础原理 6.Spark SQL的基础原理 7.Spark Streaming的基础原理 8.Spark在业界的实际应用场景与相关案例简介 |
Flume和sqooq |
内容一:Flume海量日志聚合 1.Flume简介及架构 2.Flume关键特性介绍 3.Flume应用 内容二:sqooq数据转换 1.sqooq简介 2.sqooq作业管理 3.sqooq应用 内容三:Oozie 4.Oozie简介及架构 5.Oozie*流 6.Oozie应用 |
Kafka |
内容:Kafka分布式消息订阅系统 1.Kafka简介 2.Kafka架构与功能 3.Kafka关键流程 4.Kafka应用 |
Flink流处理引擎 |
内容:Flink实时处理 1.Flink原理架构 2.Flink的Time和Window机制 3.Flink的Watermark机制 4.Flink的容错与状态管理 |
ElasticSearch 和Redis |
内容一: ElasticSearch分布式全文检索 1.ElasticSearch简介 2.ElasticSearch系统架构 3.ElasticSearch关键特性 内容二:Redis内存数据库 1.Redis应用场景 2.Redis业务流程 3.Redis特性及数据类型 4.Redis的优化 5.Redis案例应用 |