北京大数据基础培训中心,北京大数据基础培训课件,大数据基础培训介绍

本课程以Java语言为基础,从大数据的概念开始，讲解大数据中常用的组件,HDFS数据存储，MapReduce离线计算框架,yarn,Hbase、ZooKeeper，Hive,Spark大数据实时处理，Flume和sqooq、Kafka，Flink流批一体分布式实时处理引擎，ElasticSearch分布式全文检索，Redis内存数据库。

大数据基础课程培训

一、学员基础：

1.有Java编程语言基础

2.有数据库基础

3.了解计算机基本操作，掌握一般文字输入和处理的基础知识；

二、课程目标：

了解大数据业内最新发展趋势，深入掌握Hadoop的原理，Hadoop生态系统

深入学习yarn框架下的MapReduce，掌握MapReduce研发

掌握HDFS开发

了解Hadoop集群规划，应用案例解析

列式数据库HBase的基本原理，应用场景，掌握基本的编程技巧

掌握主流的实时处理引擎Flink

学习掌握Hive工具,分布式协调系统Zookeeper的基本原理，应用场景，掌握基本的编程技

深入掌握Spark

三、课程大纲：

时间	主要授课内容
大数据技术基础	内容一：大数据基础 1．什么是大数据 2．大数据技术的产生背景 3．大数据应用场景 4．大数据思维 5．大数据产业链 6．大数据是如何变革各行业的技术架构、商业模式 7．国内外主流的大数据解决方案介绍 8．当前大数据解决方案与传统数据库方案的剖析比较 9．开源的大数据生态系统平台剖析内容二：Linux集群 1． Linux操作系统知识 2． Linux网络配置管理 3． Linux的x86服务器集群管理内容三：Hadoop大数据平台 1．Hadoop的发展历程以及产业界的实际应用介绍 2．Hadoop大数据平台架构 3．基于Hadoop平台的PB级大数据存储管理 4．分析处理的工作原理与机制 5．Hadoop的核心组件剖析
HDFS	内容一：HDFS 1．分布式文件系统HDFS的简介 2．HDFS系统的主从式平台架构和工作原理 3．HDFS核心组件技术讲解 4．HDFS NameNode的工作机制和元数据管理设计 5．HDFS DataNode的数据存储机制设计 6．HDFS的副本机制设计 7．HDFS的可靠性机制设计 8．HDFS的I/O存取技术应用 9．基于HDFS的大型存储系统应用开发实战 10．HDFS集群的安装、部署、配置与性能优化实践 11．分布式键值存储系统的平台架构、核心技术以及应用开发 12．PB及大数据存储系统的项目案例分析
MapReduce与Yarn、ZooKeeper	内容一：MapReduce与Yarn技术实践 1．MapReduce并行计算模型 2．MapReduce作业执行与调度技术 3．第二代大数据处理框架Yarn的并行处理实战 4．MapReduce应用开发环境的部署，以及大数据并行处理应用程序开发 5．MapReduceLevel 5编程技巧与性能优化实践 6．MapReduce与Yarn大数据分析处理案例分析内容二：ZooKeeper分布式协调服务 1．ZooKeeper分布式协调服务系统的工作原理、平台架构、集群部署应用实战 2．ZooKeeper集群的原理架构，以及应用配置 3．部署与配置ZooKeeper分布式集群
Hbase	内容：Hbase 4．NoSQL数据库与NewSQL数据库技术概述 5．HBase分布式数据库简介 6．HBase分布式数据库集群的主从式平台架构和关键技术剖析 7．HBase伪分布式和物理集群分布式的控制与运行配置 8．HBase的逻辑数据模型，HBase的表、行、列族、列、单元格、版本、row key排序 9．HBase的物理模型，命名空间（表空间）、表模式（Schema）的设计法则 10．HBase 主节点HMaster的工作原理，HMaster的高可用配置，以及性能调优 11．HBase 从节点RegionServer（分区服务节点）的工作原理，表分区及存储I/O高并发配置，以及性能调优 12．HBase的存储引擎工作原理，以及HBase表数据的键值存储结构，以及HFile存储结构 13．HBase表设计与数据操作以及数据管理操作 14．HBase集群安装部署、参数配置和性能优化 15．HBase的元数据管理，以及与ZooKeeper的交互机制 16．HBase集群的运维与监控管理，以及常见故障的解决之道
大型数据仓库Hive集群平台	内容：Hive 1．数据仓库概述 2．Hive大数据仓库简介以及应用介绍 3．Hive Server的工作原理、机制与应用 4．Hive数据仓库集群的安装部署与配置优化 5．Hive应用开发技巧 6．Hive SQL剖析与应用实践 7．Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧 8．Hive数据仓库报表设计
Scala	内容：Scala应用基础 1．Scala基础语法 2．数据类型 3．变量 4．循环 5．函数 6．数组 7．类和对象 8．模式匹配文件读写
Spark大数据实时处理	内容一：Spark大数据实时处理平台剖析 1．Spark的发展历程以及业界的实际应用介绍 2．Spark实时大数据处理平台架构 3．Spark RDD内存弹性分布式数据集的工作原理与机制 4．Spark的核心组件剖析 5．基于Spark的应用实践案例内容二：Spark应用基础 1．Spark的实时处理基础知识 2．Spark生态系统概述以及发展历程 3．Spark在处理实时数据场景下的优势和处理模式 4．Spark内存计算编程框架 5．Spark Core的基础原理 6．Spark SQL的基础原理 7．Spark Streaming的基础原理 8．Spark在业界的实际应用场景与相关案例简介
Flume和sqooq	内容一：Flume海量日志聚合 1．Flume简介及架构 2．Flume关键特性介绍 3．Flume应用内容二：sqooq数据转换 1．sqooq简介 2．sqooq作业管理 3．sqooq应用内容三：Oozie 4．Oozie简介及架构 5．Oozie工作流 6．Oozie应用
Kafka	内容：Kafka分布式消息订阅系统 1．Kafka简介 2．Kafka架构与功能 3．Kafka关键流程 4．Kafka应用
Flink流处理引擎	内容：Flink实时处理 1．Flink原理架构 2．Flink的Time和Window机制 3．Flink的Watermark机制 4．Flink的容错与状态管理
ElasticSearch 和Redis	内容一： ElasticSearch分布式全文检索 1．ElasticSearch简介 2．ElasticSearch系统架构 3．ElasticSearch关键特性内容二：Redis内存数据库 1．Redis应用场景 2．Redis业务流程 3．Redis特性及数据类型 4．Redis的优化 5．Redis案例应用

时间

主要授课内容

大数据技术基础

内容一：大数据基础

1．什么是大数据

2．大数据技术的产生背景

3．大数据应用场景

4．大数据思维

5．大数据产业链

6．大数据是如何变革各行业的技术架构、商业模式

7．国内外主流的大数据解决方案介绍

8．当前大数据解决方案与传统数据库方案的剖析比较

9．开源的大数据生态系统平台剖析

内容二：Linux集群

1． Linux操作系统知识

2． Linux网络配置管理

3． Linux的x86服务器集群管理

内容三：Hadoop大数据平台

1．Hadoop的发展历程以及产业界的实际应用介绍

2．Hadoop大数据平台架构

3．基于Hadoop平台的PB级大数据存储管理

4．分析处理的工作原理与机制

5．Hadoop的核心组件剖析

HDFS

内容一：HDFS

1．分布式文件系统HDFS的简介

2．HDFS系统的主从式平台架构和工作原理

3．HDFS核心组件技术讲解

4．HDFS NameNode的工作机制和元数据管理设计

5．HDFS DataNode的数据存储机制设计

6．HDFS的副本机制设计

7．HDFS的可靠性机制设计

8．HDFS的I/O存取技术应用

9．基于HDFS的大型存储系统应用开发实战

10．HDFS集群的安装、部署、配置与性能优化实践

11．分布式键值存储系统的平台架构、核心技术以及应用开发

12．PB及大数据存储系统的项目案例分析

MapReduce与Yarn、ZooKeeper

内容一：MapReduce与Yarn技术实践

1．MapReduce并行计算模型

2．MapReduce作业执行与调度技术

3．第二代大数据处理框架Yarn的并行处理实战

4．MapReduce应用开发环境的部署，以及大数据并行处理应用程序开发

5．MapReduceLevel 5编程技巧与性能优化实践

6．MapReduce与Yarn大数据分析处理案例分析

内容二：ZooKeeper分布式协调服务

1．ZooKeeper分布式协调服务系统的工作原理、平台架构、集群部署应用实战

2．ZooKeeper集群的原理架构，以及应用配置

3．部署与配置ZooKeeper分布式集群

Hbase

内容：Hbase

4．NoSQL数据库与NewSQL数据库技术概述

5．HBase分布式数据库简介

6．HBase分布式数据库集群的主从式平台架构和关键技术剖析

7．HBase伪分布式和物理集群分布式的控制与运行配置

8．HBase的逻辑数据模型，HBase的表、行、列族、列、单元格、版本、row key排序

9．HBase的物理模型，命名空间（表空间）、表模式（Schema）的设计法则

10．HBase 主节点HMaster的工作原理，HMaster的高可用配置，以及性能调优

11．HBase 从节点RegionServer（分区服务节点）的工作原理，表分区及存储I/O高并发配置，以及性能调优

12．HBase的存储引擎工作原理，以及HBase表数据的键值存储结构，以及HFile存储结构

13．HBase表设计与数据操作以及数据管理操作

14．HBase集群安装部署、参数配置和性能优化

15．HBase的元数据管理，以及与ZooKeeper的交互机制

16．HBase集群的运维与监控管理，以及常见故障的解决之道

大型数据仓库Hive集群平台

内容：Hive

1．数据仓库概述

2．Hive大数据仓库简介以及应用介绍

3．Hive Server的工作原理、机制与应用

4．Hive数据仓库集群的安装部署与配置优化

5．Hive应用开发技巧

6．Hive SQL剖析与应用实践

7．Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧

8．Hive数据仓库报表设计

Scala

内容：Scala应用基础

1．Scala基础语法

2．数据类型

3．变量

4．循环

5．函数

6．数组

7．类和对象

8．模式匹配

文件读写

Spark大数据实时处理

内容一：Spark大数据实时处理平台剖析

1．Spark的发展历程以及业界的实际应用介绍

2．Spark实时大数据处理平台架构

3．Spark RDD内存弹性分布式数据集的工作原理与机制

4．Spark的核心组件剖析

5．基于Spark的应用实践案例

内容二：Spark应用基础

1．Spark的实时处理基础知识

2．Spark生态系统概述以及发展历程

3．Spark在处理实时数据场景下的优势和处理模式

4．Spark内存计算编程框架

5．Spark Core的基础原理

6．Spark SQL的基础原理

7．Spark Streaming的基础原理

8．Spark在业界的实际应用场景与相关案例简介

Flume和sqooq

内容一：Flume海量日志聚合

1．Flume简介及架构

2．Flume关键特性介绍

3．Flume应用

内容二：sqooq数据转换

1．sqooq简介

2．sqooq作业管理

3．sqooq应用

内容三：Oozie

4．Oozie简介及架构

5．Oozie工作流

6．Oozie应用

Kafka

内容：Kafka分布式消息订阅系统

1．Kafka简介

2．Kafka架构与功能

3．Kafka关键流程

4．Kafka应用

Flink流处理引擎

内容：Flink实时处理

1．Flink原理架构

2．Flink的Time和Window机制

3．Flink的Watermark机制

4．Flink的容错与状态管理

ElasticSearch

和Redis

内容一： ElasticSearch分布式全文检索

1．ElasticSearch简介

2．ElasticSearch系统架构

3．ElasticSearch关键特性

内容二：Redis内存数据库

1．Redis应用场景

2．Redis业务流程

3．Redis特性及数据类型

4．Redis的优化

5．Redis案例应用

北京大数据基础课程培训

课程详情

推荐课程

北京IT认证培训中心