我们海文大数据培训课程主要针对那些想要做数据工程师的学员,无论是Hive、HBase或者Spark分析的数据是存储在HDFS里面;管理集群资源和分布式数据处理框架MapReduce、Spark应用的资源调度与监控的;分布式并行计算框架MapReduce目前是海量数据并行处理的一个最常用的框架。Hadoop 2.x的编译、环境搭建、HDFS Shell使用,YARN集群资源管理与任务监控,MapReduce编程,分布式集群的部署管理(*括高可用性HA)必须要掌握的。
大数据、云计算-Hadoop大数据开发技术:
课程一、大数据运维之Linux基础
Linux系统做为大数据平的企业级操作系统,本部分是基础课程,帮大家打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等众多课程。这是进入大数据领域的必须掌握的基础技术因为企业中的项目基本上都是使用Linux环境下搭建或部署的。
1)Linux系统概述
2)系统安装及相关配置
3)Linux网络基础
4)OpenSSH实现网络安全连接
5)vi文本编辑器
6)用户和用户组管理
7)磁盘管理
8)Linux文件和目录管理
9)Linux终端常用命令
10)linux系统监测与维护
课程二、大数据开发核心技术-Hadoop
本课程是整套大数据课程的基石:其一,分布式文件系统HDFS用于存储海量数据,无论是Hive、HBase或者Spark分析的数据是存储在HDFS里面;其二是分布式资源管理框架YARN是用来在Hadoop云操作系统(也称数据系统)管理集群资源和分布式数据处理框架MapReduce、Spark应用的资源调度与监控的;分布式并行计算框架MapReduce目前是海量数据并行处理的一个最常用的框架。Hadoop 2.x的编译、环境搭建、HDFS Shell使用,YARN集群资源管理与任务监控,MapReduce编程,分布式集群的部署管理(*括高可用性HA)必须要掌握的。
一、初识Hadoop 2.x
1)大数据应用发展、前景
2)Hadoop 2.x概述及生态系统
3)Hadoop 2.x环境搭建与测试
二、深入Hadoop 2.x
1)HDFS文件系统的架构、功能、设计
2)HDFS Java API使用
3)YARN架构、集群管理、应用监控
4)MapReduce编程模型、Shuffle过程、编程调优
三、高级Hadoop 2.x
1)分布式部署Hadoop 2.x
2)分布式协作服务框架Zookeeper
3)HDFS HA架构、配置、测试
4)HDFS 2.x中高级特性
5)YARN HA架构、配置
6)Hadoop主要发行版本(CDH、HDP、Apache)
四、实战应用
1)以【CSDN网用户浏览日志】数据进行实际的分析
2)原数据采集
3)数据的预处理(ETL)
4)数据的分析处理(MapReduce)
课程三、大数据开发核心技术-大数据仓库Hive精讲
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供基本的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
一、Hive初识入门
1)Hive功能、体系结构、使用场景
2)Hive环境搭建、初级使用
3)Hive原数据配置、常见交互方式
二、Hive深入使用
1)Hive中的内部表、外部表、分区表
2)Hive数据迁移
3)Hive常见查询(select、where、distinct、join、group by)
4)Hive内置函数和UDF编程
三、Hive高级进阶
1)Hive数据的存储和压缩
2)Hive常见优化(数据倾斜、压缩等)
四、结合【CSDN用户浏览日志】实际案例分析
1)依据业务设计表
2)数据清洗、导入(ETL)
3)使用HiveQL,统计常见的网站指标
课程四、大数据协作框架-Sqoop/Flume/Oozie精讲
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库mysql、Oracle、SQLServer、postgresql等RDBMS数据间进行数据的传递,可以将一个关系型数据库,例如:MySQL、Oracle、SQLServer、Postgres等RDBMS中的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。
一、数据转换工具Sqoop
1)Sqoop功能、使用原则
2)将RDBMS数据导入Hive表中(全量、增量)
3)将HDFS上文件导出到RDBMS表中
二、文件收集框架Flume
1)Flume设计架构、原理(三大组件)
2)Flume初步使用,实时采集数据
3)如何使用Flume监控文件夹数据,实时采集录入HDFS中
4)任务调度框架Oozie
三、Oozie功能、安装部署
1)使用Oozie调度MapReduce Job和HiveQL
2)定时调度任务使用
课程五、大数据Web开发框架-大数据WEB工具Hue精讲
Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。
1)Hue架构、功能、编译
5)Hue集成Oozie
2)Hue集成HDFS
3)Hue集成MapReduce
4)Hue集成Hive、DataBase
课程六、大数据核心开发技术-分布式数据库HBase从入门到精通
HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。HBase在Hadoop之上提供了类似于Bigtable的能力,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群;
一、HBase初窥使用
1)HBase是什么、发展、与RDBMS相比优势、企业使用
2)HBase Schema、表的设计
3)HBase环境搭建、shell初步使用(CRUD等)
二、HBase深入使用
1)HBase数据存储模型
2)HBase Java API使用(CRUD、SCAN等)
3)HBase架构深入剖析
4)HBase与MapReduce集成、数据导入导出
三、HBase高级使用
1)如何设计表、表的预分区(依据具体业务分析讲解)
2)HBase表的常见属性设置(结合企业实际)
3)HBase Admin操作(Java API、常见命令)
四、【CSDN用户浏览日志】进行分析
1)依据需求设计表、创建表、预分区
2)进行业务查询分析
3)对于密集型读和密集型写进行HBase参数调优
课程七、大数据核心开发技术-Storm实时数据处理
Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等,大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Storm更是流式计算技术中的佼佼者和主流。按照storm作者的说法,Storm对于实时计算的意义类似于Hadoop对于批处理的意义。Hadoop提供了map+reduce的原语,使我们的批处理程序变得简单和高效。同样,Storm也为实时计算提供了一些简单高效的原语,而且Storm的Trident是基于Storm原语更高级的抽象框架,类似于基于Hadoop的Pig框架,让开发更加便利和高效。本课程会深入、全面的讲解Storm,并穿插企业场景实战讲述Storm的运用。淘宝双11的大屏幕实时监控效果冲击了整个IT界,业界为之惊叹的同时更是引起对该技术的探索。学完本课程你可以自己开发升级版的“淘宝双11”,一起来学习吧!