本课程主要针对那些想要做数据工程师的学员,海文针对学员在整个课程学习的过程中所需要的不同的资料,制定了大量课前知识点预习教材,课中练习案例,课后复习巩固的作业和项目。
阶段二、Spark技术实战-Hadoop大数据开发技术
课程一、Spark技术实战之基础篇-Scala语言从入门到精通
为什么要学习Scala?源于Spark的流行,Spark是当前最流行的开源大数据内存计算框架,采用Scala语言实现,各大公司都在使用Spark:IBM宣布承诺大力推进Apache Spark项目,并称该项目为:在以数据为主导的,未来十年最为重要的新的开源项目。这一承诺的核心是将Spark嵌入IBM业内领先的分析和商务平台,Scala具有数据处理的天然优势,Scala是未来大数据处理的主流语言;
1)-Spark的前世今生
2)-课程介绍、特色与价值
3)-Scala编程详解:基础语法
4)-Scala编程详解:条件控制与循环
5)-Scala编程详解:函数入门
6)-Scala编程详解:函数入门之默认参数和带名参数
7)-Scala编程详解:函数入门之变长参数
8)-Scala编程详解:函数入门之过程、lazy值和异常
9)-Scala编程详解:数组操作之Array、ArrayBuffer以及遍历数组
10)-Scala编程详解:数组操作之数组转换
11)-Scala编程详解:Map与Tuple
12)-Scala编程详解:面向对象编程之类
13)-Scala编程详解:面向对象编程之对象
14)-Scala编程详解:面向对象编程之继承
15)-Scala编程详解:面向对象编程之Trait
16)-Scala编程详解:函数式编程
17)-Scala编程详解:函数式编程之集合操作
18)-Scala编程详解:模式匹配
19)-Scala编程详解:类型参数
20)-Scala编程详解:隐式转换与隐式参数
21)-Scala编程详解:Actor入门
课程二、大数据核心开发技术-内存计算框架Spark精讲
Spark是UC Berkeley AMP lab所开源的类,是Hadoop MapReduce的通用并行框架,Spark拥有Hadoop MapReduce所具有的优点。启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代*负载。Spark Streaming:构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据;
1)Spark初识入门
2)Spark概述、生态系统、与MapReduce比较
3)Spark编译、安装部署(Standalone Mode)及测试
4)Spark应用提交工具(spark-submit,spark-shell)
5)Scala基本知识讲解(变量,类,高阶函数)
6)Spark核心RDD
7)RDD特性、常见操作、缓存策略
8)RDD Dependency、Stage常、源码分析
9)Spark核心组件概述
10)案例分析
11)Spark高阶应用
12)Spark on YARN运行原理、运行模式及测试
13)Spark HistoryServer历史应用监控
14)Spark Streaming流式计算
15)Spark Streaming原理、DStream设计
16)Spark Streaming常见input、out
17)Spark Streaming与Kafka集成
18)使用Spark对【CSDN网用户浏览日志】进行分析
课程三、大数据核心开发技术-Spark深入剖析(全案例)
本课程主要讲解目前大数据领域热门、火爆、有前景的技术——Spark。在本课程中,会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会*含完全从企业真实复杂业务需求中抽取出的案例实战。课程会涵盖Scala编程详解、Spark核心编程.
1)Scala编程、Hadoop与Spark集群搭建、Spark核心编程、Spark内核源码深度剖析、Spark性能调优;
2)Spark源码剖析;
3)Spark案例分析;
课程四、企业大数据平台高级应用
本阶段主要就之前所学内容完成大数据相关企业场景与解决方案的剖析应用及结合一个电子商务平台进行实战分析,主要*括有:企业大数据平台概述、搭建企业大数据平台、真实服务器手把手环境部署、使用CM 5.3.x管理CDH 5.3.x集群;
1)企业大数据平台概述
2)大数据平台基本组件
3)Hadoop发行版本、比较、选择
4)集群环境的准备(系统、基本配置、规划等)
5)搭建企业大数据平台
6)以实际企业项目需求为依据,搭建平台
7)需求分析(主要业务)
8)框架选择(Hive\HBase\Spark等)
9)真实服务器手把手环境部署
10)安装Cloudera Manager 5.3.x
11)使用CM 5.3.x安装CDH 5.3.x
12)如何使用CM 5.3.x管理CDH 5.3.x集群
13)基本配置,优化
14)基本性能测试
15)各个组件如何使用
课程五、项目实战:驴妈妈旅游网大型离线数据电商分析平台
离线数据分析平台是一种利用hadoop集群开发工具的一种方式,主要作用是帮助公司对网站的应用有一个比较好的了解。尤其是在电商、旅游、银行、证券、游戏等领域有非常广泛,因为这些领域对数据和用户的特性把握要求比较高,所以对于离线数据的分析就有比较高的要求了。本课程讲师本人之前在游戏、旅游等公司专门从事离线数据分析平台的搭建和开发等,通过此项目将所有大数据内容贯穿,并前后展示!
1)Flume、Hadoop、Hbase、Hive、Oozie、Sqoop、离线数据分析,SpringMVC,Highchat;
2Flume+Hadoop+Hbase+SpringMV
C+MyBatis+MySQL+Highcharts实现的电商离线数据分析;
3)日志收集系统、日志分析、数据展示设计
课程六、项目实战:基于1号店的电商实时数据分析系统
课程基于1号店的业务及数据进行设计和讲解的,主要涉及:
1、课程中完整开发3个Storm项目,均为企业实际项目,其中一个是完全由Storm Trident开发。项目源码均可以直接运行,也可直接用于商用或企业。
2、每个技术均采用最新稳定版本,学完后会员可以从Kafka到Storm项目开发及HighCharts图表开发一个人搞定!让学员身价剧增;
3、搭建CDH5生态环境完整平台,且采用Cloudera Manager界面化管理CDH5平台。让Hadoop平台环境搭建和维护都变得轻而易举。
4、分享实际项目的架构设计、优劣分析和取舍、经验技巧,陡直提升学员的经验值;
1)全面掌握Storm完整项目开发思路和架构设计
2)掌握Storm Trident项目开发模式
3)掌握Kafka运维和API开发、与Storm接口开发
4)掌握HighCharts各类图表开发和实时无刷新加载数据
5)熟练搭建CDH5生态环境完整平台
6)灵活运用HBase作为外部存储
7)可以做到以一己之力完成从后台开发(Storm、Kafka、Hbase开发)
到前台HighCharts图表开发、Jquery运用等,所有*一个人搞定!
可以一个人搞定淘宝双11大屏幕项目!
课程七、大数据高薪面试剖析
本阶段通过对历来大数据公司企业真实面试题的剖析,讲解,让学员真正的一个菜鸟转型为具有1年以上的大数据开发*经验的专业人士,也是讲师多年来大数据企业开发的经验之谈。
1)大数据项目
2)企业大数据项目的类型
3)技术架构(如何使用各框架处理数据)
4)冲刺高薪面试
5)面试简历编写(把握重点要点)
6)面试中的技巧
7)常见面试题讲解
8)如何快速融入企业进行*(对于大数据公司来说非常关键)
9)学员答疑
10)针对普遍问题进行公共解答
11)一对一的交流