我们尚学堂云计算spark内存计算课程主要针对那些在职人员,本部分内容全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark Streaming流式计算原理与实践,Spark SQL,Spark的多语言编程以及SparkR的原理和运行。不仅面向项目开发人员,甚至对于研究Spark的学员,此部分都是非常有学习指引意义的课程。
第四阶段:spark内存计算 | |
Python课程 | Python语言的部分大家在学习后可以完全掌握Python的精髓,并通过这部分的学习给大家打好一个基础,在其他计算框架中多语言的使用上都会涉及到Python这门流行的语言。同时课程里会通过机器学习的案例让大家学习Python的同时去更好的理解机器学习。 |
1) 介绍Python以及特点
2) Python的安装
3) Python基本操作(注释、逻辑、字符串使用等)
4) Python数据结构(元组、列表、字典)
5) 使用Python进行批量重命名小例子
6) Python常见内建函数
7) 更多Python函数及使用常见技巧
8) 异常
9) Python函数的参数讲解
10) Python模块的导入
11) Python中的类与继承
12) 网络爬虫案例
13) 数据库连接,以及pip安装模块
14) Mongodb基础入门
15) 讲解如何连接mongodb
16) Python的机器学习案例
|
|
Scala课程 | 在此部分内,将更注重scala的各种语言规则与简单直接的应用,而不在于其是如何具体实现,通过学习本课程能具备初步的Scala语言实际编程能力。本部分课程也可以视为大家下面学习Spark课程的铺垫,供大家扫盲熟悉Scala,提前进行热身运动。 |
1) scala解释器、变量、常用数据类型等
2) scala的条件表达式、输入输出、循环等控制结构
3) scala的函数、默认参数、变长参数等
4) scala的数组、变长数组、多维数组等
5) scala的映射、元组等操作
6) scala的类,*括bean属性、辅助构造器、主构造器等
7) scala的对象、单例对象、伴生对象、扩展类、apply方法等
8) scala的*、引入、继承等概念
9) scala的特质
10) scala的操作符
11) scala的高阶函数
12) scala的集合
13) scala数据库连接
|
|
Spark 大数据处理 |
本部分内容全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark Streaming流式计算原理与实践,Spark SQL,Spark的多语言编程以及SparkR的原理和运行。不仅面向项目开发人员,甚至对于研究Spark的学员,此部分都是非常有学习指引意义的课程。 |
1) Spark介绍
2) Spark应用场景
3) Spark和Hadoop MR、Storm的比较和优势
4) RDD
5) Transformation
6) Action
7) Spark计算PageRank
8) Lineage
9) Spark模型简介
10) Spark缓存策略和容错处理
11) 宽依赖与窄依赖
12) Spark配置讲解
13) Spark集群搭建
14) 集群搭建常见问题解决
15) Spark原理核心组件和常用RDD
16) 数据本地性
17) 任务调度
18) DAGScheduler
19) TaskScheduler
20) Spark源码解读
21) 性能调优
22) Spark和Hadoop2.x整合:Spark on Yarn原理
|
|
Spark Streaming 实时计算 |
|
1) Spark Streaming:数据源和DStream
2) 无状态transformation与有状态transformation
3) Streaming Window的操作
4) sparksql 编程实战
5) spark的多语言操作
6) spark新版本的新特性
|
|
Spark MLlib 机器学习 |
前面课程大家已经掌握*代机器学习工具R,而后又学习了第二代机器学习工具Mahout,这里大家将会学习第三代机器学习工具MLlib,大家不仅将会了解MLlib的组件及其调用,而且会通过Spark的项目深入了解MLlib的现实使用。通过此部分大家也可以看出课程不仅着眼于现在,更是着眼于大家的未来在行业中的发展。 |
1) 介绍 a) Spark MLlib组件介绍 b) 基本数据类型 2) 回归算法 c) 广义线性模型 d) 逻辑回归 3) 分类算法 e) 朴素贝叶斯 f) 决策树 g) 随机森林 4) 第四章 推荐系统 5) 第五章 聚类 h) Kmeans i) Sparse kmeans j) Kmeans++ k) Kmeans II l) Streaming kmeans m) Gaussian Mixture Model |
|
Spark GraphX 图计算 |
|
a) 二分图
b) 概述
c) 构造图
d) 属性图
e) PageRank
|
|
项目实战 | 智慧城市大数据分析项目 城市中每时每刻都会产生海量数据,应用数据挖掘、机器学习和可视化技术,分析出的数据可以改进城市规划,缓解交通拥堵,抓捕罪犯。项目会使用真实的数据。 涉及到所学知识如下: |
项目技术架构体系:
a) 实时流处理 Kafka,Spark Streaming
b) 分布式运算 Hadoop,Spark
c) 数据库 Hbase,Redis
d) 机器学习 Spark Mllib
e) 前台web展示数据 Struts2,echart
|
|
手机软件推荐系统项目 使用数据来自某互联网平台手机助手,项目目标通过机器学习所学知识挖掘平台手机用户喜好,给用户准确推荐手机软件,类似360手机助手、华为手机助手、百度手机助手推荐功能。 | |
项目技术架构体系:
a) 分布式平台 Hadoop,Spark
b) 数据清洗 Hive
c) 数据分析 R RStudio
d) 推荐服务 Dubbox
e) 规则过滤 Drools
f) 机器学习 MLlib
|
|
网络流量异常检测项目 项目目标通过机器学习所学知识检测出异常,*括检测欺诈,网络攻击,服务器传感器故障灯(本项目用户现在热门的电商网站的流量分析检测,比如京东,天猫,淘宝等)。项目功能应用于各大互联网平台中,各大互联网平台均需要网络安全予以重视和预防以及检测。 | |
项目技术架构体系: a) 数据存储 Hadoop
b) 数据准备 Spark
c) 数据分析 R RStudio
d) 机器学习 MLlib
e) 数据评价及调参
|