1.有Java编程语言基础;
2.有大数据编程基础知识;
3.有一定的Python基础
4.对大数据分析与挖掘有兴趣
掌握大数据分析与机器学习的完整流程
掌握大数据与机器学习的核心算法建模
握大数据商品推荐算法建模能力
掌握数据挖掘与机器学习的主流开发库
掌握大数据用户画像的机器学习建模过程
时 间 |
主要授课内容 |
大数据分析挖掘算法 |
内容一:大数据分析挖掘算法 1.业界常见的大数据分析应用场景以及对应的分析算法模型应用,及其案例 2.常用的统计分析模型的介绍,*括方差分析、线性拟合、回归、逻辑回归、因子分析、主成分分析、时间序列分析的基础知识 3.常用的数据挖掘模型介绍,重点介绍六类机器学习与挖掘模型算法 4.业界主流的数据仓库工具和数据分析挖掘相关工具软件的应用概述 内容二:机器学习 1.机器学习概念、发展历程 2.机器学习的应用场景 3.机器学习与统计分析 4.无监督式学习概述 5.有监督式学习概述 6.半监督式学习概述 7.强化学习概述 8.人工神经网络学习概述 9.深度学习概述 10.机器学习的应用场景和应用案例 |
Spark大数据实时与高性能处理平台剖析 |
内容:Spark大数据实时与高性能处理平台剖析 1.Spark实时大数据处理平台架构 2.Spark编程模型以及Spark编程实例解析 3.Spark RDD内存弹性分布式数据集的*原理与机制 4.Spark Core的核心组件剖析 5.Spark系统架构和运行过程剖析 6.Spark on Yarn运行原理和实例 7.Spark RDD transform、滑动窗口、foreachRDD性能优化、持久化、checkpoint、容错与事务、与Spark SQL整合使用 8.基于Spark的实时数据仓库与实时分析挖掘处理的应用实践,以及应用案例 |
Spark SQL应用实战 |
内容:Spark SQL应用实战 1.Spark SQL实时数据仓库的实现原理与操作 2.Spark SQL核心代码剖析 3.Spark SQL客户端开发*API 4.Spark SQL实时统计应用 5.Spark SQL应用程序开发实践 |
Spark Streaming应用实战 |
内容:Spark Streaming应用实战 1.Streaming与Storm在实时流计算处理应用场景下的案例与比较 2.Spark Streaming与Spark交互的实现机制 3.Spark Streaming的核心代码剖析 4.Spark Streaming客户端编程实践 5.Spark Streaming实时流数据分析处理应用开发实践 |
数据预处理与特征选择 |
内容一:数据预处理 1.数据抽取、转换和加载 2.数据清洗 3.特征处理 内容二:特征选择与降维 1.特征选择概述 2.Filter 3.Wrapper 4.Embedded 5.特征扩增 6.降维、PCA、LDA、LLE、SVD |
机器学习算法 |
内容一:有监督学习 1.KNN算法 2.决策树算法 3.SVM算法 4.朴素贝叶斯算法 5.逻辑回归算法 6.线性回归算法 7.集成算法 内容二:无监督学习 1.聚类算法 2.关联算法 内容三:模型评估与优化 1.模型优化与评估概念 2.最优化模型 3.模型评估与选择 |
Spark MLlib数据挖掘 |
内容:Spark MLlib数据挖掘 1. Spark MLlib概述 2. Spark MLlib评估矩阵 3. Spark MLlib关联规则与推荐算法 4. Spark MLlib聚类与降维 5. Spark MLlib分类与回归 6. Spark MLlib特征提取和转换 7. Spark MLlib基础统计分析 |
大数据挖掘案例 |
内容:综合实验 1. 房价售价预测 2.个人收入分群 3. 移民的签证预测 4. 银行办理定期存款业务预测 |