腾科IT的-Spark和Hadoop数据科学培训课程主要适合希望进一步提升自己的高级数据分析人员,训练学员掌握基本的技能,提高学员相关的认证考试*!
1. 引言
2. 数据科学概述
3. 使用案例
4. 项目生命周期
5. 数据采集
6. 评估输入数据
7. 数据转换
8. 数据分析和统计方法
9. 机器学习的基础知识
10. 推荐系统概述
11. Apache Spark和MLlib简介
12. 通过MLlib实现推荐系统
13. 实验和评估
14. 生产部署和超越
15.总结
1.如何获取、清洗和综合来自不同数据源的数据,为分析提供统一全面的视图。
2.了解用于从海量数据探索潜在商业价值的统计方法。
3.掌握何时将Hadoopstreaming和ApacheSpark嵌入搭建数据科学所需的数据产品流水线中去。
4.了解数据科学项目所需的机器学习技术。
5.如何使用SparkMLlib实现和管理推荐系统,如何设置和评估结果。
6.了解将新开发的分析项目部署到大规模产品环境中可能碰到的扩展能力问题及如何规避。
1.适合软件开发人员、大数据工程师以及高级数据分析人员。
2.学员需掌握使用Linux环境的基本技能,建议具备Hadoop方面的基本知识或经验:HDFS,MapReduce,HadoopStreaming,以及ApacheHive等,并能熟练使用至少一种脚本编程语言,建议Python,或者熟悉其他语言譬如Perl或Ruby。