腾科的大数据Cloudera--Spark及Hadoop开发员培训课程主要适合具有编程经验的开发员及工程师,有一定相关的基础,希望能进一步提升自己的学员等,学员通过在腾科的专业、系统培训,快速通过认证考试,具备相关技能以及相关的从业资格!
1. Hadoop及生态系统介绍
2. ApacheHadoop文件存储
3. ApacheHadoop集群上的数据处理
4. 使用ApacheSqoop导入关系数据
5. ApacheSpark基础
6. SparkRDD
7. 使用键值对RDD
8. 编写和运行ApacheSpark应用
9. 配置ApacheSpark应用
10. ApacheSpark的并行处理
11. Spark持久化
12. ApacheSpark数据处理的常见模式
13. DataFrames和SparkSQL
14. ApacheKafka
15. 使用ApacheFlume采集实时数据
16. 集成ApacheFlume和ApacheKafka
17. ApacheSparkStreaming:DStreams介绍
18. ApacheSparkStreaming:批处理
19. ApacheSparkStreaming:数据源
★☆ 通过讲师在课堂上的讲解,以及实操练习,学员将学习以下内容:
★☆ 在Hadoop集群上进行分布式存储和处理数据。
★☆ 通过在Hadoop集群上编写、配置和部署ApacheSpark应用。
★☆ 使用Sparkshell进行交互式数据分析。
★☆ 使用SparkSQL查询处理结构化数据。
★☆ 使用SparkStreaming处理流式数据。
★☆ 使用Flume和Kafka为SparkStreaming采集流式数据。
★☆ 本课程适合于具有编程经验的开发员及工程师。无需ApacheHadoop基础。
★☆ 培训内容中对ApacheSpark的介绍所涉及的代码及练习使用Scala和Python,因此需至少掌握这两个编程语言中的一种。
★☆ 需熟练掌握Linux命令行。
★☆ 对SQL有基本了解。