一天 |
Spark的架构设计 1.1 Spark的速度为什么如此的快? 1.2 Spark 生态系统 1.3 Spark的架构设计剖析 1.4 RDD计算流程解析 1.5 Spark的出色容错机制 1.6Spark分布式架构与单机多核架构的异同 1.7 Spark的企业级应用 Spark在Amazon中的应用 Spark在Yahoo!的应用 Spark在西班牙电信的应用 Spark在淘宝的应用 Spark集群的安装和设置 2.1 在一台机器上运行Spark 2.2 在Mesos上部署Spark 2.3 在YARN上部署Spark 2.4 通过SSH在众多机器上部署Spark 2.5 Spark集群设置 park开发环境配置及流程 3.1 Scala简介、为什么Spark会使用Scala作为开发语言 3.2使用Eclipse开发Spark程序 3.3深入使用Spark Shell 3.4远程调试Spark程序 3.5 Spark编译 3.6配置Spark源码阅读环境 3.6.1 Maven 3.6.2 3.7 Spark 编程实战Java\Scala\Python语言的案例 3.7.1 Spark WordCount 3.7.2 Spark 排序 3.7.3. 使用Spark读取HDFS\File 数据 快速掌握Scala 4.1 Scala变量声明、操作符、函数的使用实战 4.2 apply方法 4.3 Scal的控制结构和函数 4.4 Scala数组的操作、Map的操作 4.5 Scala中的类 4.6 Scala中对象的使用; 4.7 Scala中的继承 4.8 Scala中的特质 4.9 Scala中集合操作 |
二天 |
Spark On Yarn Spark on Yarn & Spark as a service Spark on Yarn原理 Spark on Yarn实践 JobServer架构 JobServer API介绍 JobServer配置与部署
SparkContext解析和数据加载以及存储 6.1 源码剖析SparkContext 6.2 Scala、Java、Python使用SparkContext 6.4 加载数据成为RDD 6.5 把数据物化 深入实战RDD 7.1 DAG 7.2 深入实战各种Scala RDD Function 7.3 Spark Java RDD Function 7.4 RDD的优化问题 Shark与Spark SQL Shark与Hive及Shark数据模型 安装和配置Shark及Shark数据类型 使用Shark处理数据 在Spark程序中使用Shark Queries SharkServer Spark SQL架构 Parquet支持 DSL SQL on RDD&UDF&JDBC Server DataFrame API Hive交互 外部数据源API 与Spark其他组件的交互 Catalyst查询优化器 Spark程序的测试 9.1 编写可测试的Spark程序 9.2 Spark测试框架解析 9.3 Spark测试代码实战 Spark Streaming Spark Streaming概述 Spark Streaming安装 和 Storm 性能对比分析 DStream Operations Persistence |