大数据分析师进阶篇为Python数据分析师的高级学习阶段,通过本阶段的学习,学员已经成为一名优秀的大数据分析师。 大数据分析师进阶篇 Spark 介绍及环境搭建 大数据介绍、HADOOP/Hive/Spark框架Hadoop集群 搭 建( master+ slave0 1) 集群机器准备 配置ssh无密码访问集群jdk与hadoop安 装 包安装 SPARK核心 一个设子理解MapReduceRDD (弹性分布式数据集) RDD的特点RDD操作函数函数具体功能介绍哈姆雷特单词分析案例 Pyspark与Jupyter使用 matplotib介绍 使用环境API入门 刻度、标签、图列 添加图例等 本地运行