我们尚学堂云计算课程主要针对那些想要学云计算的学员,针对在职人员,只在周末或者放假期间上课,尚学堂从2014年10月开始开*个大数据班一直到现在,每个月开一个班。只讲大数据和机器学习。课程强度比较大,机器学习*括周末大概需要将近三周的时间,同时学习案例多达10余个
算(hadoop)知识模块体系 | ||
一、Linux基础 |
1)Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程 2)了解机架服务器,采用真实机架服务器部署linux 3)Linux的常用命令:常用命令的介绍、常用命令的使用和练习 4)Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用; 5)Linux启动流程,运行级别详解,chkconfig详解 6)VI、VIM编辑器:VI、VIM编辑器的介绍、VI、VIM扥使用和常用快捷键 7)Linux用户和组账户管理:用户的管理、组管理 8)Linux磁盘管理,lvm逻辑卷,nfs详解 9)Linux系统文件权限管理:文件权限介绍、文件权限的操作 10)Linux的RPM软件*管理:RPM*的介绍、RPM安装、卸载等操作 11)yum命令,yum源搭建 12)Linux网络:Linux网络的介绍、Linux网络的配置和维护 13)Shell编程:Shell的介绍、Shell脚本的编写 14)Linux上常见软件的安装:安装JDK、安装Tomcat、安装mysql,web项目部署 |
|
二、大型网站高并发处理 |
1)第四层负载均衡: 2)第七层负载均衡 3)Tomcat、jvm优化提高并发量 4)缓存优化 5)Lvs+nginx+tomcat+redis|memcache构建二层负载均衡千万并发处理 6)Fastdfs小文件独立存储管理 |
|
三、初识hadoop | 1)Hadoop生态环境介绍 2)国内外Hadoop应用案例介绍 3)Hadoop 概念、版本、历史 4)Hadoop 核心组成介绍及hdfs、mapreduce 体系结构 5)Hadoop 的集群结构 6)Hadoop 伪分布的详细安装步骤 7)通过命令行和浏览器观察hadoop | |
四、 HDFS体系结构和shell以及java操作 | 1)HDFS底层*原理 2)HDFS datanode,namenode详解 3)Hdfs shell 4)Hdfs java api | |
五、详细讲解Mapreduce | 1)Mapreduce四个阶段介绍 2)Writable 3)InputSplit和OutputSplit 4)Maptask 5)Shuffle:Sort,Partitioner,Group,Combiner 6)Reducer | |
六、Mapreduce案例案例 | 1)二次排序 2)倒排序索引 3)最优路径 4)电信数据挖掘之--移动轨迹预测分析(中国棱镜计划) 5)社交好友推荐算法 6)互联网精准广告推送 算法 7)阿里巴巴天池大数据竞赛 《天猫推荐算法》案例 8)Mapreduce实战pagerank算法 | |
七、Hadoop2.x集群搭建 | 1)Hadoop2.x集群结构体系介绍 2)Hadoop2.x集群搭建 3)NameNode的高可用性(HA) 4)HDFS Federation 5)ResourceManager 的高可用性(HA) 6)Hadoop集群常见问题和解决方法 7)Hadoop集群管理 | |
八、分布式数据库Hbase | 1)HBase定义 2)HBase与RDBMS的对比 3)数据模型 4)系统架构 5)HBase上的MapReduce 6)表的设计 7)集群的搭建过程讲解 8)集群的监控 9)集群的管理 10)HBase Shell以及演示 11)Hbase 树形表设计 12)Hbase 一对多 和 多对多 表设计 13)Hbase 微博 案例 14)Hbase 订单案例 15)Hbase表级优化 16)Hbase 写数据优化 17)Hbase 读数据优化 | |
九、数据仓库Hive | 1)数据仓库基础知识 2)Hive定义 3)Hive体系结构简介 4)Hive集群 5)客户端简介 6)HiveQL定义 7)HiveQL与SQL的比较 8)数据类型 9)外部表和分区表 10)ddl与CLI客户端演示 11)dml与CLI客户端演示 12)select与CLI客户端演示 13)Operators 和 functions与CLI客户端演示 14)Hive server2 与jdbc 15)用户自定义函数(UDF 和 UDAF)的开发与演示 16)Hive 优化 | |
十、elasticsearch分布式搜索 | 1)elasticsearch简介 2)elasticsearch和solr的对比 3)elasticsearch安装部署 4)elasticsearch service wrapper启动插件 5)使用curl操作elasticsearch索引库 6)elasticsearch DSL查询 7)elasticsearch批量查询meet 8)elasticsearch批量操作bulk 9)elasticsearch插件介绍 10)elasticsearch配置文件详解 11)java操作elasticsearch 12)elasticsearch的分页查询 13)elasticsearch中文分词工具的集成 14)elasticsearch优化 15)elasticsearch集群部署 16)elasticsearch+hbase大型搜索系统架构 | |
十一、CM+CDH集群管理 | 1)CM + CDH集群的安装 2)基于CM主机及各种服务组件的管理 3)CDH集群的配置和参数调优 4)CDH集群HA配置及集群升级 5)CM的监控管理 6)集群管理的注意事项 7)HUE实战详解 | |
十二、 Impala | 1)Impala介绍和架构 2)Impala实战安装,架构,外部shell 3)Impala内部shell,存储分区,SQL 4)Impala SQL、hbase整合,JDBC、性能优化 5)Impala配置及其调优 6)Impala项目应用 | |
十三、Oozie | 1)Oozie入门介绍 2)Oozie安装配置及其简单操作 3)hPDL语言学习及流程定义 4)oozie*流配置及元数据库定义 5)oozie定时任务调度和oozie API操作 | |
十四、数据迁移工具Sqoop | 1)介绍 和 配置Sqoop 2)Sqoop shell使用 3)Sqoop-import 4)Sqoop-export | |
十五、Flume分布式日志框架 | 1)flume简介-基础知识 2)flume安装与测试 3)flume部署方式 4)flume source相关配置及测试 5)flume sink相关配置及测试 6)flume selector 相关配置与案例分析 7)flume Sink Processors相关配置和案例分析 8)flume Interceptors相关配置和案例分析 9)flume AVRO Client开发 10)flume 和kafka 的整合 | |
十六、Zookeeper 开发 | 1)zookeeper架构 2)zookeeper实战环境 3)zookeeper内部算法详解 4)Zookeeper java api开发 6)Zookeeper实现SOA高可用架构框架 7)Netty 异步io通信框架 8)Zookeeper实现netty分布式架构的高可用 9)Zookeeper分布式锁实现 | |
内存计算(spark)知识模块体系 | 一、 Redis缓存数据库 |
1).redis特点、与其他数据库的比较 2.如何安装redis 3.如何使用命令行客户端 4.redis的字符串类型 5.redis的散列类型 6.redis的列表类型 7.redis的集合类型 8.如何使用java访问redis【a.python访问redis,scala访问redis】 9.redis的事务(transaction) 10.redis的管道(pipeline) 11.redis持久化(AOF+RDB) 12.redis优化 13.redis的主从复制 14.redis的sentinel高可用 15.twemproxy,codis实战 16.redis3.x集群安装配置 |
二、Kafka分布式队列系统 | 1)kafka是什么 2)kafka体系结构 3)kafka配置详解 4)kafka的安装 5)kafka的存储策略 6)kafka分区特点 7)kafka的发布与订阅 8)zookeeper协调管理 9)java编程操作kafka 10)scala编程操作kafka 11)flume 和kafka 的整合 12)Kafka 和storm 的整合 | |
三、Storm实时数据处理 |
1)Storm的基本概念 2)Storm的应用场景 3)Storm和Hadoop的对比 4)Storm集群的安装的linux环境准备 5)zookeeper集群搭建 6)Storm集群搭建 7)Storm配置文件配置项讲解 8)集群搭建常见问题解决 9)Storm常用组件和编程API:Topology、 Spout、Bolt 10)Storm分组策略(stream groupings) 11)使用Strom开发一个WordCount例子 12)Storm程序本地模式debug、Storm程序远程debug 13)Storm事物处理 14)Storm消息可靠性及容错原理 15)Storm结合消息队列Kafka:消息队列基本概念(Producer、Consumer、Topic、Broker等)、消息队列Kafka使用场景、Storm结合Kafka编程API 16)Storm Trident概念 17)Trident state 原理 18)Trident开发实例 19)Storm DRPC(分布式远程调用)介绍 20)Storm DRPC实战讲解 21)Storm和Hadoop 2.x的整合:Storm on Yarn 22)淘宝核心架构套件 23)Storm开发实战: flume+Kafka+Storm+Hbase+redis项目实战,以及多个案例 |
|
四、Scala | 1)scala解释器、变量、常用数据类型等 2)scala的条件表达式、输入输出、循环等控制结构 3)scala的函数、默认参数、变长参数等 4)scala的数组、变长数组、多维数组等 5)scala的映射、元组等操作 6)scala的类,*括bean属性、辅助构造器、主构造器等 7)scala的对象、单例对象、伴生对象、扩展类、apply方法等 8)scala的*、引入、继承等概念 9)scala的特质 10)scala的操作符 11)scala的高阶函数 12)scala的集合 13)scala数据库连接 | |
五、Spark2.0 core大数据编程 |
1)Spark2.0介绍 2)Spark应用场景 3)Spark和Hadoop MR、Storm的比较和优势 4)RDD 5)Transformation 6)Action 7)Spark计算PageRank 8)Lineage 9)Spark模型简介 10)Spark缓存策略和容错处理 11)宽依赖与窄依赖 12)Spark配置讲解 13)Spark集群搭建 14)集群搭建常见问题解决 15)Spark原理核心组件和常用RDD 16)数据本地性 17)任务调度 18)DAGScheduler 19)TaskScheduler 20)Spark源码解读 21)性能调优 22)Spark和Hadoop2.x整合:Spark on Yarn原理 23) Spark Core核心编程 24)RDD内核架构概览 25)RDD的不同数据来源的创建方式详解 26)RDD的操作算子综述与本质分析(转换算子、行动算子) 27)常用操作算子的案例实战 28)RDD持久化实战以及Checkpoint 29)RDD共享变量以及累加器的使用实战 30)RDD简单排序功能(优化之前WordCount程序)以及二次排序的实战 31)Spark实战Top N功能详解 32)Spark任务调度流程整体架构分析详解 33)Spark任务划分流程整体架构分析详解(宽依赖与窄依赖、DAGScheduler源码分析) 34)Spark执行任务相关原理以及源码分析(TaskScheduler、Executor、Task、Shuffle) 35)Spark实战之PageRank 36)性能优化与调优的分析 |
|
六、 Spark SQL | 1.Spark RDD应用SQL实战 2.RDD转化为DataFrame数据框的方式详解 3.Spark DataFrame数据框操作实战 4.加载和保存数据操作(load与save) 5.JSON数据源实战案例 6.JDBC数据源实战案例 7.Hive数据源实战案例 8.Parquets数据源实战加载数据、自动分区推断、合并元数据 9.内置函数的实战案例 10.开窗函数的实战案例 11.Spark SQL UDF自定义函数实战 12.Spark SQL UDAF自定义聚合函数实战 13.Spark SQL *原理详解以及Spark SQL 的源码分析 14.Hive on Spark | |
七、Spark Streaming实时计算 | 1)Spark Streaming和Storm对比讲解 2)Spark Streaming本质原理分析 3)Wordcount程序的实时版本开发 4)Spark Streaming和Spark Core里面context的不同 5)输入DStream和Receiver的讲解 6)不同输入源(Kafka、HDFS)的DStream操作实战 7)基于DStream的window滑动窗口实战案例 8)基于DStream的updateStateByKey实战案例 9)基于DStream的transform实战案例 10)DStream的输出存储操作以及核心函数foreachRDD实战 11)Spark Streaming的持久化实战以及Checkpoint 12)与Spark SQL结合使用实战案例 13)架构原理分析与性能优化 | |
人工智能知识模块体系 | 一、语言机器学习 | 1)R语言介绍,基本函数,数据类型 2)线性回归 3)朴素贝叶斯分类 4)决策树分类 5)k均值聚类 6)关联规则探索 7)神经网络 |
二、Mahout机器学习 | 1)介绍为什么使用它,它的前景 2)配置安装(hadoop2.x版本的)编译安装步骤说明 3)推荐 4)分类 5)聚类 | |
三、Python | 1)介绍Python以及特点 2)Python的安装 3)Python基本操作(注释、逻辑、字符串使用等) 4)Python数据结构(元组、列表、字典) 5)使用Python进行批量重命名小例子 6)Python常见内建函数 7)更多Python函数及使用常见技巧 8)异常 9)Python函数的参数讲解 10)Python模块的导入 11)Python中的类与继承 12)网络爬虫案例 13)数据库连接,以及pip安装模块 14)Mongodb基础入门 15)讲解如何连接mongodb 16)Python的机器学习案例 | |
四、park MLlib机器学习 | 1)介绍b 2)回归算法b 3)分类算法b 4)第四章 推荐系统b 5)第五章 聚类b | |
云计算知识模块体系 | 一、Docker | 1)基本介绍 2)vm docker 对比 3)docker基本架构介绍 4)unfs cgroup namespace 5)进程虚拟化 轻量级虚拟化 6)docker 安装 7)docker 镜像制作 8)docker 常用命令 9)docker 镜像迁移 10)docker pipework 11)docker weave |
二、虚拟化KVM |
1)虚拟化介绍,虚拟化适用场景等等 2)Qemu Libvirt & KVM 3)安装KVM, Qemu, Libvirt 4)QEMU-KVM: 安装*个能上网的虚拟机 5)Kvm虚拟机 nat,网桥基本原理 6)kvm虚拟机克隆 7)kvm虚拟机vnc配置 8)kvm虚拟机扩展磁盘空间 9)Kvm快照 10)Kvm 迁移 11)Java,python,c语言编程控制kvm 12)构建自己的虚拟云平台 |
|
三、云平台OpenStack | 1)openstack介绍和模块基本原理分析 2)openstack多节点安装部署 3)Keystone基本原理 4)glance 5)Cinder 6)Swift 7)Neutron 8)Openstack api 二次开发 |