太原大数据云计算培训班-太原尚学堂培训学校最新课程

我们尚学堂云计算课程主要针对那些想要学云计算的学员，针对在职人员，只在周末或者放假期间上课，尚学堂从2014年10月开始开*个大数据班一直到现在，每个月开一个班。只讲大数据和机器学习。课程强度比较大，机器学习*括周末大概需要将近三周的时间，同时学习案例多达10余个

课程内容：

算（hadoop）知识模块体系
	一、Linux基础	1)Linux的介绍，Linux的安装：VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程 2)了解机架服务器，采用真实机架服务器部署linux 3)Linux的常用命令：常用命令的介绍、常用命令的使用和练习 4)Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用； 5)Linux启动流程，运行级别详解，chkconfig详解 6)VI、VIM编辑器：VI、VIM编辑器的介绍、VI、VIM扥使用和常用快捷键 7)Linux用户和组账户管理：用户的管理、组管理 8)Linux磁盘管理，lvm逻辑卷，nfs详解 9)Linux系统文件权限管理：文件权限介绍、文件权限的操作 10)Linux的RPM软件管理：RPM的介绍、RPM安装、卸载等操作 11)yum命令，yum源搭建 12)Linux网络：Linux网络的介绍、Linux网络的配置和维护 13)Shell编程：Shell的介绍、Shell脚本的编写 14)Linux上常见软件的安装：安装JDK、安装Tomcat、安装mysql,web项目部署
	二、大型网站高并发处理	1)第四层负载均衡: 2)第七层负载均衡 3)Tomcat、jvm优化提高并发量 4)缓存优化 5)Lvs+nginx+tomcat+redis\|memcache构建二层负载均衡千万并发处理 6)Fastdfs小文件独立存储管理
	三、初识hadoop	1)Hadoop生态环境介绍 2)国内外Hadoop应用案例介绍 3)Hadoop 概念、版本、历史 4)Hadoop 核心组成介绍及hdfs、mapreduce 体系结构 5)Hadoop 的集群结构 6)Hadoop 伪分布的详细安装步骤 7)通过命令行和浏览器观察hadoop
	四、 HDFS体系结构和shell以及java操作	1)HDFS底层*原理 2)HDFS datanode,namenode详解 3)Hdfs shell 4)Hdfs java api
	五、详细讲解Mapreduce	1)Mapreduce四个阶段介绍 2)Writable 3)InputSplit和OutputSplit 4)Maptask 5)Shuffle：Sort，Partitioner，Group,Combiner 6)Reducer
	六、Mapreduce案例案例	1)二次排序 2)倒排序索引 3)最优路径 4)电信数据挖掘之--移动轨迹预测分析（中国棱镜计划） 5)社交好友推荐算法 6)互联网精准广告推送算法 7)阿里巴巴天池大数据竞赛《天猫推荐算法》案例 8)Mapreduce实战pagerank算法
	七、Hadoop2.x集群搭建	1)Hadoop2.x集群结构体系介绍 2)Hadoop2.x集群搭建 3)NameNode的高可用性（HA） 4)HDFS Federation 5)ResourceManager 的高可用性（HA） 6)Hadoop集群常见问题和解决方法 7)Hadoop集群管理
	八、分布式数据库Hbase	1)HBase定义 2)HBase与RDBMS的对比 3)数据模型 4)系统架构 5)HBase上的MapReduce 6)表的设计 7)集群的搭建过程讲解 8)集群的监控 9)集群的管理 10)HBase Shell以及演示 11)Hbase 树形表设计 12)Hbase 一对多和多对多表设计 13)Hbase 微博案例 14)Hbase 订单案例 15)Hbase表级优化 16)Hbase 写数据优化 17)Hbase 读数据优化
	九、数据仓库Hive	1)数据仓库基础知识 2)Hive定义 3)Hive体系结构简介 4)Hive集群 5)客户端简介 6)HiveQL定义 7)HiveQL与SQL的比较 8)数据类型 9)外部表和分区表 10)ddl与CLI客户端演示 11)dml与CLI客户端演示 12)select与CLI客户端演示 13)Operators 和 functions与CLI客户端演示 14)Hive server2 与jdbc 15)用户自定义函数（UDF 和 UDAF）的开发与演示 16)Hive 优化
	十、elasticsearch分布式搜索	1)elasticsearch简介 2)elasticsearch和solr的对比 3)elasticsearch安装部署 4)elasticsearch service wrapper启动插件 5)使用curl操作elasticsearch索引库 6)elasticsearch DSL查询 7)elasticsearch批量查询meet 8)elasticsearch批量操作bulk 9)elasticsearch插件介绍 10)elasticsearch配置文件详解 11)java操作elasticsearch 12)elasticsearch的分页查询 13)elasticsearch中文分词工具的集成 14)elasticsearch优化 15)elasticsearch集群部署 16)elasticsearch+hbase大型搜索系统架构
	十一、CM+CDH集群管理	1)CM + CDH集群的安装 2)基于CM主机及各种服务组件的管理 3)CDH集群的配置和参数调优 4)CDH集群HA配置及集群升级 5)CM的监控管理 6)集群管理的注意事项 7)HUE实战详解
	十二、 Impala	1)Impala介绍和架构 2)Impala实战安装，架构，外部shell 3)Impala内部shell,存储分区，SQL 4)Impala SQL、hbase整合，JDBC、性能优化 5)Impala配置及其调优 6)Impala项目应用
	十三、Oozie	1)Oozie入门介绍 2)Oozie安装配置及其简单操作 3)hPDL语言学习及流程定义 4)oozie*流配置及元数据库定义 5)oozie定时任务调度和oozie API操作
	十四、数据迁移工具Sqoop	1)介绍和配置Sqoop 2)Sqoop shell使用 3)Sqoop-import 4)Sqoop-export
	十五、Flume分布式日志框架	1)flume简介-基础知识 2)flume安装与测试 3)flume部署方式 4)flume source相关配置及测试 5)flume sink相关配置及测试 6)flume selector 相关配置与案例分析 7)flume Sink Processors相关配置和案例分析 8)flume Interceptors相关配置和案例分析 9)flume AVRO Client开发 10)flume 和kafka 的整合
	十六、Zookeeper 开发	1)zookeeper架构 2)zookeeper实战环境 3)zookeeper内部算法详解 4)Zookeeper java api开发 6)Zookeeper实现SOA高可用架构框架 7)Netty 异步io通信框架 8)Zookeeper实现netty分布式架构的高可用 9)Zookeeper分布式锁实现
内存计算（spark）知识模块体系	一、 Redis缓存数据库	1).redis特点、与其他数据库的比较 2.如何安装redis 3.如何使用命令行客户端 4.redis的字符串类型 5.redis的散列类型 6.redis的列表类型 7.redis的集合类型 8.如何使用java访问redis【a.python访问redis,scala访问redis】 9.redis的事务(transaction) 10.redis的管道(pipeline) 11.redis持久化(AOF+RDB) 12.redis优化 13.redis的主从复制 14.redis的sentinel高可用 15.twemproxy,codis实战 16.redis3.x集群安装配置
	二、Kafka分布式队列系统	1)kafka是什么 2)kafka体系结构 3)kafka配置详解 4)kafka的安装 5)kafka的存储策略 6)kafka分区特点 7)kafka的发布与订阅 8)zookeeper协调管理 9)java编程操作kafka 10)scala编程操作kafka 11)flume 和kafka 的整合 12)Kafka 和storm 的整合
	三、Storm实时数据处理	1)Storm的基本概念 2)Storm的应用场景 3)Storm和Hadoop的对比 4)Storm集群的安装的linux环境准备 5)zookeeper集群搭建 6)Storm集群搭建 7)Storm配置文件配置项讲解 8)集群搭建常见问题解决 9)Storm常用组件和编程API：Topology、 Spout、Bolt 10)Storm分组策略(stream groupings) 11)使用Strom开发一个WordCount例子 12)Storm程序本地模式debug、Storm程序远程debug 13)Storm事物处理 14)Storm消息可靠性及容错原理 15)Storm结合消息队列Kafka：消息队列基本概念(Producer、Consumer、Topic、Broker等)、消息队列Kafka使用场景、Storm结合Kafka编程API 16)Storm Trident概念 17)Trident state 原理 18)Trident开发实例 19)Storm DRPC(分布式远程调用)介绍 20)Storm DRPC实战讲解 21)Storm和Hadoop 2.x的整合：Storm on Yarn 22)淘宝核心架构套件 23)Storm开发实战： flume+Kafka+Storm+Hbase+redis项目实战，以及多个案例
	四、Scala	1)scala解释器、变量、常用数据类型等 2)scala的条件表达式、输入输出、循环等控制结构 3)scala的函数、默认参数、变长参数等 4)scala的数组、变长数组、多维数组等 5)scala的映射、元组等操作 6)scala的类，括bean属性、辅助构造器、主构造器等 7)scala的对象、单例对象、伴生对象、扩展类、apply方法等 8)scala的、引入、继承等概念 9)scala的特质 10)scala的操作符 11)scala的高阶函数 12)scala的集合 13)scala数据库连接
	五、Spark2.0 core大数据编程	1)Spark2.0介绍 2)Spark应用场景 3)Spark和Hadoop MR、Storm的比较和优势 4)RDD 5)Transformation 6)Action 7)Spark计算PageRank 8)Lineage 9)Spark模型简介 10)Spark缓存策略和容错处理 11)宽依赖与窄依赖 12)Spark配置讲解 13)Spark集群搭建 14)集群搭建常见问题解决 15)Spark原理核心组件和常用RDD 16)数据本地性 17)任务调度 18)DAGScheduler 19)TaskScheduler 20)Spark源码解读 21)性能调优 22)Spark和Hadoop2.x整合：Spark on Yarn原理 23) Spark Core核心编程 24)RDD内核架构概览 25)RDD的不同数据来源的创建方式详解 26)RDD的操作算子综述与本质分析（转换算子、行动算子） 27)常用操作算子的案例实战 28)RDD持久化实战以及Checkpoint 29)RDD共享变量以及累加器的使用实战 30)RDD简单排序功能（优化之前WordCount程序）以及二次排序的实战 31)Spark实战Top N功能详解 32)Spark任务调度流程整体架构分析详解 33)Spark任务划分流程整体架构分析详解（宽依赖与窄依赖、DAGScheduler源码分析） 34)Spark执行任务相关原理以及源码分析（TaskScheduler、Executor、Task、Shuffle） 35)Spark实战之PageRank 36)性能优化与调优的分析
	六、 Spark SQL	1.Spark RDD应用SQL实战 2.RDD转化为DataFrame数据框的方式详解 3.Spark DataFrame数据框操作实战 4.加载和保存数据操作（load与save） 5.JSON数据源实战案例 6.JDBC数据源实战案例 7.Hive数据源实战案例 8.Parquets数据源实战加载数据、自动分区推断、合并元数据 9.内置函数的实战案例 10.开窗函数的实战案例 11.Spark SQL UDF自定义函数实战 12.Spark SQL UDAF自定义聚合函数实战 13.Spark SQL *原理详解以及Spark SQL 的源码分析 14.Hive on Spark
	七、Spark Streaming实时计算	1)Spark Streaming和Storm对比讲解 2)Spark Streaming本质原理分析 3)Wordcount程序的实时版本开发 4)Spark Streaming和Spark Core里面context的不同 5)输入DStream和Receiver的讲解 6)不同输入源（Kafka、HDFS）的DStream操作实战 7)基于DStream的window滑动窗口实战案例 8)基于DStream的updateStateByKey实战案例 9)基于DStream的transform实战案例 10)DStream的输出存储操作以及核心函数foreachRDD实战 11)Spark Streaming的持久化实战以及Checkpoint 12)与Spark SQL结合使用实战案例 13)架构原理分析与性能优化
人工智能知识模块体系	一、语言机器学习	1)R语言介绍，基本函数，数据类型 2)线性回归 3)朴素贝叶斯分类 4)决策树分类 5)k均值聚类 6)关联规则探索 7)神经网络
	二、Mahout机器学习	1)介绍为什么使用它,它的前景 2)配置安装（hadoop2.x版本的）编译安装步骤说明 3)推荐 4)分类 5)聚类
	三、Python	1)介绍Python以及特点 2)Python的安装 3)Python基本操作（注释、逻辑、字符串使用等） 4)Python数据结构（元组、列表、字典） 5)使用Python进行批量重命名小例子 6)Python常见内建函数 7)更多Python函数及使用常见技巧 8)异常 9)Python函数的参数讲解 10)Python模块的导入 11)Python中的类与继承 12)网络爬虫案例 13)数据库连接，以及pip安装模块 14)Mongodb基础入门 15)讲解如何连接mongodb 16)Python的机器学习案例
	四、park MLlib机器学习	1)介绍b 2)回归算法b 3)分类算法b 4)第四章推荐系统b 5)第五章聚类b
云计算知识模块体系	一、Docker	1)基本介绍 2)vm docker 对比 3)docker基本架构介绍 4)unfs cgroup namespace 5)进程虚拟化轻量级虚拟化 6)docker 安装 7)docker 镜像制作 8)docker 常用命令 9)docker 镜像迁移 10)docker pipework 11)docker weave
	二、虚拟化KVM	1)虚拟化介绍，虚拟化适用场景等等 2)Qemu Libvirt & KVM 3)安装KVM, Qemu, Libvirt 4)QEMU-KVM: 安装*个能上网的虚拟机 5)Kvm虚拟机 nat,网桥基本原理 6)kvm虚拟机克隆 7)kvm虚拟机vnc配置 8)kvm虚拟机扩展磁盘空间 9)Kvm快照 10)Kvm 迁移 11)Java,python,c语言编程控制kvm 12)构建自己的虚拟云平台
	三、云平台OpenStack	1)openstack介绍和模块基本原理分析 2)openstack多节点安装部署 3)Keystone基本原理 4)glance 5)Cinder 6)Swift 7)Neutron 8)Openstack api 二次开发

太原大数据云计算培训班

课程详情

推荐课程

太原尚学堂培训学校