大数据是各国抢占新一轮经济和科技发展制高点的战略选择,高端技术人才遭到企业疯抢,学习大数据+人工智能,*口径宽广,"钱途"无量!
1.1开班典礼
1.1.1班主任讲话1.1.2负责人讲话1.1.3讲师讲话1.1.4摸底考试...
1.3-流程控制
1.3.1分支流程控制-if 1.3.2分支流程控制-switch 1.3.3循环流程控制-while...
1.5-数组
1.5.1数组的定义与元素访问1.5.2数组的内存分析1.5.3数组的常见操作...
1.7-面向对象进阶
1.7.1*(package)的创建与使用1.7.2构造方法1.7.3代码块...
1.9-多态
1.9.1对象的转型1.9.2 instanceof关键字1.9.3抽象类与抽象方法...
1.11-*装类型与常用类
1.11.1*装类型1.11.2常用类1.11.3枚举...
1.13–字符串
1.13.1 String类常用方法1.13.2 StringBuffer/StringBuffer的常用方法1.13.3正则表达式...
1.15–多线程基础
1.15.1多线程概念1.15.2并发与并行1.15.3创建线程的方式...
1.17–IO流
1.17.1流的基础1.17.2流的分类1.17.3字节流...
1.19-反射
1.19.1 Class类1.19.2 Class获取对象的三种方式1.19.3 Constructor构造方法...
1.21-MySql
1.21.1 SQL简介1.21.2 SQL表的概念1.21.3数据库的安装卸载...
1.23*阶段考试
1.25 linux中软件安装
1.25.1软件安装介绍1.25.2二进制安装1.25.3 rpm安装...
1.27 awk
1.27.1 awk简介1.27.2使用方法1.27.3入门实例...
1.2-基础语法
1.2.1计算机理论介绍1.2.2编程基础--进制分类,进制转换等1.2.3什么是Java 1.2.4常用DOS命令...
1.4-方法
1.4.1方法的定义与调用1.4.2方法的参数与返回值1.4.3方法的重载...
1.6-面向对象入门
1.6.1面向对象与面向过程1.6.2类的设计1.6.3对象的实例化...
1.8-继承
1.8.1继承基本的概念1.8.2继承中的特点1.8.3继承中的构造方法...
1.10-设计模式
1.10.1单例设计模式1.10.2工厂设计模式1.10.3 Lambda表达式...
1.12–异常
1.12.1异常定义1.12.2常用结构.1.12.3 finally关键的应用...
1.14-集合框架
1.14.1集合框架Collection 1.14.2集合中元素排序1.14.3 Collections工具类...
1.16-线程高级
1.16.1线程生命周期1.16.2临界资源问题1.16.3同步代码段synchronized关键字...
1.18-Socket网络编程
1.18.1 TCP 1.18.2 Socket 1.18.3 ServerSocket...
1.20–其他
1.20.1代理模式1.20.2注解1.20.3 Junit...
1.22-JDBC
1.22.1 JDBC概述1.22.2 JDBC原理1.22.3 JDBC的实现...
1.24 linux的基础
1.24.1 linux的主要特性1.24.2常用的linux版本1.24.3 Vmvare的安装...
1.26 shell脚本
1.26.1 Shell介绍1.26.2 Shell运行环境和运行方式1.26.3变量
第二阶段:分布式理论简介
2.1 CAP理论
2.1.1 Consistency一致性2.1.2 Availability可用性2.1.3 Partition tolerance分区容忍性2.2.4数据量分布
2.3一致性、2PC和3PC
2.3.1一致性2.3.2 2PC流程2.3.3 3PC流程2.3.4一致性算法
2.2数据分布方式
2.2.1哈希方式2.2.2一致性哈希2.2.3范围分布2.2.4数据量分布
2.4大数据集成架构概述
2.4.1大数据架构简介
第三阶段:离线场景下的数据存储与计算
3.1协调服务ZK(1T)
3.1.1 zk的概念3.1.2 zk架构3.1.3 zk读写...
3.3数据存储alluxio(1T)
3.3.1 alluxio应用场景及架构组成3.3.2 alluxio存储管理3.3.3 alluxio with spark...
3.5数据采集logstash
3.5.1 Logstash介绍3.5.2 Input组件介绍3.5.3 Filter组件介绍...
3.7数据同步datax(0.5T)
3.7.1 datax简介3.7.2 datax核心架构3.7.3 datax插件介绍...
3.9计算模型MR与DAG(1T)
3.9.1 MR计算模型及流程3.9.2 DAG计算模型流程3.9.3 MR过程及调优...
3.11 Impala(1T)
3.11.1 impala简介3.11.2 impala架构3.11.3 impala*原理...
3.13任务调度airflow
3.13.1 airflow简介3.13.2执行器3.13.3架构...
3.2数据存储hdfs(2T)
3.2.1 hdfs应用场景与架构组成3.2.2 hdfs HA环境搭建3.2.3 hdfs元数据瓶颈及解决...
3.4数据采集flume(1T)
3.4.1 flume简介-基础知识3.4.2 flume安装与测试3.4.3 flume部署方式...
3.6数据同步Sqoop(0.5T)
3.6.1 Sqoop简介以及使用3.6.2 Sqoop shell使用3.6.3 Sqoop-import...
3.8数据同步mysql-binlog(1T)
3.8.1 mysql-binlog简介3.8.2启停binlog 3.8.3常用binlog日志操作命令...
3.10 hive(5T)
3.10.1 Hive是什么3.10.2 Hive的特点3.10.3 Hive架构简述...
3.12任务调度Azkaban(1T)
3.12.1 Azkaban简介3.12.2 Azkaban和oozie的对比3.12.3 Azkaban server安装配置
第四阶段:数仓建设(13T)
4.1数仓仓库(1T)
4.1.1数仓的历史4.1.2数仓的背景4.1.3数仓的定义...
4.3多维数据模型处理kylin(3.5T)
4.3.1 kylin的概览4.3.2安装部署4.3.3集群模式部署...
4.2离线数仓项目-伴我汽车(5T)
4.2.1项目业务描述4.2.2项目技术4.2.3项目架构...
4.4离线数仓项目-伴我汽车升级
4.4.1加入kylin进行多维分析3.7.2 datax核心架构3.7.3 datax插件介绍
第五阶段:分布式计算引擎(22T)
5.1分布式计算引擎概述
5.1.1计算引擎介绍5.1.2计算引擎分类...
5.3 spark
5.3.1大数据架构体系5.3.2架构详解5.3.3 Spark集群介绍...
5.5数据存储redis
5.5.1什么是NoSQL 5.5.2 NoSQL数据库的分类5.5.2 NoSQL数据库的分类...
5.7离线项目-某p2p平台
5.7.1项目描述5.7.2项目技术5.7.3 spark多数据源读写
第六阶段:实时场景下的数据存储与计算(22T)
6.1数据通道(4T)
6.1.1 Kafka的基本概念6.1.2 Kafka的发展历史6.1.3 Kafka的应用背景...
6.3流式数据处理flink(6T)
6.3.1 flink应用场景及架构组成6.3.2 flink流式处理6.3.3 flink sql...
6.5流式处理项目-某交通大数据平台(5T)
6.5.1实时场景处理业务数据6.5.2可以进行数据明细的全文查询6.5.3实时累计业务统计...
6.2实时数仓druid(5T)
6.2.1 druid应用场景及架构组成6.2.2 druid内部流程6.2.3 druid数据摄取...
6.4 SparkStreaming(2T)
6.4.1 Spark Streaming概述6.4.2 Spark Streaming的原理介绍6.4.3 Spark Streaming与Storm对比...
6.6第三阶段考试
第七阶段:数据搜索(2T)
7.1 elasticsearch
7.1.1全文检索技术简介7.1.2 ES安装配置入门7.1.3 ES插件安装7.1.4 ES基本操作
7.1 elasticsearch
7.1.9 CURL操作REST命令7.1.10 Windows安装CURL 7.1.11创建索引7.1.12 RestApi:练习
7.1 elasticsearch
7.1.17更新文档数据7.1.18删除文档数据7.1.19条件查询QueryBuilder 7.1.20 queryStringQuery搜索内容查询
7.1 elasticsearch
7.1.25 regexpQuery正则表达式查询7.1.26 matchAllQuery查询所有数据7.1.27 K分词器集成ES 7.1.28 ES常用编程操作
7.1 elasticsearch
7.1.33查询文档分页操作7.1.34得分(加权)7.1.35在Query的查询中定义加权7.1.36在Field字段的映射中定义加权
7.1 elasticsearch
7.1.5 Index的概念7.1.6 Document的概念7.1.7 Type的概念7.1.8 map映射的概念
7.1 elasticsearch
7.1.13使用Java操作客户端7.1.14新建文档(自动创建索引和映射)7.1.15搜索文档数据(单个索引)7.1.16搜索文档数据(多个索引)
7.1 elasticsearch
7.1.21 wildcardQuery通配符查询7.1.22 termQuery词条查询7.1.23 boolQuery布尔查询7.1.24 fuzzyQuery模糊查询
7.1 elasticsearch
7.1.29索引相关操作7.1.30映射相关操作7.1.31文档相关操作7.1.32 IK分词器自定义词库
7.1 elasticsearch
7.1.37过滤器7.1.38范围过滤器7.1.39布尔过滤器
第八阶段:数据治理(2T)
8.1概念及构成
8.1.1数据标准8.1.2数据分类8.1.3数据建模...
8.3元数据、血缘及数据质量
8.3.1元数据及血缘构建8.3.2基于Hive Hook的元数据及血缘构建8.3.3 Apache Atlas开源元数据及血缘管理框架介绍...
8.5 Spark Listener
...
8.7数据治理项目-数据地图(5T)
8.7.1项目描述8.7.2项目选型8.7.3项目实现...
8.2 neo4j
8.2.1图存储与查询介绍8.2.2环境搭建8.2.3 cypher语言学习...
8.4 Hive Hook
...
8.6 JanusGraph
第九阶段:BI系统(2T)
9.1 Superset(BT)
9.1.1 Superset简介9.1.2 Superset编译9.1.3 Superset安装9.1.4创建数据源9.1.5添加数据表9.1.6表操作9.1.7数据探索分析9.1.8数据可视化9.1.9可视化图表类型选择9.1.10数据时间范围9.1.11自定义
9.2 Graphna(RealTime)
9.2.1 grafana简介9.2.2 grafana安装部署9.2.3 grafana特征9.2.4数据源9.2.5快捷键9.2.6插件9.2.7 http的api
第十阶段:数据挖掘(10T)
10.1机器学习中的数学体系
10.1.1微分学与梯度下降10.1.2数学分析与概率论10.1.3数理统计与参数估计10.1.4线性代数与信息论10.1.5凸优化...
10.2 Spark MLlib机器学习算法库
10.2.1机器学习框架—假设函数、目标函数和最优函数10.2.2特征工程—数值型特征、类别型特征和有序特征10.2.3离散化处理10.2.4读热向量编码10.2.5 TF-IDF权重...
10.3 Python scikit-learn机器学习算法库
10.3.1回归与分类算法(理论上)10.3.2回归与分类算法(代码实战下)10.3.3支持向量机(理论上)10.3.4支持向量机(实战下)10.3.5决策树(Decision Tree)—>ID3、C4.5、Gini系数(理论上)...
10.4机器学习结合大数据项目
10.4.1《金融风控领域用户贷款信用评分预测》10.4.2《搜狗知识图谱》
5.2 scala语言(4T)
5.2.1变量的声明5.2.2数据类型和操作符5.2.3 if流程控制...
5.4数据存储hbase
5.4.1 Hbase来源5.4.2 Hbase的架构5.4.3 Hbase集群搭建...
5.6 Kudu
5.6.1 kudu简介5.6.2 kudu架构/原理5.6.3 kudu底层数据模型