本公开课课程让学员充分掌握主流的CDH大数据处理平台(Hadoop、Spark和Storm平台)的技术架构、以及平台的安装部署、运维配置、应用开发实战技能,熟悉国内外主流的大数据处理解决方案、以及大数据应用案例。
大数据项目的开发工程师和运维工程师
大数据分析平台架构师
大数据挖掘处理算法应用工程师
大数据项目的规划咨询管理人员、大数据项目的售前和售后技术支持服务人员
有一定的计算机系统基础知识(如Linux操作系统知识)
1.让学员深刻理解在“互联网+”时代下大数据的产生背景、发展历程和演化趋势,洞察大数据的潜在价值,结合业界市场需求和国内外最新的大数据技术潮流,掌握大数据项目解决方案以及业界大数据应用案例,从而为企业在大数据项目中的技术选型及技术架构设计提供决策参考,帮助学员为企业在利用大数据方面体现出自身价值。
2.全面掌握业界最流行高性能大数据处理系统Hadoop与Spark大数据技术体系,*括大数据高性能处理平台架构设计与项目选型规划、大数据分布式存储管理技术、NoSQL与NewSQL分布式数据库技术、大数据仓库与统计机器学习技术、大数据分析挖掘与商业智能(BI)技术、大数据实时处理技术、大数据离线处理技术、流式数据处理技术、大数据采集技术和大数据管理技术的原理知识和应用实战技能。
3.深入理解业界最流行的Hadoop与Spark大数据技术体系和平台应用实战,能根据给定的应用场景娴熟地运用大数据技术体系规划解决方案满足实际项目需求,部署符合生产环境要求的Hadoop大数据平台集群,熟练地掌握基于Hadoop与Spark大数据平台进行应用程序开发、集群运维管理和性能调优技巧,并通过具体的实训项目贯穿整个课程,提高学员的动手实践技能。
培训模块 |
培训要点 |
一、CDH大数据处理平台架构基础 |
1. 业界最新的大数据技术发展态势与应用趋势 2. CDH大数据项目的技术选型与大数据处理系统架构设计 3. “互联网+”时代下的电子商务、制造业、零售批发业、电信运营商、互联网金融业、网上银行、电子政务、移动互联网、教育信息化等行业应用实践与应用案例剖析 |
二、业界主流的大数据技术产品与项目解决方案 |
4. 国内外主流的大数据解决方案介绍 5. 当前大数据解决方案与传统数据库方案的剖析比较 6. Apache大数据平台方案剖析 7. CDH大数据平台方案剖析 8. HDP大数据平台方案剖析 9. 开源的大数据生态系统平台剖析 |
三、Hadoop大数据平台核心技术剖析 |
10. CDH 大数据平台产品介绍 11. Hadoop的发展历程以及产业界的实际应用介绍 12. Hadoop大数据平台架构 13. 基于Hadoop平台的PB级大数据存储管理与分析处理的*原理与机制 14. Hadoop的核心组件剖析 |
四、大数据分布式存储系统原理及其应用实践 |
15. 分布式文件系统HDFS的简介 16. HDFS系统的主从式平台架构和*原理 17. HDFS核心组件技术讲解 18. 基于HDFS的大型存储系统应用开发实战 19. HDFS集群的安装、部署、配置与性能优化实践 20. HDFS与Linux NFS3交互技术以及本地化挂载部署应用实践 21. 分布式键值存储系统的平台架构、核心技术以及应用开发 22. PB及大数据存储系统的项目案例分析 |
五、大数据并行处理框架MapReduce与Yarn技术实践 |
23. MapReduce并行计算模型 24. MapReduce作业执行与调度技术 25. 第二代大数据处理框架Yarn的*原理及DAG并行执行机制 26. MapReduce应用开发环境的部署,以及大数据并行处理应用程序开发 27. MapReduce高级编程技巧与性能优化实践 28. MapReduce与Yarn大数据分析处理案例分析 |
六、Hadoop大数据处理高性能应用开发实践操作训练 |
29. 部署与配置HDFS,熟练操作HDFS SHELL,HDFS与NFS操作,以及HDFS API开发实践 30. 部署与配置MapReduce与Yarn及其开发实践 31. Hadoop的Linux二次开发环境部署与配置 |
七、 HBase分布式数据库管理系统 |
32. NoSQL数据库与NewSQL数据库技术介绍,及其在半结构化和非结构化大数据方面的应用实践 33. HBase分布式数据库简介、数据模型以及*原理 34. HBase分布式数据库集群的平台架构和关键技术剖析 35. HBase应用项目开发技巧,以及客户端开发实战 36. HBase表设计与数据操作以及数据库管理API调用 37. HBase集群的安装部署与配置优化 38. ZooKeeper分布式协调服务系统的*原理、平台架构、集群部署与配置应用实战 39. HBase集群的运维与监控管理 |
八、HBase应用实践操作训练 |
40. 部署与配置HBase集群以及HBase的性能优化 41. 部署与配置ZooKeeper分布式集群 42. 构建HBase开发环境 43. HBase数据库二次开发项目实践 |
九、大型数据仓库Hive集群平台 |
44. 基于Hadoop的大型分布式数据仓库基础知识,HIVE在行业中的数据仓库应用案例 45. Hive大数据仓库简介以及应用介绍 46. Hive数据仓库集群的平台体系结构、核心技术剖析 47. Hive Server的*原理、机制与应用 48. Hive数据仓库集群的安装部署与配置优化 49. Hive应用开发技巧 50. Hive SQL剖析与应用实践 51. Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧 52. Hive数据仓库报表设计 53. Hive JDBC与ODBC的*原理与实现机制 54. Hive HWI、CLI客户端操作以及UDF应用实践
|
十、 Hive应用实践操作训练 |
55. 部署与配置HIVE集群,以及HIVE性能调优 56. 构建HIVE开发环境 57. HIVE数据仓库操作项目实践 |
十一、Spark大数据实时处理平台剖析 |
58. Spark的发展历程以及业界的实际应用介绍 59. Spark实时大数据处理平台架构 60. Spark RDD内存弹性分布式数据集的*原理与机制 61. Spark的核心组件剖析 62. 基于Spark的实时数据仓库与实时分析挖掘处理在行业中的应用实践案例 |
十二、 Spark应用实践操作训练 |
63. 部署与配置Spark集群,以及Spark性能调优 64. 构建Spark开发环境 65. Spark程序运行以及操作 |
十三、基于Spark的实时数据仓库和实时数据分析挖掘处理平台的实现机制, Spark SQL,Spark Streaming,MLib,GraphX,SparkR的应用实践 |
66. 内存计算模型和实时处理技术介绍 67. Spark中各个分布式组件的处理框架及*原理 68. Spark SQL实时数据仓库的实现原理机制及应用实践 69. Spark Streaming流式数据实时处理机制及应用实践 70. Spark MLib实时机器学习算法应用实践与案例应用 71. Spark GraphX实时图数据处理应用实践与社交网络分析应用案例 72. SparkR的实现原理与应用实践 73. Spark组件的应用编程开发实战 74. Spark与Hadoop的集成解决方案实践 |
十四、Spark核心组件功能运用的实践操作训练 |
75. Spark SQL应用操作实训 76. Spark Streaming应用操作实训 77. Spark MLib应用操作实训 78. Spark GraphX应用操作实训 79. SparkR应用操作实训 80. Spark与HBase集成数据分析实验实训 |
十五、Storm流式数据处理平台架构及其应用实践 |
81. Storm流式处理系统的平台架构和*原理 82. Storm关键技术剖析 83. Storm集群安装部署与配置优化 84. Storm日志流数据分析项目应用实战 85. Storm和Hadoop,Spark的应用集成项目实践 |
十六、大数据智能化ETL操作工具以及Hadoop集群运维监控工具平台应用 |
86. Hadoop与DBMS之间数据交互工具Sqoop导入导出数据的*原理,以及Sqoop集群安装部署与配置 87. Kettle集群的平台架构、核心技术*原理以及应用案例 88. Kettle大数据ETL工具的部署与配置,以及应用实战 89. 利用Sqoop实现MySQL与Hadoop集群之间的数据导入导出交互程序 90. Hadoop大数据运维监控管理系统HUE平台的安装部署与应用配置 91. Hadoop运维管理监控系统Ambari平台的安装部署与应用配置 92. Hadoop集群运维系统Ganglia, Nagios的安装部署与应用配置 |
十七、大数据平台项目应用完整实践与咨询讨论 |
93. 根据讲师布置的实际应用案例,开展大数据完整项目部署设计和应用开发实践、大数据项目的需求分析、应用实施以及解决方案分享咨询与交流讨论 |