我们海文教育主要针对那些想要做数据工程师的学员,本课程由浅入深的介绍了Lucene4的发展历史,开发环境搭建,分析lucene4的中文分词原理,深入讲了lucenne4的系统架构,分析lucene4索引实现原理及性能优化,了解关于lucene4的搜索算法优化及利用java结合lucene4实现类百度文库的全文检索功能等相对高端实用的内容,市面上一般很难找到同类具有相同深度与广度的视频,集原理、基础、案例与实战与一身,不可多得的一部高端视频教程
阶段四、大数据、云计算-数据挖掘、分析&机器学习
课程十九、玩转大数据:深入浅出大数据挖掘技术(Apriori算法、Tanagra工具、决策树)
本课程名为深入浅出数据挖掘技术。所谓“深入”,指得是从数据挖掘的原理与经典算法入手。其一是要了解算法,知道什么场景应当应用什么样的方法;其二是学习算法的经典思想,可以将它应用到其他的实际项目之中;其三是理解算法,让数据挖掘的算法能够应用到您的项目开发之中去。所谓“浅出”,指得是将数据挖掘算法的应用落实到实际的应用中。课程会通过三个不同的方面来讲解算法的应用:一是微软公司的SQL Server与Excel等工具实现的数据挖掘;二是著名开源算法的数据挖掘,如Weka、KNIMA、Tanagra等开源工具;三是利用C#语言做演示来完成数据挖掘算法的实现。根据实际的引用场景,数据挖掘技术通常分为分类器、关联分析、聚类算法等三大类别。本课程主要介绍这三大算法的经典思想以及部分著名的实现形式,并结合一些商业分析工具、开源工具或编程等方式来讲解具体的应用方法;
课程二十、Lucene4.X实战类baidu搜索的大型文档海量搜索系统
本课程由浅入深的介绍了Lucene4的发展历史,开发环境搭建,分析lucene4的中文分词原理,深入讲了lucenne4的系统架构,分析lucene4索引实现原理及性能优化,了解关于lucene4的搜索算法优化及利用java结合lucene4实现类百度文库的全文检索功能等相对高端实用的内容,市面上一般很难找到同类具有相同深度与广度的视频,集原理、基础、案例与实战与一身,不可多得的一部高端视频教程;
课程二十一、快速上手数据挖掘之solr搜索引擎高级教程(Solr集群、KI分词、项目实战)
本教程从最基础的solr语法开始讲解,选择了最新最流行的开源搜索引擎服务框架solr5.3.1,利用Tomcat8搭建了solr的集群服务;本教程可以帮助学员快速上手solr的开发和二次开发,*括在hadoop集群的使用,海量数据的索引和实时检索,通过了解、学习、安装、配置、集成等步骤引导学员如何将solr集成到项目中;
课程二十二、项目实战:SPSS Modeler数据挖掘项目实战培训
SPSS Modeler是业界极为著名的数据挖掘软件,其前身为SPSS Clementine。SPSS Modeler内置丰富的数据挖掘模型,以其强大的挖掘功能和友好的操作习惯,深受用户的喜爱和好评,成为众多知名企业在数据挖掘项目上的软件产品选择。本课程以SPSS Modeler为应用软件,以数据挖掘项目生命周期为线索,以实际数据挖掘项目为例,讲解了从项目商业理解开始,到最后软件实现的全过程。
课程二十三、数据层交换和高性能并发处理(开源ETL大数据治理工具)
ETL是数据的抽取、清洗、转换、加载的过程,是数据进入数据仓库进行大数据分析的载入过程,目前流行的数据进入仓库的过程有两种形式,一种是进入数据库后再进行清洗和转换,另外一条路线是首先进行清洗转换再进入数据库,我们的ETL属于后者。大数据的利器大家可能普遍说是hadoop,但是大家要知道如果我们不做预先的清洗和转换处理,我们进入hadoop后仅通过mapreduce进行数据清洗转换再进行分析,垃圾数据会导致我们的磁盘占用量会相当大,这样无形中提升了我们的硬件成本(硬盘大,内存小处理速度会很慢,内存大但CPU性能低速度也会受影响),因此虽然hadoop理论上解决了一堆普通服务器拼起来解决大问题的问题,但是事实上如果我们有更好的节点速度必然是会普遍提升的,因此ETL在大数据环境下仍然是必不可少的数据交换工具;
课程二十四、零基础数据分析与挖掘R语言实战
本课程面向从未接触过数据分析的学员,从最基础的R语法开始讲起,逐步进入到目前各行业流行的各种分析模型。整个课程分为基础和实战两个单元:基础部分*括R语法和统计思维两个主题、R语法单元会介绍R语言中的各种特色数据结构,以及如何从外部抓取数据,如何使用*和函数,帮助学员快速通过语法关。统计思维单元会指导如何用统计学的思想快速的发现数据特点或者模式,并利用R强大的绘图能力做可视化展现。在实战部分选择了回归、聚类、数据降维、关联规则、决策树这5中最基础的数据分析模型,详细介绍其思想原理,并通过案例讲解R中的实现方案,尤其是详细的介绍了对各种参数和输出结果的解读,让学员真正达到融会贯通、举一反三的效果。并应用到自己的*环境中;
课程二十五、深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)
Mahout是Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。课程*括:Mahout数据挖掘工具,及Hadoop实现推荐系统的综合实战,涉及到MapReduce、Pig和Mahout的综合实战;
课程二十六、大数据项目实战之Python金融应用编程(数据分析、定价与量化投资)
近年来,金融领域的量化分析越来越受到理论界与实务界的重视,量化分析的技术也取得了较大的进展,成为备受关注的一个热点领域。所谓金融量化,就是将金融分析理论与计算机编程技术相结合,更为有效的利用现代计算技术实现准确的金融资产定价以及交易机会的发现。量化分析目前已经涉及到金融领域的方方面面,*括基础和衍生品金融资产定价、风险管理、量化投资等。随着大数据技术的发展,量化分析还逐步与大数据结合在一起,对海量金融数据实现有效和快速的运算与处理。在量化金融的时代,选用一种合适的编程语言对于金融模型的实现是至关重要的。在这方面,Python语言体现出了不一般的优势,特别是它拥有大量的金融计算库,并且可以提供与C++,java等语言的接口以实现高效率的分析,成为金融领域快速开发和应用的一种关键语言,由于它是开源的,降低了金融计算的成本,而且还通过广泛的社交网络提供大量的应用实例,极大的缩短了金融量化分析的学习路径。本课程在量化分析与Python语言快速发展的背景下介绍二者之间的关联,使学员能够快速掌握如何利用Python语言进行金融数据量化分析的基本方法。
课程二十七、项目实战:云计算处理、大数据深度学习、智能挖掘技术+地震数据挖掘分析
本课程介绍了基于云计算的大数据处理技术,重点介绍了一款高效的、实时分析处理海量数据的强有力工具——数据立方。数据立方是针对大数据处理的分布式数据库,能够可靠地对大数据进行实时处理,具有即时响应多用户并发请求的能力,通过对当前主流的大数据处理系统进行深入剖析,阐述了数据立方产生的背景,介绍了数据立方的整体架构以及安装和详细开发流程,并给出了4个完整的数据立方综合应用实例。所有实例都经过验证并附有详细的步骤说明,无论是对于云计算的初学者还是想进一步深入学习大数据处理技术的研发人员、研究人员都有很好的参考价值。