北京机器学习模型与实战培训

导读 课程内容丰富包含9个算法,21个课堂实践或演示,5个案例分析,1次建模大比拼,授课风格多样算法精讲,模型适用场景阐述,成功案例分析,课堂讨论,理论与实践相结合学员编码实践,建模大比拼,期终考试测验。
400-888-9073 245
华为 安全 自动化运维 云计算与物联网 前沿课程 项目管理 编程语言 研发改进 软件测试 大数据与人工智能 架构设计 职业素养 管理技能

课程详情

2021-04-09

机器学习模型与实战培训

课程内容丰富包含9个算法,21个课堂实践或演示,5个案例分析,1次建模大比拼,授课风格多样算法精讲,模型适用场景阐述,成功案例分析,课堂讨论,理论与实践相结合学员编码实践,建模大比拼,期终考试测验。

机器学习模型与实战培训

一、 课程对象:

数据分析师,数据科学家

软件工程师,运维工程师,系统工程师

产品经理、管理人员,业务人员

二、 学员基础:

了解基本统计知识,具备初步的IT基础知识和基本数学理论,可使用python编程

三、课程大纲:

时间

内容

案例实践与练习

Day1

(9:00-12:00)

、人工智能概述 & 环境安装

1人工智能和机器学习概述

  • 人工智能发展史

  • 应用场景概述:如图像识别,文本分析,推荐系统,自然语言处理

  • 最近成果概述:如强化学习,生成式对抗网络,基于低能量的网络,时间序列分析

  • 开源 AI软件框架介绍,如sparkML,sklean,tensorflow,caffe,Theano


2 机器学习环境的安装

  • 机器学习环境的介绍和安装

  • 常用机器学习软件包的安装,例如Numpy,pandas,sklearn,scipy, matplotlib

  • 机器学习软件包的安装升级、卸载

  • 实践练习:使用matplotlib绘制数据分布图


二 、Python语言 & 数据处理与数据可视化

1  Python语言

  • Python的特点

  • Python的安装

  • 变量的声明

  • 常用的5种集合类型

  • 函数的定义和使用

  • 编写面向对象的python程序

  • python读写文件

环境的安装与实践


软件包的安装和管理


Day1

(14:00-17:00)

2 数据分析基础

  • NumPy和pandas的介绍与安装

  • Numpy和python集合对象的差别

  • 使用NumPy对数据表进行处理

  • Pandas的Series的使用

  • Panda的DataFrame的使用

  • 文件的读写

  • 从数据库导入/导出数据

  • 数据的筛选

  • 数据表的多表关联, 合并, 聚合操作


3  Matplotlib进行数据可视化

  • Matplotlib的安装

  • 柱形图、直方图、曲线图, 散点图的绘制

  • 小提琴图, 概率密度图, 茎叶图

  • 面向对象形式的绘图与饼图的绘制

  • Matplotlib绘制多个子图


三 、特征工程  & 数据降维

1 特征转换,让特征更有效

  • SVD分解

  • PCA降维的原理

  • PCA编程实践-Iris数据集的降维

  • 深度学习的降维方法

  • 线性判别分析(LDA)

  • LDA实践


2 特征选择,发现”坏“特征

  • 使用统计方法,筛选特征

  • 使用模型,筛选特征

  • 选择正确的特征选择方法

3 生成新特征

  • 填充分类特征

  • 编码分类变量

  • 扩充数值特征

  • 文本特征的处理技巧

4 数据清洗与特征工程

  • 数据的清洗

  • 数据离散化、聚合

  • 数据的转换

  • 提取新特征

  • 数据的格式转换

  • 特征工程的*实践

Numpy数据处理实践


Pandas读取文件


Pandas数据处理


Pandas绘图



使用matplotlib绘制数据分布图


清洗泰坦尼克沉船数据



Iris数据集的降维


 

Day2

(9:00-12:00)

四、监督学习模型-回归分析

1 线性回归模型

  • 通过图形直观展示线性回归算法

  • 线性回归算法详解—成本函数和参数更新函数

  • 机器是怎么学习? --梯度下降算法详述

  • 学的“快”和“好”--学习率的权衡与*实践

  • 保持相同的“起跑线”的利器-Feature Scaling

  • 多变量线性回归模型介绍

2 多项式回归模型

  • 真实世界不全是线性的--如何应对更复杂的场景

  • 过犹不及--模型的过分拟合和拟合不足

  • 训练一个“恰好”模型的*实践

  • 模型的优劣的评估

案例实践:血液中胆固醇预测

Day2

(14:00-17:00)

五、监督学习-分类模型

1 逻辑回归模型-两分类

  • 逻辑回归模型和场景概述

  • 线性分类器与非线性分类器

  • 激活函数的多种选择

  • cost  function的变化


2 逻辑回归-多分类

  • one-hot  encoding

  • 两种多分类的方案

  • one-vs-rest方案

  • softmax算法

建立模型,预测乘客在泰坦尼克船难中是否获救


重要因素分析:分析哪些因素会提高乘客的生存率


员工的离职预测


Day3

(9:00-12:00)

3 支持向量机

  • 为什么支持向量机广受好评

  • 从逻辑回归到支持向量机

  • **边缘平面

  • 构造更高级的分类器的关键:核函数

  • 核函数的多种选择

  • 使用支持向量机来分类


4 人工神经网络

  • 从逻辑回归到人工神经网络

  • 大脑和人工神经网络

  • 感知器模型

  • 感知器能解决亦或问题吗?

  • 多层感知器

  • 深度神经网络

  • 设计深度神经网络的*实践

  • 如何选择*的模型?逻辑回归,支持向量机,人工神经网络的选择

客户流失预警


Day3

(14:00-17:00)

5  K-近邻算法-无参数的模型

  • K近邻算法详述

  • K近邻的优点和缺点

  • 使用K近邻改进行手写数字的识别

6 朴素贝叶斯算法-基于概率的模型

  • 频率学派与贝叶斯学派

  • 贝叶斯定理

  • 条件独立假设

  • 几种平滑技术

  • 贝叶斯信念网络概述

使用贝叶斯模型对新闻分类

Day4

(9:00-12:00)

7 建模大比拼

  • 学员分组:每2人组成一组

  • 比拼内容:使用逻辑回归,SVM,神经网络算法,训练模型,并对模型调优,识别乳腺癌的良性和恶性

  • 评比标准:准确率**者获胜

  • 获奖:**前3名,获得精美奖品一份

建立逻辑回归,SVM,神经网络模型,识别乳腺癌的良性和恶性

Day4

(14:00-17:00)

六、集成模型--三个臭皮匠,胜过诸葛亮

1 集成学习和模型融合-改善模型准确率的法宝

  • 单一模型的缺点

  • 三个臭皮匠赛过一个诸葛亮

  • 集成模型概述

  • 几种典型的集成模型介绍

  • 集成模型应用案例

2 决策树算法

  • 决策树的引入

  • 信息增益和*划分

  • 如何防止决策树过拟合

  • 决策树的实践


Day5

(9:00-12:00)

3 随机森林和GBDT-竞赛的利器

  • 随机森林的生成

  • 随机森林的特点

  • 随机森林案例介绍

  • Xgboost

  • GBDT树


4 建模大比拼-集成多个模型

  • 学员分组:每2人组成一组

  • 比拼内容:集成多个模型,识别乳腺癌的良性和恶性

  • 评比标准:准确率**者获胜


七、非监督学习

1 聚类算法:K-means

  • 监督学习和无监督学习比较

  • 非监督模型场景举例

  • 图形展示K-means的训练过程

  • 两步实现K-means算法

  • K的选择问题

  • K-means算法导致局部**及*实践


八、选择合适的算法

模型的对比

  • 模型的对比和分析

  • 如何对模型进行客观评价

  • 根据选择合适的模型

  • 决策树的实践

模型的调优

  • 模型调优的技巧

  • 手工调优

  • 自动调参:  网格搜索

  • 自动调参:  随机搜索

  • 自动调参: 贝叶斯搜索

建立逻辑回归,SVM,神经网络,随机森林集成多个模型, 识别乳腺癌的良性和恶性


实例学习和课堂练习:客户分类

Day5

(14:00-17:00)

九、案例实践

1 某智能工厂项目

  • 项目介绍

  • 数据的清洗, 缺值的填充方案

  • 选择随机森林和Xgboost模型作为模型

  • 训练模型,超参调优

  • 对模型进行评价

  • 生成重要的生产流程的改造环节


2 未来销售额的智能预测 – 经典时间序列类项目

  • 预测每种产品的销售额, 以及每个门店的销售额

  • 数据的预处理

  • 使用统计模型进行趋势分解

  • 使用机器学习模型进行预测

  • 使用RMSE对模型进行评价


3 发现“薅羊毛”-  经典监督学习分类项目

  • 数据的特征提取

  • 训练模型,区分薅羊毛者

  • 部署模型

  • 使用模型进行预测


文本的聚类 - 经典非监督学习项目

  • 项目和数据的介绍

  • 提取文档的特征的两种方法

  • 使用聚类算法对文档

  • 对结果的评价


5 呼叫中心对话分析 -  经典自然语言处理类项目

  • 项目介绍, 数据集介绍

  • 对话文本的特征提取

  • 使用NLP模型建模

  • 分析谈话的主题

  • 分析用户的态度

  • 对模型进行评价

上一篇: 北京数据治理原理、方法和数据中台规划培训 下一篇: 北京软件构架设计课程培训

推荐课程

查看全部课程
北京IT认证培训中心

北京IT认证培训中心

海淀校区

查看全部校区 进入官方主页