集成学习 | KOGE’s BLOG

type

status

date

slug

summary

tags

category

icon

password

notion image

集成学习的种类

notion image

并联策略 Voting

🪁

不同的模型得出结果后投票

notion image

并联策略 Bagging

🪁

随机子数据集使用同样的模型算法

notion image

数据抽取策略

有放回 Bagging，抽取相互独立

无放回 Pasting，抽取不相互独立

OOB（out-of-bag）

36.8%的样本没被抽到

用这一部分作为测试集，不区分训练集和测试集

随机森林（Random Forest Trees）

🧯

Bagging + Base Estimator（Decision Tree）

构建决策树时，提供了更多的随机性

Extra - Trees

随机森林的一个扩展变体

使用随机的特征和随机的阈值进行节点划分

进一步提高模型随机性

训练速度更快

串联策略 Boosting

🔁

循环生成新训练集和新树🌲

notion image

AdaBoost

一步一步进行划分，再合起来

GBDT（Gradient Boosting Decision Tree）

ShowMeAI知识社区

ShowMeAI是人工智能领域的资料库和学习社区，覆盖Python、数据科学、机器学习、深度学习、自然语言处理、计算机视觉等方向。我们为学习、求职、项目落地、业务探索等场景，提供了结构化路径和全套资料库。构建AI解决方案，用知识加速每一次技术成长！ShowMeAI，只做精品。

https://www.showmeai.tech/article-detail/193

混联策略 Stacking

🎖️

对前面模型的预测结果用新模型进行二次拟合

notion image

notion image

数据一用于训练模型1、2、3

数据二经过模型1、2、3输出之后训练模型4

网络能更复杂，三级结构等等

相比神经网络，每个圆圈均为一个模型，可以不同

复杂网络容易发生过拟合

代码实现

Voting

数据集

notion image

手动实现

sklearn实现

Bagging

oob_score = True

特征抽取,bootstrap_features = Truemax_features = 1

Random Forest

提取特征重要性

notion image

Extra - Forest

更随机

Boosting

AdaBoost

Gradient Boosting

代码文件：

11-3.集成学习代码实现.ipynb

优缺点和适用条件

Voting 方法

优点

少数服从多数，简单高效

降低方差，提高鲁棒性

缺点

软投票与硬投票结果可能不一致，一般能得到更好结果，但不一定代表更准确

所有子模型对预测结果贡献均等，子模型效果不能差别过大，要有较小的同质性，例如基于树模型和线性模型的投票，优于两个单纯的树模型或单纯的线性模型。

投票模型能预测清晰类别标签适合硬投票，有概率时候适合软投票

Bagging 方法

优点

减少方差

降低模型预测误差

缺点

增加了时间开销

需要模型具有多样性

并行计算需要较大计算资源

随机森林

优点

准确率高

不容易过拟合、抗噪能力强

能处理高维数据，不用做特征选择，不用做归一化，能处理离散数据也能处理连续数据

得到变量重要性排序

缺点

噪声较大时容易过拟合

取值划分较多的属性影响大

黑盒模型

Boosting 方法

优点

更加具有鲁棒性

减少偏差 bias

缺点

容易过拟合

Adaboost 方法

优点

二分类或多分类场景

能用各种回归分类模型构建弱分类器，灵活、简单、不容易过拟合

不用调参数，精度高

缺点

弱分类器数目不太好设定 - - - 可以使用交叉验证来进行确定

数据不平衡精度下降

相对来说对离群点敏感，容易被干扰，训练比较耗时

Stacking 方法

优点

效果好、鲁棒性高

能将集成的知识迁移到简单分类器上

能添加正则项有效对抗过拟合

不太需要过多条件和特征选择

缺点

二次学习更加复杂

不要有泄漏 leak 情况，对于训练样本中的每一条数据，即前一层模型的要输出结果时不能拿这个数据进行预测做下一层输出，否则会造成过拟合现象

Author:空格
URL:https://www.shipangshuo.xyz/article/Ensemble-Learning
Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!

Relate Posts

机器学习核心概念

Lazy loaded image

Lazy loaded image

朴素贝叶斯

Lazy loaded image

支持向量机 SVM

Lazy loaded image

Lazy loaded image

Lazy loaded image

聚类朴素贝叶斯

Loading...