type
status
date
slug
summary
tags
category
icon
password

🗳️
特征选择、节点分裂、阈值选择

  • 信息熵
  • 联合熵
  • 条件熵
关系:
  • 互信息(信息增益)
  • 交叉熵
  • 相对熵(KL散度)

各种熵及相互关系

notion image
notion image

决策树的本质

  • 损失函数 - 总信息熵
  • 梯度 - 信息增益
  • 决策树 - 梯度下降路径
  • 非参数模型

利用决策树分类

  • 计算 entropy
notion image

代码实现

  • sklearn 中代码实现
  • 绘制可视化树
notion image
  • 手动实现最佳划分

代码文件:

基尼系数

🗳️
在应用时即把 entropy 改为 gini 即可
  • 信息熵 entropy 对比
notion image

基尼系数信息熵 的对比

  • 基尼系数 运算较快
  • 物理意义较有不同
  • 模型效果差异不大

决策树剪枝

剪枝目的

  • 复杂度过高
    • 预测复杂度:
    • 训练复杂度:
  • 容易过拟合
    • 非参数学习

如何剪枝

  • 目标
    • 解决过拟合
    • 降低复杂度
  • 手段
    • 限制广度(叶子结点个数)
    • 限制深度(结点层数)
notion image

代码文件

利用决策树回归

notion image

代码实现

  • 绘制学习曲线
notion image
  • 网格搜索

决策树优缺点和适用条件

优点:
  • 可解释性强
  • 能够处理数据型数据和分类型数据
  • 能够处理多输出问题
缺点:
  • 容易产生过拟合
  • 决策边界只能水平或竖直方向
  • 不稳定,数据的微小变化可能生成完全不同的树
PCA 算法核心概念线形回归
Loading...