type
status
date
slug
summary
tags
category
icon
password

notion image

思想和原理

:后验,Posterior
:可能性,Likelihood
:先验,Prior
:观测,Evidence
notion image

最大似然估计(Maximum Likelihood Estimation , MLE)

🔦
即 Likelihood,
常表示为:
  • 众多分类任务损失函数的本质
  • 最小二乘法 是 MLE + 正态分布
  • 决策树相当于用 MLE 选择概率模型
  • 神经网络中交叉熵损失函数也是 MLE

最大后验估计(Maximum A Posteriori Estimation , MAP)

🪁
加入了先验分布,
  • 先验就相当于正态分布
  • 泛化效果更好

贝叶斯估计(Bayesian Estimation)

  • 直接求出后验分布
  • 先验很重要
  • 泛化效果更好

朴素贝叶斯分类

🪁
在「假设待分类项的各个属性相互独立」的情况下,构造出来的分类算法就称为朴素的,即朴素贝叶斯算法。

朴素贝叶斯算法详解

🪁
人话:计算哪个后验概率较大就是哪类
为一个待分类项,每个 的一个特征属性,且特征属性之间相互独立。设 为一个类别集合,计
由贝叶斯公式:
其中 固定,只需考虑分子,因为个特征值独立,所以有:
其中
  • 逻辑简单,易于实现
  • 效率高,时空开销小
  • 条件独立假设不成立则分类效果一般
  • 适用于特征相关性较小时

朴素贝叶斯家族

分类器
特征类型
特征分布假设
Bernoulli NB
离散型(二值)
二项分布
Gaussian NB
连续型
高斯分布
Categorical NB
离散型
类分布
Multinomial NB
离散型
多项式分布
Complement NB
离散型
补集分布

伯努利分布

  • 两点分布或0-1分布
  • 属于离散型概率分布
  • 伯努利分布公式如下

二项式分布和多项式分布

  • 伯努利实验 —— 抛硬币
  • 二项式分布:伯努利实验重复多次
  • n = 1 的二项式分布就是伯努利分布
  • 多项式分布:抛硬币改为掷骰子

适用条件

  • 伯努利适用于特征是二分类离散变量
  • 特征的条件概率服从伯努利分布
  • 特征可选值大于两个时可用多项式分布

高斯朴素贝叶斯

  • 适用特征是连续变量
  • 每个特征的条件概率服从高斯分布

代码实现

  • 数据
X: 境外人员?|密接?|年龄?|疫苗接种? y: 阳性? t: 代表 本土,非密接,年轻,接种疫苗
输出:array([[0.875, 0.125]])
分类准确
 
  • sklearn中的朴素贝叶斯,数据集为 iris 数据集
伯努利贝叶斯准确率为 0.2 ,高斯分布贝叶斯为 0.96 ,多项式为 0.56 ,因为伯努利分布适合离散,而 iris 为连续
  • 文本分类数据集
  • 抽取特征
  • 利用多项式分布
  • 利用 classification_report 查看多分类的情况

代码文件

适用条件

  • 文本分类/垃圾文本过滤/情感判别
  • 多分类实时预测
  • 推荐系统
  • 复杂问题建模
优点:
  • 过程简单速度快
  • 对多分类一样有效
  • 分布独立假设下效果好
缺点:
  • 条件独立假设很难保证
  • 只适用于简单比大小
  • 个别概率为 0 ,则预测失败
  • 条件概率和先验分布计算复杂度较高,高维计算困难
 
集成学习 支持向量机 SVM
Loading...