type
status
date
slug
summary
tags
category
icon
password

核心思想与原理

什么是聚类

  • 同簇高相似度
  • 不同簇高相异度
  • 类尽量相聚
  • 不同类尽量远离

聚类与分类的区别

分类 Classification
  • 监督学习
  • 训练得到分类器
  • 预测未知数据
聚类 Clustering
  • 无监督学习,不关心类别标签
  • 没有训练过程
 

簇(CLuster)的定义

主要聚类方法

notion image

聚类步骤

  1. 数据准备:标准化和降维
  1. 特征选择:最有效特征
  1. 特征提取:特征转换
  1. 聚类:基于距离做相似度度量,得到簇
  1. 结果评估:分析聚类结果

K-means 和分层聚类

划分聚类

  • 互斥的簇
  • 每个对象仅属于一个簇
  • 簇间相似性低
  • 簇内相似性高

k-均值聚类

  • 根据样本点与簇质心距离判定
  • 以样本间距离衡量相似度

数据相似度度量

  • 明氏距离
  • 曼哈顿距离
  • 欧式距离

k-均值算法

  1. 选择 k 个初始质心
  1. 计算样本到各个质心欧式距离,归入最近的簇
  1. 计算新簇的质心

层次聚类

  • 按层次把数据划分到不同层的簇,形成树状结构
  • 在树形结构上不同层次划分,可以得到不同粒度的聚类
  • 过程分为自底向上的聚合聚类和自顶向下的分裂聚类
notion image

自底向上的聚合聚类

  • 每个样本看成一个簇
  • 簇间距离最小的相似簇合并

簇间相似度度量

  • Complete linkage - max distance
  • Single linkage - min distance
  • Average linkage

自顶向下的分裂聚类

  • 所有样本看成一个簇
  • 逐渐分裂成更小的簇

代码实现

  • 数据集
notion image

实现分类

  • k-means聚类
notion image
  • 不同的簇数
notion image
notion image
notion image
notion image
notion image
notion image
  • 层次聚类
notion image
notion image

效果评估

已知标签评价
  • 调整兰德指数 Adjusted Rand Index
  • 调整互信息分 Adjusted mutual info score
  • V-Measure
notion image
未知标签评价
  • 轮廓系数
  • CHI(Calinski-Harabaz Index / Variance Ratio Criterion)
notion image

代码文件

优缺点和适用条件

K-means 聚类

优点
  • 算法简单,收敛速度快
  • 簇间区别大时候效果好
  • 对大数据集,算法可伸缩性好
缺点
  • 簇数 K 难以确定
  • 对初始聚类中心敏感
  • 容易陷入局部最优
  • 簇不规则时,容易对大簇分割
适用条件:
  • 簇是密集的、球状的、团状
  • 簇间区别明显
  • 簇本身数据均匀
  • 适用于大数据集

分层聚类

优点
  • 距离相似度易定义,限制少
  • 不需要事先制定簇数
  • 可以发现簇间层次关系
缺点
  • 对时间和空间需求大
  • 困难在于合并或分裂点的选择
  • 可扩展性差
适用条件
  • 适用于小数据集聚类
  • 可以在不同粒度水平上对数据进行探测,发现簇间层次关系
机器学习核心概念 集成学习
Loading...