type
status
date
slug
summary
tags
category
icon
password
核心思想与原理
什么是聚类
- 同簇高相似度
- 不同簇高相异度
- 类尽量相聚
- 不同类尽量远离
聚类与分类的区别
分类 Classification
- 监督学习
- 训练得到分类器
- 预测未知数据
聚类 Clustering
- 无监督学习,不关心类别标签
- 没有训练过程
簇(CLuster)的定义
主要聚类方法

聚类步骤
- 数据准备:标准化和降维
- 特征选择:最有效特征
- 特征提取:特征转换
- 聚类:基于距离做相似度度量,得到簇
- 结果评估:分析聚类结果
K-means 和分层聚类
划分聚类
- 互斥的簇
- 每个对象仅属于一个簇
- 簇间相似性低
- 簇内相似性高
k-均值聚类
- 根据样本点与簇质心距离判定
- 以样本间距离衡量相似度
数据相似度度量
- 明氏距离
- 曼哈顿距离
- 欧式距离
k-均值算法
- 选择 k 个初始质心
- 计算样本到各个质心欧式距离,归入最近的簇
- 计算新簇的质心
层次聚类
- 按层次把数据划分到不同层的簇,形成树状结构
- 在树形结构上不同层次划分,可以得到不同粒度的聚类
- 过程分为自底向上的聚合聚类和自顶向下的分裂聚类

自底向上的聚合聚类
- 每个样本看成一个簇
- 簇间距离最小的相似簇合并
簇间相似度度量
- Complete linkage - max distance
- Single linkage - min distance
- Average linkage
自顶向下的分裂聚类
- 所有样本看成一个簇
- 逐渐分裂成更小的簇
代码实现
- 数据集

实现分类
- k-means聚类

- 不同的簇数






- 层次聚类


效果评估
已知标签评价
- 调整兰德指数 Adjusted Rand Index
- 调整互信息分 Adjusted mutual info score
- V-Measure

未知标签评价
- 轮廓系数
- CHI(Calinski-Harabaz Index / Variance Ratio Criterion)

代码文件
优缺点和适用条件
K-means 聚类
优点
- 算法简单,收敛速度快
- 簇间区别大时候效果好
- 对大数据集,算法可伸缩性好
缺点
- 簇数 K 难以确定
- 对初始聚类中心敏感
- 容易陷入局部最优
- 簇不规则时,容易对大簇分割
适用条件:
- 簇是密集的、球状的、团状
- 簇间区别明显
- 簇本身数据均匀
- 适用于大数据集
分层聚类
优点
- 距离相似度易定义,限制少
- 不需要事先制定簇数
- 可以发现簇间层次关系
缺点
- 对时间和空间需求大
- 困难在于合并或分裂点的选择
- 可扩展性差
适用条件
- 适用于小数据集聚类
- 可以在不同粒度水平上对数据进行探测,发现簇间层次关系
- Author:空格
- URL:https://www.shipangshuo.xyz/article/Clustering
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!









