快速迭代聚类

2019-08-012019-08-03机器学习19 分钟读完 (大约2891个字)

谱聚类算法的原理

在分析快速迭代聚类之前，我们先来了解一下谱聚类算法。谱聚类算法是建立在谱图理论的基础上的算法，与传统的聚类算法相比，它能在任意形状的样本空间上聚类且能够收敛到全局最优解。谱聚类算法的主要思想是将聚类问题转换为无向图的划分问题。

流式`k-means`算法

2019-07-312019-07-31机器学习10 分钟读完 (大约1539个字)

当数据是以流的方式到达的时候，我们可能想动态的估计（estimate）聚类的簇，通过新的到达的数据来更新聚类。spark.mllib支持流式k-means聚类，并且可以通过参数控制估计衰减（decay）(或“健忘”(forgetfulness))。这个算法使用一般地小批量更新规则来更新簇。

spark, 聚类

k-means、k-means++以及k-means算法分析

2019-07-302019-07-31机器学习25 分钟读完 (大约3711个字)

本文会介绍一般的k-means算法、k-means++算法以及基于k-means++算法的k-means||算法。在spark ml，已经实现了k-means算法以及k-means||算法。本文首先会介绍这三个算法的原理，然后在了解原理的基础上分析spark中的实现代码。

spark, 聚类