梯度提升树(GBDT)原理小结

2020-02-042021-05-24机器学习24 分钟读完 (大约3539个字)

在集成学习之Adaboost算法原理小结中，我们对Boosting家族的Adaboost算法做了总结，本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting ）， GBRT（Gradient Boosting Regression Tree）, MART(Multiple Additive Regression Tree)，其实都是指的同一种算法，本文统一简称GBDT。GBDT在BAT大厂中也有广泛的应用，假如要选择3个最重要的机器学习算法的话，个人认为GBDT应该占一席之地。

GBDT

主成分分析

2019-08-062019-08-06机器学习7 分钟读完 (大约980个字)

主成分分析原理

主成分分析是最常用的一种降维方法。我们首先考虑一个问题：对于正交矩阵空间中的样本点，如何用一个超平面对所有样本进行恰当的表达。容易想到，如果这样的超平面存在，那么他大概应该具有下面的性质。

最近重构性：样本点到超平面的距离都足够近
最大可分性：样本点在这个超平面上的投影尽可能分开

基于最近重构性和最大可分性，能分别得到主成分分析的两种等价推导。

spark, 降维

数据类型

2019-08-052019-08-06机器学习17 分钟读完 (大约2559个字)

MLlib既支持保存在单台机器上的本地向量和矩阵，也支持备份在一个或多个RDD中的分布式矩阵。本地向量和本地矩阵是简单的数据模型，作为公共接口提供。底层的线性代数操作通过Breeze和jblas提供。在MLlib中，用于有监督学习的训练样本称为标注点(labeled point)。

spark

奇异值分解

2019-08-042019-08-06机器学习11 分钟读完 (大约1602个字)

奇异值分解

在了解特征值分解之后，我们知道，矩阵A不一定是方阵。为了得到方阵，可以将矩阵A的转置乘以该矩阵。从而可以得到公式：

spark, 降维

线性支持向量机

2019-08-032019-08-06机器学习5 分钟读完 (大约800个字)

介绍

线性支持向量机是一个用于大规模分类任务的标准方法。它的目标函数线性模型中的公式（1）。它的损失函数是合页（hinge）损失，如下所示

spark, 线性模型

快速迭代聚类

2019-08-012019-08-03机器学习19 分钟读完 (大约2891个字)

谱聚类算法的原理

在分析快速迭代聚类之前，我们先来了解一下谱聚类算法。谱聚类算法是建立在谱图理论的基础上的算法，与传统的聚类算法相比，它能在任意形状的样本空间上聚类且能够收敛到全局最优解。谱聚类算法的主要思想是将聚类问题转换为无向图的划分问题。

spark, 聚类

流式`k-means`算法

2019-07-312019-07-31机器学习10 分钟读完 (大约1539个字)

当数据是以流的方式到达的时候，我们可能想动态的估计（estimate）聚类的簇，通过新的到达的数据来更新聚类。spark.mllib支持流式k-means聚类，并且可以通过参数控制估计衰减（decay）(或“健忘”(forgetfulness))。这个算法使用一般地小批量更新规则来更新簇。

spark, 聚类

k-means、k-means++以及k-means算法分析

2019-07-302019-07-31机器学习25 分钟读完 (大约3711个字)

本文会介绍一般的k-means算法、k-means++算法以及基于k-means++算法的k-means||算法。在spark ml，已经实现了k-means算法以及k-means||算法。本文首先会介绍这三个算法的原理，然后在了解原理的基础上分析spark中的实现代码。

spark, 聚类