随机森林
Bagging
Bagging
采用自助采样法(bootstrap sampling
)采样数据。给定包含m
个样本的数据集,我们先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时,样本仍可能被选中, 这样,经过m
次随机采样操作,我们得到包含m
个样本的采样集。
Bagging
采用自助采样法(bootstrap sampling
)采样数据。给定包含m
个样本的数据集,我们先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时,样本仍可能被选中, 这样,经过m
次随机采样操作,我们得到包含m
个样本的采样集。
给定n个带权的观察样本\((w_i,a_i,b_i)\):
迭代再加权最小二乘(IRLS
)用于解决特定的最优化问题,这个最优化问题的目标函数如下所示:
\[arg min_{\beta} \sum_{i=1}^{n}|y_{i} - f_{i}(\beta)|^{p}\]
特征选择试图识别相关的特征用于模型构建。它改变特征空间的大小,它可以提高速度以及统计学习行为。ChiSqSelector
实现卡方特征选择,它操作于带有类别特征的标注数据。 ChiSqSelector
根据独立的卡方测试对特征进行排序,然后选择排序最高的特征。下面是一个使用的例子。
Word2Vector将词转换成分布式向量。分布式表示的主要优势是相似的词在向量空间距离较近,这使我们更容易泛化新的模式并且使模型估计更加健壮。 分布式的向量表示在许多自然语言处理应用(如命名实体识别、消歧、词法分析、机器翻译)中非常有用。
Term frequency-inverse document frequency,TF-IDF
)是在文本挖掘中广泛使用的特征向量化方法。 它反映语料中词对文档的重要程度。假设用t
表示词,d
表示文档,D
表示语料。词频TF(t,d)
表示词t
在文档d
中出现的次数。文档频率DF(t,D)
表示语料中出现词t
的文档的个数。 如果我们仅仅用词频去衡量重要程度,这很容易过分强调出现频繁但携带较少文档信息的词,如of
、the
等。如果一个词在语料中出现很频繁,这意味着它不携带特定文档的特殊信息。逆文档频率数值衡量一个词提供多少信息。所谓决策树,顾名思义,是一种树,一种依托于策略抉择而建立起来的树。机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。 树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,从根节点到叶节点所经历的路径对应一个判定测试序列。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。
朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。 举个例子,如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。