rambo

Bagging vs Boosting(转)

Bagging (Breiman1996): 也称bootstrap aggregation

Bagging的策略:

- 从样本集中用Bootstrap采样选出n个样本

- 在所有属性上,对这n个样本建立分类器(CART or SVM or ...)

- 重复以上两步m次,i.e.build m个分类器(CART or SVM or ...)

- 将数据放在这m个分类器上跑,最后vote看到底分到哪一类

每次从N个数据中采样n次得到n个数据的一个bag,总共选择B次得到B个bags,也就是B个bootstrap samples.

Random forest(Breiman1999):

随机森林在bagging基础上做了修改。

- 从样本集中用Bootstrap采样选出n个样本,预建立CART

- 在树的每个节点上,从所有属性中随机选择k个属性,选择出一个最佳分割属性作为节点

- 重复以上两步m次,i.e.build m棵CART

- 这m个CART形成Random Forest

随机森林可以既可以处理属性为离散值的量,比如ID3算法,也可以处理属性为连续值的量,比如C4.5算法。
这里的random就是指
         1. Bootstrap中的随机选择子样本
         2. Random subspace的算法从属性集中随机选择k个属性,每个树节点分裂时,从这随机的k个属性,选择最优的
结果证明有时候Random Forest比Bagging还要好。今天微软的Kinect里面就采用了Random Forest,相关论文Real-time Human Pose Recognition in Parts from Single Depth Images是CVPR2011的best paper。
Boosting(Freund & Schapire 1996):

Fit many large or small trees to reweighted versions of the training data. Classify by weighted majority vote.

首先给个大致的概念,boosting在选择hyperspace的时候给样本加了一个权值,使得loss function尽量考虑那些分错类的样本(i.e.分错类的样本weight大)。

怎么做的呢?

- boosting重采样的不是样本,而是样本的分布,对于分类正确的样本权值低,分类错误的样本权值高(通常是边界附近的样本),最后的分类器是很多弱分类器的线性叠加(加权组合),分类器相当简单。

http://m.blog.csdn.net/blog/abcjennifer/8164315

Bagging与Boosting的区别:二者的主要区别是取样方式不同。Bagging采用均匀取样,而Boosting根据错误率来取样,因此Boosting的分类精度要优于Bagging。Bagging的训练集的选择是随机的,各轮训练集之间相互独立,而Boostlng的各轮训练集的选择与前面各轮的学习结果有关;Bagging的各个预测函数没有权重,而Boosting是有权重的;Bagging的各个预测函数可以并行生成,而Boosting的各个预测函数只能顺序生成。对于象神经网络这样极为耗时的学习方法。Bagging可通过并行训练节省大量时间开销。
bagging和boosting都可以有效地提高分类的准确性。在大多数数据集中,boosting的准确性比bagging高。在有些数据集中,boosting会引起退化--- Overfit。
Boosting思想的一种改进型AdaBoost方法在邮件过滤、文本分类方面都有很好的性能。
参考:http://blog.csdn.net/jlei_apple/article/details/8168856

广义矩估计

概念:广义矩估计,GMM(Generalized method of moments estimator),是基于模型实际参数满足一定矩条件而形成的一种参数估计方法,是矩估计方法的一般化。只要模型设定正确,则总能找到该模型实际参数满足的若干矩条件而采用GMM 估计。
基本思想:在随机抽样中,样本统计量将依概率收敛于某个常数。这个常数又是分布中未知参数的一个函数。即在不知道分布的情况下,利用样本矩构造方程(包含总体的未知参数),利用这些方程求得总体的未知参数。
传统的计量经济学估计方法,例如普通最小二乘法工具变量法和极大似然法等都存在自身的局限性。即其参数估计量必须在满足某些假设时,比如模型的随机误差项服从正态分布或某一已知分布时,才是可靠的估计量。(mark:离散选择模型的参数估计一般采用极大似然法)而GMM 不需要知道随机误差项的准确分布信息,允许随机误差项存在异方差和序列相关,因而所得到的参数估计量比其他参数估计方法更有效。因此,GMM 方法在模型参数估计中得到广泛应用。
自举法
自举法是在1个容量为n的原始样本中重复抽取一系列容量也是n的随机样本,并保证每次抽样中每一样本观察值被抽取的概率都是1/n(复置抽样)。这种方法可用来检查样本统计数θ的基本性质,估计θ的标准误和确定一定置信系数下θ的置信区间。
http://blog.sina.com.cn/s/blog_6251f0a301017vbh.html