NXP电子元件

学RF 数据科学之机器学习子篇——什么是RF

小编 2024-10-06 NXP电子元件 23 0

数据科学之机器学习子篇——什么是RF

“做一个善于倾听的人,鼓励别人多谈谈自己” -- 《人性的弱点》

今天我就给大家来简单的介绍一下RF。全文分为三个部分:一、RF的概念介绍;二、RF的有缺点;三、RF为什么要进行有放回抽样?

一、RF的概念介绍

RF是Random Forest的简称,中文随机森林。

今天我就给大家来简单的介绍一下RF。

作为新兴起的、高度灵活的一种机器学习算法,RF拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最近几年的国内外大赛,包括2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛,参赛者对RF的使用占有相当高的比例。此外,据小白的个人了解来看,一大部分成功进入答辩的队伍也都选择了RF或者 GBDT算法(怎么样?吃透了GBDT,是不是搞定机器学习70%的工作)。所以可以看出,RF在准确率方面还是相当有优势的。

  那说了这么多,那RF到底是怎样的一种算法呢?

  RF就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。RF的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”我们很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,这样的比喻还是很贴切的,其实这也是随机森林的主要思想--集成思想的体现。“随机”的含义实际上表述了一种样本选择的策略,后续会有详细介绍。

其实从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而RF集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的 Bagging 思想。

二、RF的有缺点

优点 :

1、 几乎不需要输入准备.它们可以处理二元特征,分类特征,数字特征,并且不需要任何缩放处理.

2、 在当前所有算法中,具有极好的准确率;

3、 能够有效地运行在大数据集上;

4、 能够处理具有高维特征的输入样本,而且不需要降维;

5、 能够评估各个特征在分类问题上的重要性;

6、 在生成过程中,能够获取到内部生成误差的一种无偏估计;

7、 对于缺省值问题也能够获得很好得结果;

8、 可实现隐式特征选择,并且提供一个很好的特征重要性指标;

9、 通用性;随机森林适用于各种各样的建模工作,它们可以很好的处理回归任务和分类任务(甚至产生体面的校正的概率分数),它就相当于机器学习领域的Leatherman(多面手),你几乎可以把任何东西扔进去,它基本上都是可供使用的.在估计推断映射方面特别好用,以致都不需要像SVM那样做很多参数的调试.

缺点:

1、 随机森林的主要劣势在于模型大小.你可能需要数百兆的内存才能轻松地结束一个森林,而且评估的速度也很慢.

2、 另外一点,有些人可能会发现一个问题,也就是随机森林模型其实是个很难去解释的黑盒子.

三、RF 为什么要有放回地抽样:

如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样每棵树都是"有偏的",都是绝对"片面的",也就是说每棵树训练出来都是有很大的差异的;而随机森林最后分类取决于多棵树(弱分类器)的投票表决,这种表决应该是"求同",因此使用完全不同的训练集来训练每棵树这样对最终分类结果是没有帮助的

1)如果每个样本的特征维度为M,指定一个常数m<<M,随机地从M个特征中选取m个特征子集,每次树进行分裂时,从这m个特征中选择最优的;

2) 每棵树都尽最大程度的生长,并且没有剪枝过程.

RF中的“随机”就是指的这里的两个随机性.两个随机性的引入对随机森林的分类性能至关重要.由于它们的引入,使得RF不容易陷入过拟合,并且具有很好得抗噪能力(比如:对缺省值不敏感).

RF分类效果(错误率)与两个因素有关:

1)森林中任意两棵树的相关性:相关性越大,错误率越大;

2)森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低.

减小特征选择个数m,树的相关性和分类能力也会相应的降低;增大m,两者也会随之增大.所以关键问题是如何选择最优的m(或者是范围),这也是RF唯一的一个参数。

随机森林

版权申明:本文为数据科学小白原创文章,授权头条号发表,转载请注明出处。

参考文献:

1、百度百科

数据科学之机器学习子篇——RF的数学原理及应用

“想要使人对你感兴趣,就着别的兴趣谈” -- 《人性的弱点》

前一段时间,大家啃了LR \ DT \ SVM \ GBDT,今天来吃RF,会不会有一种so easy的感觉?如果有,那么恭喜你,厉害了!马上晋升高阶段位了。

RF中的决策树部分的数学原理,这里就不重复了,辛苦大家回头翻一翻《数据科学之机器学习子篇 -- DT的数学原理》。

今天我们首先了解为什么RF这种bagging的ensemble model能够很好的降低过拟合,然后我们再实际使用sklearn实战一下RF。

一、RF能够很好的降低拟合的主要作用在这里:

图片来源:肖坚《基于随机森林的不平衡数据分类方法研究》(哈工大2013年12月硕士论文)

因为上限的限制,RF可以有效的降低过拟合。详细内容建议阅读上述文献

二、RF实战

大家是否还记得之前介绍NB的时候给出的一个实际的互联网金融反欺诈case,最高的高斯模型可以达到0.56,但是换成伯努利就差的多了,如果不做LR变换可能就更差了。下图是基本没有调参情况下得到的RF,AUC=0.56,小白还尝试了调试几次参数,发现效果都不明显,意味着当前能力下,RF可以迅速的收敛。

RF ROC

RF的参数列表:

参数列表

今天RF就介绍到这里,明天我们针对一个实际问题,手把手的学习一下各个模型的工程实战。

版权申明:本文为数据科学小白原创文章,转载请注明出处。

参考文献:

1、肖坚《基于随机森林的不平衡数据分类方法研究》(哈工大2013年12月硕士论文)

相关问答

rf 值和rr值有何不同?

RF值和RR值是流行病学中常用的两种风险度量指标,它们在定义和应用上有所不同。RF值,即风险比(RiskRatio),是指暴露组与非暴露组之间某事件发生风险的比值,...

因为我后面又 习到Rm(市场平均收益率)= Rf +(Rm- Rf ),然...

无风险利率Rf=市场的纯粹利率+通货膨胀补偿率答疑老师您好,这个纯粹利率是啥?因为我后面又学习到Rm(市场平均收益率)=Rf%2b(Rm-Rf),然后我脑子就分不清市...

请问辅音字母在单词最后的时候不发音,但是 qclrf这5个字母...

好主意呢。所以这里应该是没有想到答案之类的情况,然后出主意明天问老师。其他选项,太好了、好吃、太精彩了,都不符合逻辑。希望以上解答...所...

佳能eosrp怎么调整光圈?

EOSRP的机型命名加入了特殊寓意。EOSRP中的“P”为法语“Populaire”的首字母,意为流行、主流。在1959年,佳能历史上一款获得巨大成功并广为流行的经典机型Ty...

投资学 计算题1、如果 rf =6%,E(rM)=14%,E(rP)=18%的资产组合...

[最佳回答]1.因为E(rP)=rf+E(rM)*β.所以β=(E(rP)-rf)/E(rM)=(18%-6%)/14%=6/7其他的题待解

射频工具app有哪些?

射频电路设计可采用orcad、ADS等电路设计软件PCB多数用DXP和cadence。可以去一些射频微波论坛查阅相关知识,当然所有设计的开端都是在相关知识了解掌握的前...

射频遥控器怎么连接小爱?

具体操作步骤如下:1.打开小爱同学APP,进入“添加设备”页面。2.选择对应的智能主机设备,按照提示进行配置和绑定。3.进入“自定义场景”页面,选择“添...

老师好,一般情况下倒数第一个辅音字母除了qclrf不发音,但...

~!因为这里是作为助词使用的哦,は在作为助词使用时,特殊发音为wa比如:私は学生です。我是学生。=》特殊发音为wa这个语法知识后面也会讲解的哦...

EDX荧光分析仪EDXRF应该选择什么样的压片机?

[回答]EDX荧光分析仪(1)简单的说,你对同一个样品在同等条件下多次测量。看它的结果偏差大不大?不大就说明重现性好。反之则说明重现性差。重现性在XRF中算...

佳能50 1.8镜头拍摄全身人像效果如何?背景虚化效果呢?

我刚好有一枚50mm,F1.8的镜头,我想说的是,这枚镜头你值得拥有。先说好的方面。1、大光圈,快镜头。对景深的控制能力非常好。我们知道控制景深的三个要素就是...

猜你喜欢