数据科学之机器学习子篇——什么是RF
“做一个善于倾听的人,鼓励别人多谈谈自己” -- 《人性的弱点》
今天我就给大家来简单的介绍一下RF。全文分为三个部分:一、RF的概念介绍;二、RF的有缺点;三、RF为什么要进行有放回抽样?
一、RF的概念介绍
RF是Random Forest的简称,中文随机森林。
今天我就给大家来简单的介绍一下RF。
作为新兴起的、高度灵活的一种机器学习算法,RF拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最近几年的国内外大赛,包括2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛,参赛者对RF的使用占有相当高的比例。此外,据小白的个人了解来看,一大部分成功进入答辩的队伍也都选择了RF或者 GBDT算法(怎么样?吃透了GBDT,是不是搞定机器学习70%的工作)。所以可以看出,RF在准确率方面还是相当有优势的。
那说了这么多,那RF到底是怎样的一种算法呢?
RF就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。RF的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”我们很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,这样的比喻还是很贴切的,其实这也是随机森林的主要思想--集成思想的体现。“随机”的含义实际上表述了一种样本选择的策略,后续会有详细介绍。
其实从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而RF集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的 Bagging 思想。
二、RF的有缺点
优点 :
1、 几乎不需要输入准备.它们可以处理二元特征,分类特征,数字特征,并且不需要任何缩放处理.
2、 在当前所有算法中,具有极好的准确率;
3、 能够有效地运行在大数据集上;
4、 能够处理具有高维特征的输入样本,而且不需要降维;
5、 能够评估各个特征在分类问题上的重要性;
6、 在生成过程中,能够获取到内部生成误差的一种无偏估计;
7、 对于缺省值问题也能够获得很好得结果;
8、 可实现隐式特征选择,并且提供一个很好的特征重要性指标;
9、 通用性;随机森林适用于各种各样的建模工作,它们可以很好的处理回归任务和分类任务(甚至产生体面的校正的概率分数),它就相当于机器学习领域的Leatherman(多面手),你几乎可以把任何东西扔进去,它基本上都是可供使用的.在估计推断映射方面特别好用,以致都不需要像SVM那样做很多参数的调试.
缺点:
1、 随机森林的主要劣势在于模型大小.你可能需要数百兆的内存才能轻松地结束一个森林,而且评估的速度也很慢.
2、 另外一点,有些人可能会发现一个问题,也就是随机森林模型其实是个很难去解释的黑盒子.
三、RF 为什么要有放回地抽样:
如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样每棵树都是"有偏的",都是绝对"片面的",也就是说每棵树训练出来都是有很大的差异的;而随机森林最后分类取决于多棵树(弱分类器)的投票表决,这种表决应该是"求同",因此使用完全不同的训练集来训练每棵树这样对最终分类结果是没有帮助的
1)如果每个样本的特征维度为M,指定一个常数m<<M,随机地从M个特征中选取m个特征子集,每次树进行分裂时,从这m个特征中选择最优的;
2) 每棵树都尽最大程度的生长,并且没有剪枝过程.
RF中的“随机”就是指的这里的两个随机性.两个随机性的引入对随机森林的分类性能至关重要.由于它们的引入,使得RF不容易陷入过拟合,并且具有很好得抗噪能力(比如:对缺省值不敏感).
RF分类效果(错误率)与两个因素有关:
1)森林中任意两棵树的相关性:相关性越大,错误率越大;
2)森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低.
减小特征选择个数m,树的相关性和分类能力也会相应的降低;增大m,两者也会随之增大.所以关键问题是如何选择最优的m(或者是范围),这也是RF唯一的一个参数。
随机森林
版权申明:本文为数据科学小白原创文章,授权头条号发表,转载请注明出处。
参考文献:
1、百度百科
关于射频的一些定义
简单地说,RF代表射频(无线电频率)。通常指用于无线电系统和无线通信的所有电磁频谱。然而,根据使用环境的不同,RF也可以意味着各种不同的意义。在讨论频谱的某些场合,RF指的是微波以下的频率范围,而微波又低于毫米波。这可能特别令人困惑,因为工业中使用的微波没有明确的定义。从物理角度来看,微波是指信号波长在微米范围内的电磁频谱,这是理所当然的。然而,微波一词并非如此,因为该词的起源可能不是物理定义,而是用来确定早期“微波”系统所用的波长远小于当时的射频或无线电波系统。
这就是为什么在讨论处理从千赫兹到亚太赫兹电磁现象的行业时,许多传统出版物和文件中都包含了RF和微波这两个术语。一个有趣的注意事项是,毫米波的常用方式实际上指的是该频谱中信号的物理波长。这与微波的一些定义不一致,因为毫米波和微波的定义重叠。在许多情况下,由RF描述的频率范围也与微波重叠。这可能是许多行业专业人士讨论波导频带、雷达频带或用于特定应用的频带的相关频率的原因,例如用于Wi-Fi无线通信和网络的2.4 GHz、5 GHz和6 GHz。
术语RF也用于区分专门用于电磁通信和传感的组件、设备、子系统和系统与其他电子、电气和电磁学科。例如,有多种类型的带通滤波器、混频器、放大器等。如果没有射频来区别,很难辨别这些产品是为音频、超声波、RF、AC电气系统还是其他应用而设计的。这是另一个混淆点,因为微波和毫米波这两个术语通常以相同的方式用于描述电磁通信和传感产品。因此,有一个术语领域来描述这些产品和技术资源,如果没有正确的命名法,这往往会使搜索和找到适用的技术变得困难。
相关问答
RF是什么含义?
RF(射频识别)它是一种高频交流变化电磁波的简称。一种通信技术,可通过无线电讯号识别特定目标并读写相关数据,而无需识别系统与特定目标之间建立机械或光学...
RF是什么意思?
RF是RadioFrequency的缩写,即射频。RF指具有远距离传输能力的高频电磁波,射频技术在无线通信领域中被广泛使用。RF系统通常是指在通信系统中的射频信号接收(R...
氨基酸Rf值与其极性,非极性的关系是什么_作业帮
[最佳回答]极性和非极性这两个概念经常和疏水亲水联系在一起.根据相似相容原理,极性溶质溶于极性溶剂中,非极性溶质溶于非极性溶剂中.水经常作为溶剂,其是极性...
rf在物流中指什么?
RF是指无限射频技术,RFID技术是一种通信技术,可通过无线电讯号识别特定目标并读写相关数据,而无需识别系统与特定目标之间建立机械或光学接触。RFID技术在物...
rf值的计算公式可得到什么结果?
Rf即指比移值,系指从点样基线至展开斑点中心(质量重心)的距离(ι)与从基线至展开剂前沿的距离(ι0)的比值。计算公式为:Rf=ι/ι0溶质自身的性质是决定...Rf...
Rf的极性?
所...根据相似相容原理,极性溶质溶于极性溶剂中,非极性溶质溶于非极性溶剂中。水经常作为溶剂,其是极性的。所以极性氨基酸可看作是溶于水的氨基酸,反之,则不...
射频(RF)是指什么呢?-懂得
射频(RF)是RadioFrequency的缩写,表示可以辐射到空间的电磁频率,频率范围从300KHz~300GHz之间
rf是天线吗?
是天线接口。rf接口是天线接口,也是老式的有线电视必备的接口。rf是RadioFrequency的缩写,表示可以辐射到空间的电磁频率,频率范围从300kHz~300GHz之间。...
RF接口是什么意思啊?-ZOL问答
RF是RadioFrequency的缩写,即射频。射频接口,(也叫RF接口,同轴电缆接口,闭路线接口)属于模拟信号接口,所有的电视都支持这个接口,闭路信号就是通过这个接口传...
路亚竿调性rf什么意思?
路亚竿rf是中快调的调性,其中r是属于中调,f是快调,因此综合起来就是中快调。目前鱼竿的调性会有很多的级别,如果按照软硬来进行区分,那么超软就是ul、软是l...