NXP产品应用

Rf的概念 数据科学之机器学习子篇——什么是RF

小编 2025-04-09 NXP产品应用 23 0

数据科学之机器学习子篇——什么是RF

“做一个善于倾听的人,鼓励别人多谈谈自己” -- 《人性的弱点》

今天我就给大家来简单的介绍一下RF。全文分为三个部分:一、RF的概念介绍;二、RF的有缺点;三、RF为什么要进行有放回抽样?

一、RF的概念介绍

RF是Random Forest的简称,中文随机森林。

今天我就给大家来简单的介绍一下RF。

作为新兴起的、高度灵活的一种机器学习算法,RF拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最近几年的国内外大赛,包括2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛,参赛者对RF的使用占有相当高的比例。此外,据小白的个人了解来看,一大部分成功进入答辩的队伍也都选择了RF或者 GBDT算法(怎么样?吃透了GBDT,是不是搞定机器学习70%的工作)。所以可以看出,RF在准确率方面还是相当有优势的。

  那说了这么多,那RF到底是怎样的一种算法呢?

  RF就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。RF的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”我们很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,这样的比喻还是很贴切的,其实这也是随机森林的主要思想--集成思想的体现。“随机”的含义实际上表述了一种样本选择的策略,后续会有详细介绍。

其实从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而RF集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的 Bagging 思想。

二、RF的有缺点

优点 :

1、 几乎不需要输入准备.它们可以处理二元特征,分类特征,数字特征,并且不需要任何缩放处理.

2、 在当前所有算法中,具有极好的准确率;

3、 能够有效地运行在大数据集上;

4、 能够处理具有高维特征的输入样本,而且不需要降维;

5、 能够评估各个特征在分类问题上的重要性;

6、 在生成过程中,能够获取到内部生成误差的一种无偏估计;

7、 对于缺省值问题也能够获得很好得结果;

8、 可实现隐式特征选择,并且提供一个很好的特征重要性指标;

9、 通用性;随机森林适用于各种各样的建模工作,它们可以很好的处理回归任务和分类任务(甚至产生体面的校正的概率分数),它就相当于机器学习领域的Leatherman(多面手),你几乎可以把任何东西扔进去,它基本上都是可供使用的.在估计推断映射方面特别好用,以致都不需要像SVM那样做很多参数的调试.

缺点:

1、 随机森林的主要劣势在于模型大小.你可能需要数百兆的内存才能轻松地结束一个森林,而且评估的速度也很慢.

2、 另外一点,有些人可能会发现一个问题,也就是随机森林模型其实是个很难去解释的黑盒子.

三、RF 为什么要有放回地抽样:

如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样每棵树都是"有偏的",都是绝对"片面的",也就是说每棵树训练出来都是有很大的差异的;而随机森林最后分类取决于多棵树(弱分类器)的投票表决,这种表决应该是"求同",因此使用完全不同的训练集来训练每棵树这样对最终分类结果是没有帮助的

1)如果每个样本的特征维度为M,指定一个常数m<<M,随机地从M个特征中选取m个特征子集,每次树进行分裂时,从这m个特征中选择最优的;

2) 每棵树都尽最大程度的生长,并且没有剪枝过程.

RF中的“随机”就是指的这里的两个随机性.两个随机性的引入对随机森林的分类性能至关重要.由于它们的引入,使得RF不容易陷入过拟合,并且具有很好得抗噪能力(比如:对缺省值不敏感).

RF分类效果(错误率)与两个因素有关:

1)森林中任意两棵树的相关性:相关性越大,错误率越大;

2)森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低.

减小特征选择个数m,树的相关性和分类能力也会相应的降低;增大m,两者也会随之增大.所以关键问题是如何选择最优的m(或者是范围),这也是RF唯一的一个参数。

随机森林

版权申明:本文为数据科学小白原创文章,授权头条号发表,转载请注明出处。

参考文献:

1、百度百科

手机射频(RF)指标-灵敏度(sensitivity)

灵敏度是通信接收机一个极其重要的指标,它定义为在指定输出信噪比的条件下,接收机所需的最低输入信号电平。对于手机来说,灵敏度指标也非常重要,只不过按照3 Gpp协议,把测试条件改为了给定输出误码率(或误比特率)而已。

事实上,对于数字通信而言,给定输出信噪比和给定输出误码率这两个条件是等价的。有通讯原理教材可知,不考虑信道失真时,解调信号的误码率与输入信噪比有一一对应的函数关系,而输出信噪比则等于输入信噪比减去接收机等效噪声系数。

当然,不同的调制方式会有不同的误码率,同一种调制方式采用不同的解调方法,如相干解调或同步解调与非相干解调或包络解调也会有不同的误码率。一般而言,相干解调的误码率总是低于包络协调的,但相干解调需要严格的载波恢复和码元定时,使得系统远比包络解调复杂的多。

Pa mu(dBm 10 lg7 NFHdB)+ 10lg8+ SNR. m

其中,为破耳兹曼常数(1.38*102J]k),T为开尔文温度,B为接收机带宽,NF为接收机噪南系数,SNRuu 2为接收机最小输出信噪比,P则为在满足 上述条件下所需的输入信号功奉最小值。在不考虑最小输出信噪比SNR的情况下, 我们常把前三项称为“基底噪声”,用F表示,如下:

Fr(dBm) = 10 lgkT + NF(dB)+ 10lgB

但是很多时候,我们看到的灵敏度却采用如下方程描述:

P in_min(dBm) = - 174(dBm/Hz)+ NF(dB)+ 10 lgB + SNRout_min

其实, 只不过是在式中代入了k与T= 290K而已。而之所以取290 K,乃是地球的平均温度为17°C,正好为290 K。但也有一些文献以25°C为参考,大家算算便知,25°C与17°C的计算误差约为0.12 dB,所以也不必刻意计较到底是17°C还是25°C了。由式可知,提高接收机灵敏度可以从降低系统带宽B和降低系统最小输出信噪比SNRoutmin入手。但这两个参数往往是固定的,不允许改变。因此,降低接收机的噪声系数NF才是提高灵敏度的关键!

相关问答

【RF定义是怎么样的多高频率】作业帮

[最佳回答]就是RadioFrequency,指3Hz到300GHz的电磁波,也有说是射频,能用天线发射的无线电波,即75KHz以上的电波,当然随科技的发展,这个定义也在逐渐的进化...

Rf值是什么?好像是什么色谱分析的吧我们在叶绿素的提取和分...

[最佳回答]Rfvalue写做Rf值.主要是纸上层析法的用词.源自流速(rateofflow).溶剂从原点渗透到距离a(一般在20—30厘米时测定)的时候,如果位于原点的物质从...

全景网中RM和RF分别是什么意思?

是不同图片的授权模式RM、RF、PE是3种不同的图片授权模式,由图片卖家设定,图片买家根据自己的需要来进行选择。这三种模式是图片行业在发展过程中,经过对图...

rf值和rr值有何不同?

RF值和RR值是流行病学中常用的两种风险度量指标,它们在定义和应用上有所不同。RF值,即风险比(RiskRatio),是指暴露组与非暴露组之间某事件发生风险的比值,...

rf是代表快速熔断器吗?

rf代表超高分断能力(限流)。在保险管中,一般都存在快慢断的区别,常常用t/r表示T表示慢熔,r表示快熔,同时和tr一起的还有分断能力,一般L代表低分断能力,M代...

单线图rf什么意思?

单线图在电气工程中通常指的是一种用图形符号简单表示电气设备、装置和线路之间相互关系的图。这种图通常只表示设备或装置的外形轮廓,而不表示其内部结构和细...

佳能RF镜头型号含义解释?

佳能RF镜头型号的含义解释如下:1.视距/焦距:数字表示毫米数,代表镜头的焦距,焦距越大镜头的画幅越小,拍摄距离越远,镜头的视角也更窄;2.光圈:是一个表...佳...

efrf镜头的区别?

rf和ef镜头的区别:ef镜头是单反系统,较长法兰距,44mm,电子接点8个;而rf镜头是专微系统,较短法兰距,20mm,电子接点12个,可以传输更多的信息。rf镜头,可...rf...

如何区分财管中的rm和rm-rf?

财务管理中的RM和RM-RF主要在定义和应用方面存在区别。RM,全称为“Risk-freeRate”,表示无风险报酬率,通常以国库券的报酬率为代表。无风险报酬率是没有任何...

猜你喜欢