NXP产品应用

rf算法 数据科学之机器学习子篇——什么是RF

小编 2024-10-06 NXP产品应用 23 0

数据科学之机器学习子篇——什么是RF

“做一个善于倾听的人,鼓励别人多谈谈自己” -- 《人性的弱点》

今天我就给大家来简单的介绍一下RF。全文分为三个部分:一、RF的概念介绍;二、RF的有缺点;三、RF为什么要进行有放回抽样?

一、RF的概念介绍

RF是Random Forest的简称,中文随机森林。

今天我就给大家来简单的介绍一下RF。

作为新兴起的、高度灵活的一种机器学习算法,RF拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最近几年的国内外大赛,包括2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛,参赛者对RF的使用占有相当高的比例。此外,据小白的个人了解来看,一大部分成功进入答辩的队伍也都选择了RF或者 GBDT算法(怎么样?吃透了GBDT,是不是搞定机器学习70%的工作)。所以可以看出,RF在准确率方面还是相当有优势的。

  那说了这么多,那RF到底是怎样的一种算法呢?

  RF就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。RF的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”我们很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,这样的比喻还是很贴切的,其实这也是随机森林的主要思想--集成思想的体现。“随机”的含义实际上表述了一种样本选择的策略,后续会有详细介绍。

其实从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而RF集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的 Bagging 思想。

二、RF的有缺点

优点 :

1、 几乎不需要输入准备.它们可以处理二元特征,分类特征,数字特征,并且不需要任何缩放处理.

2、 在当前所有算法中,具有极好的准确率;

3、 能够有效地运行在大数据集上;

4、 能够处理具有高维特征的输入样本,而且不需要降维;

5、 能够评估各个特征在分类问题上的重要性;

6、 在生成过程中,能够获取到内部生成误差的一种无偏估计;

7、 对于缺省值问题也能够获得很好得结果;

8、 可实现隐式特征选择,并且提供一个很好的特征重要性指标;

9、 通用性;随机森林适用于各种各样的建模工作,它们可以很好的处理回归任务和分类任务(甚至产生体面的校正的概率分数),它就相当于机器学习领域的Leatherman(多面手),你几乎可以把任何东西扔进去,它基本上都是可供使用的.在估计推断映射方面特别好用,以致都不需要像SVM那样做很多参数的调试.

缺点:

1、 随机森林的主要劣势在于模型大小.你可能需要数百兆的内存才能轻松地结束一个森林,而且评估的速度也很慢.

2、 另外一点,有些人可能会发现一个问题,也就是随机森林模型其实是个很难去解释的黑盒子.

三、RF 为什么要有放回地抽样:

如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样每棵树都是"有偏的",都是绝对"片面的",也就是说每棵树训练出来都是有很大的差异的;而随机森林最后分类取决于多棵树(弱分类器)的投票表决,这种表决应该是"求同",因此使用完全不同的训练集来训练每棵树这样对最终分类结果是没有帮助的

1)如果每个样本的特征维度为M,指定一个常数m<<M,随机地从M个特征中选取m个特征子集,每次树进行分裂时,从这m个特征中选择最优的;

2) 每棵树都尽最大程度的生长,并且没有剪枝过程.

RF中的“随机”就是指的这里的两个随机性.两个随机性的引入对随机森林的分类性能至关重要.由于它们的引入,使得RF不容易陷入过拟合,并且具有很好得抗噪能力(比如:对缺省值不敏感).

RF分类效果(错误率)与两个因素有关:

1)森林中任意两棵树的相关性:相关性越大,错误率越大;

2)森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低.

减小特征选择个数m,树的相关性和分类能力也会相应的降低;增大m,两者也会随之增大.所以关键问题是如何选择最优的m(或者是范围),这也是RF唯一的一个参数。

随机森林

版权申明:本文为数据科学小白原创文章,授权头条号发表,转载请注明出处。

参考文献:

1、百度百科

RF超长焦打鸟神器,佳能RF600mm&RF800mm试用

以往,想要拥有一支平价且轻便的超长焦镜头,是一件非常困难的事情。佳能在今年发布了EOS R5的同时,还一并发布了RF600mm F11 IS STM与RF800mm F11 IS STM,不仅价格亲民,还拥有不错的便携性,那么这两支镜头是否值得购买呢?让我们试一下才知道。

首先给大家展示的是RF600mm F11 IS STM,廉价的600mm镜头对于摄影爱好者而言相对还比较容易入手。无论是购买副厂100-400mm加1.4倍增距镜,又或者直接购买150-600mm,再或者购买EF 400mm F5.6L再加1.4倍增距镜,都可以实现600mm的超长焦拍摄。但RF600mm F11 IS STM的重量仅有930克,并且官方RF600mm F11 IS STM 镜头 + 镜头遮光罩ET-88B预售只要5,298元,即使便宜如副厂100-400mm也在价格和重量这两方面丝毫不占优势。

大家都知道100-400mm在使用了1.4倍增距镜后画质会有一定的下降,那么RF600mm F11 IS STM的画质又能够达到何种水平呢?我们祭出佳能EOS R5,看看这支镜头能否有不错的表现。

ISO:1000 焦距:600mm 快门速度:1/640s 光圈:F11

画面中央100%截图

画面边缘100%截图

同样的,近摄时的锐度也相当出色,所以对于一些花草的拍摄,这支镜头也可以做到。

ISO:1600 焦距:600mm 快门速度:1/2500s 光圈:F11

分毫毕现的细节表现

对于拍摄荷花,600mm这个焦段堪称“神器”,轻松拍荷花不是梦。同时RF600mm F11 IS STM虽然只有F11的光圈,但依然提供了还算不错的背景虚化能力,让画面有明显的虚实变化。

ISO:2000 焦距:600mm 快门速度:1/2500s 光圈:F11,有调色

在拍摄中我发现,佳能EOS R5对于微小物体的自动对焦跟踪算法非常的灵敏,即使是一只蜜蜂,也可以迅速的识别出来,并且进行跟踪对焦。我相信很多朋友拍摄过蜜蜂,对于正在空中飞行的蜜蜂大家都比较无能为力,而在这次拍摄中,EOS R5+RF600mm F11 IS STM多次准确对在空中飞行的蜜蜂进行对焦,并让我拍摄到了好多张不错的照片。

ISO:1600 焦距:600mm 快门速度:1/1000s 光圈:F11,有裁切

焦点处放大效果

ISO:2000 焦距:600mm 快门速度:1/640s 光圈:F11,有调色

做为一支平价超长焦镜头,我认为RF600mm F11 IS STM不止能够拍花打鸟,由于它体积适中,重量极轻,直接手持拍摄一些城市细节也是极好的。毕竟很多人看到不少超广角的大场景,总是有点“审美疲劳”,那么带上这支不足一公斤的镜头拍摄,可能会拍摄到一些不错的画面。

ISO:3200 焦距:600mm 快门速度:1/25s 光圈:F11

ISO:2000 焦距:600mm 快门速度:1/800s 光圈:F11

对于打鸟来说,虽然600mm已经足够的长,然后我换成了RF800mm F11 IS STM后,又让拍摄质量再提升一个档次。拍摄过体育和鸟类的朋友应该知道,在这几块领域,焦段越长出片数量就越低,但质量也会随之提高。接下来我们就来看看RF800mm F11 IS STM拍摄的一些外滩“打鸟”样片。

ISO:1250 焦距:800mm 快门速度:1/1600s 光圈:F11

ISO:1000 焦距:800mm 快门速度:1/1250s 光圈:F11

首先,不得不称赞一下佳能EOS R5的连续对焦性能,对于空中飞行的鸟类,能够轻松进行识别,并准确跟焦。搭配上20张/秒的电子快门连拍,拍摄成功率非常的惊人。

ISO:800 焦距:800mm 快门速度:1/1250s 光圈:F11

同样的,佳能EOSR5加上RF800mm F11 IS STM出色的光学素质,细节相当丰富。即使进行二次裁切重新构图,依然有大量的冗余量。实话实说,RF800mm F11 IS STM 镜头 +镜头遮光罩ET-101官方预售价格6,798,真是超值的不行。

ISO:2000 焦距:800mm 快门速度:1/1250s 光圈:F11

焦点处放大效果

除了打鸟之外,我也带着这支镜头来到了城市制高点,拍摄了一些作品,让大家对800mm焦段有个更加深入的理解。

ISO:100 焦距:15mm 快门速度:1s 光圈:F2.8

这是一张我使用佳能EOS R5+RF15-35mm F2.8 L IS USM手持1秒拍摄的画面,那么800mm是不是就拍个陆家嘴的特写呢?不,它比你想象中的更长!

ISO:100 焦距:800mm 快门速度:2.5s 光圈:F11

我们再来换个场景,来到虹口区北外滩最高楼的停机坪上,这也是使用佳能EOS R5+RF15-35mm F2.8 L IS USM手持拍摄的。

ISO:800 焦距:28mm 快门速度:1/6s 光圈:F2.8

而在这里能够拿RF800mmF11 IS STM能拍到什么样的画面?我们可以拍到云层上的上海中心屋顶。

ISO:1250 焦距:800mm 快门速度:1/250s 光圈:F11

我们能拍到从吴淞口码头方向初升的太阳

ISO:2500 焦距:800mm 快门速度:1/1000s 光圈:F11

我们能拍到远处正在进行航拍的大疆,飞行机背后的大桥是连接崇明岛的上海长江大桥。这座大桥在我们30公里之外,大家可以感受一下800mm是多么的夸张。

ISO:2500 焦距:800mm 快门速度:1/1000s 光圈:F11

换个方向,我们还可以直接拍到距离拍摄地17公里开外的上海虹桥国际机场,停机坪上停着几架东航航班。

ISO:1000 焦距:800mm 快门速度:1/200s 光圈:F11,有裁切

当然我们也能拍摄同在停机坪另一端的小伙伴。所以只要你有一双发现画面的眼睛, RF800mm F11 IS STM不止是“打鸟神器”。

ISO:1000 焦距:800mm 快门速度:1/8000s 光圈:F11

相对于600mm,800mm更加具备“稀缺性”,能够实现入门级800mm的解决方案(400mm变焦镜头+2倍增距镜或者600mm变焦镜头+1.4倍增距镜),基本上都需要7000以上的资金和3斤以上的重量,同时画质还会相当糟糕。而RF800mm F11 IS STM只需要6,798元,就可以拥有这样一支仅有1260克的超超长焦镜头。

总的来说,这两支镜头在各自焦段下同时刷新了最小体积,最轻重量以及最低价格的三项纪录,同时还有相当亮眼的画质表现。对于那些希望入手一支轻便入门超长焦的佳能RF系统用户,无疑是目前最佳选择。

相关问答

RF 是什么 算法 ?

RF算法由LeoBreiman等于2001年提出,具有稳定性强、分类准确度高的优点,其训练集在Bootstrap重采样的过程下随机产生,且内部决策树选取属性时也是随机的...

操作系统中的HRRF是什么调度 算法 - 小红薯745EADF4 的回答 -...

操作系统的常见调度算法有哪些啊?ABCDE五进程达间别01234服务间43524要求按高响应比优先调度算求平均带权周转间操作系统的常见调度算法有哪些啊?A...

ota测试的基本原理?

RF传导测试,是通过射频线将DUT直连到测试仪表的连接方式实现,如果有测试仪表就较容易实现。而OTA测试,是通过“overtheair”方式实现与测试仪表连接,...RF...

有谁知道:wms自动拣货系统功能都有哪些?知道的请回答

[回答]库存管理:WMS系统支持自动补货,通过自动补货算法,不仅确保了拣选面存货量,也能提高仓储空间利用率,降低货位蜂窝化现象出现的概率。WMS系统可通过...

轨道物流系统有哪几项有经验的都说说谁帮忙回答一下!!物流...

[回答]1、wms仓储管理系统通过入库业务、出库业务、仓库调拨、库存调拨等功能,综合批次管理、商品对应、库存盘点、质检管理和即时库存管理等功能的综合运...

网络安全都学什么?

你好。对于所提问的,我身边正好有两位朋友,工作前学的就是网络安全。我刚刚也和他们简单聊了一些相关的话题,也自己去了解了一些。如果你想学习相关知识,网...(...

长远来看,佳能、尼康、索尼,哪个品牌能走得更远?

佳能用户,十年单反拍摄经历,尼康和索尼也把玩过,谈谈个人看法。摄影器材领域正在经历重大转变,相机已从笨重的数码单反相机突变为小巧灵活的微单/无反相机,...

卫星运行参量的比较与运算?

1.数据来源:确保所使用的卫星运行参量数据来源可靠、准确。可以利用国际地球自转参考系统(ITRF)提供的全球参考框架来获得相对准确的地球参考系卫星轨道数据...

自由现金流折现模型的折现率是怎么确定的?

Rf为无风险收益率,一般可参照长期如10年国债收益率,这个在网上就可以查到。Rm一般为行业的平均收益率,这个可参照一组同行业的上市公司,平均的收益率,在股...应...

python AI入门或进阶,有什么好的培训机构或学习途径吗?

锋python率先覆盖所有类型数据库,传授学生包括mysql、redis和mongdb数据库最全最新数据库知识。推出最贴近企业实战的机器学习案例,例如人脸识别,手写数字...如...

猜你喜欢