通过上一篇文章《人工智能之决策树》,我们确切地告诉决策树(DT)是一类少见的机器学习方法。决策树(DT)在人工智能中所处的方位:人工智能-->机器学习-->监督自学-->决策树。
决策树主要用来解决问题分类和重返问题,但是决策树(DT)不会产生过数值现象,造成一般化能力消退。过数值是创建决策树模型时面对的最重要挑战之一。鉴于决策树更容易过数值的缺点,由美国贝尔实验室大牛们明确提出了使用随机森林(RF)投票机制来提高决策树。
随机森林(RF)则是针对决策树(DT)的过数值问题而明确提出的一种改良方法,而且随机森林(RF)是一个最近较为火的算法。因此有适当对随机森林(RF)不作更进一步探究。^_^随机森林(RF)在人工智能中所处的方位:人工智能-->机器学习-->监督自学-->决策树-->随机森林。
随机森林(RF)所指的是利用多棵树对样本展开训练并预测的一种分类器。该分类器最先由LeoBreiman和AdeleCutler明确提出,并被登记出了商标。那么什么是随机森林?随机森林(RandomForests)是一个包括多个决策树的分类器,并且其输入的类别是由个别树根输入的类别的众数而以定。
LeoBreiman和AdeleCutler发展并假设出有随机森林的算法。随机森林(RF)这个术语是1995年由贝尔实验室的TinKamHo所明确提出的随机决策森林(randomdecisionforests)而来的。这个方法则是融合Breimans的"Bootstrapaggregating"点子和Ho的"randomsubspacemethod"以修建决策树的子集。
通过定义我们告诉,随机森林(RF)要创建了多个决策树(DT),并将它们拆分在一起以取得更加精确和平稳的预测。随机森林的众多优势在于它既可用作分类,也可用作重返问题,这两类问题刚好包含了当前的大多数机器学习系统所必须面临的。随机森林是构建自学的一个子类,它依赖于决策树的投票自由选择来要求最后的分类结果。构建自学通过创建几个模型人组的来解决问题单一预测问题。
构建自学的非常简单原理是分解多个分类器/模型,各自独立国家地自学和做出预测。这些预测最后融合成单预测,因此高于任何一个单分类的作出预测。
随机森林的建构过程:假设N回应训练用例(样本)个数,M回应特征数目,随机森林的建构过程如下:1)输出特征数目m,用作确认决策树上一个节点的决策结果;其中m不应近大于M。2)从N个训练用例(样本)中以有取出取样的方式,采样N次,构成一个训练集,后用并未抽到的用例(样本)不作预测,评估其误差。3)对于每一个节点,随机自由选择m个特征,决策树上每个节点的要求都是基于这些特征确认的。
根据m个特征,计算出来其最佳的分化方式。4)每棵树都会原始茁壮而会剪枝,这有可能开建完了一棵长时间树状分类器后会被使用。5)反复上述步骤,建构另外一棵棵决策树,直到超过预计数目的一群决策树为止,即建构好了随机森林。
其中,复赛变量个数(m)和随机森林中树的个数是最重要参数,对系统的调优十分关键。这些参数在调节随机森林模型的准确性方面也起着至关重要的起到。
科学地用于这些指标,将能明显的提升随机森林模型工作效率。
本文来源:ku游-www.mysimplemedia.com
Copyright © 2009-2023 www.mysimplemedia.com. ku游科技 版权所有 备案号:ICP备29628474号-1