IBM SPSS Modeler随机森林算法介绍-控件新闻-慧都网

IBM SPSS Modeler随机森林算法介绍

原创|行业资讯|编辑：陈俊吉|2016-11-17 16:12:03.000|阅读 4329 次

概述：在之前的文章《Bagging 或Boosting让你的模型更加优化》中，我们介绍了可以通过Bagging或Boosting技术，使得模型更加稳定和准确率更高，那么今天要介绍的随机森林算法，本身的算法逻辑已经使用了Bagging技术，来构建多棵树，最终实现构建“森林”的目的。

# 界面/图表报表/文档/IDE等千款热门软控件火热销售中 >>

相关链接：

在之前的文章《Bagging 或Boosting让你的模型更加优化》中，我们介绍了可以通过Bagging或Boosting技术，使得模型更加稳定和准确率更高，那么今天要介绍的随机森林算法，本身的算法逻辑已经使用了Bagging技术，来构建多棵树，最终实现构建“森林”的目的。

首先我们先来了解下这个算法，记住几个要点就可以：

1.在IBM SPSS Modeler中，随机森林构建的每棵树，使用的算法是C&RT，关于C&RT算法的介绍可以参考之前的文章《IBM SPSS Modeler算法系列------C&R Tree算法介绍》；

2.使用Bagging,每构建一棵树，都是通过随机选择样本数据来构建（有放回的）；

3.除了使用Bagging技术，对使用的输入指标，也随机选择。比如说一共有20个输入指标，每选完一次样本数据后，会再随机选择其中的10个指标来构建树。

4.最终的预测结果，会综合前面构建的决策树通过投票的方式得到最终的预测结果，如果是数值型的预测，则是取平均值做为最终的预测结果。

5.在IBM SPSS Modeler中，随机森林算法不仅支持传统的关系型数据库，比如DB2、Oracle、SQL Server等通过ODBC可连接的数据库，也支持Haoop分布式架构的数据，它可以生成MapReduce或者Spark，放到Hadoop平台上去执行，从而提升整个计算效率。

那么接下来，我们来看下在IBM SPSS Modeler的随机森林算法实现客户的流失预测，能给我们呈现出什么样的结果。

首先，我们创建数据流文件，如下图：

Step1:连接数据源Excel文件，文件内容如下：

Step2:类型节点设置影响因素及目标，如下图：

Step3:选择随机森林算法，并使用默认参数设置生成模型。

该面板主要涉及到模型构建和树增长两方面的参数，包括以下内容：

构建的模型数量：即构建多少棵树；
样本大小：是每次随机选择的样本占原来的百分比，如果是1的话，代表每次选择的样本数据与原来的数据量一样，如果是0.9，则选择原来的数据量的90%作为的样本数据，在处理大数据集时，减少样本大小可以提高性能。
是否需要处理不平衡数据：如果模型的目标是标志结果（例如，流失或不流失）比率很小，那么数据是不平衡数据并且模型所执行的 Bootstrap 采样可能会影响模型精确性。要提高准确性，请选中此复选框；模型随后会捕获所需结果中的更大比例部分并生成更好的模型。
使用加权采样选择变量：缺省情况下，每个叶节点的变量是使用同一概率随机选择的。要将加权用于变量并改进选择过程，请选中此复选框。
最大节点数：指定允许各个树中存在的最大叶节点数。如果下一次分割时将超过此数字，那么树增长将在进行拆分之前停止。
最大树深度：指定根节点下方的最大叶节点级别数；即，样本进行递归拆分的次数。
最小子节点大小：指定拆分父节点之后必须包含在子节点中的最小记录数。如果子节点包含的记录数少于您输入的数目，那么不会拆分父节点。
指定要用于拆分的最小预测变量数：如果是构建拆分模型，请设置要用于构建每个拆分的最小预测变量数。这防止拆分创建过小的子组。
当准确性无法再提高时停止构建：要改进模型构建时间，请选择此选项，以在结果的准确性无法提高时停止模型构建过程。

在高级面板中，考虑到对样本数据选择的质量要求，该算法也涵盖了数据准备的内容。