为什么要讲和学习决策树呢?主要是决策树(包括随机森林算法)不需要数据的预处理。现实世界的数据往往“脏乱差”,决策树让你在数据准备上可以少花很多功夫,快速上手,用起来非常的“省心”。总之,决策树是机器学习领域里最直观易懂、解释性最强、应用最广泛的基础模型之一,学会它,你就掌握了一把打开预测分析大门、理解更高级模型的金钥匙。
下面开始我们的学习吧。
目录
一、什么是决策树
二、具体程序与不同参数运行效果对比
三、小结与建议
一、什么是决策树
决策树是一种在分类与回归中都有非常广泛应用的算法。它的原理是通过对一系列问题进行if/else 的推导,最终实现决策。学过C语言的知道,if/else使用来做判断的,决策树就是对样本数据特征做一些列的判断来实现决策的。
举个例子: 假设要识别斯嘉丽· 约翰逊、泰勒斯威夫特、吴彦祖、威尔·史密斯4 个人中的一个,则决策树的判断流程为:
上图中最终的4 个节点,也就是4 个人物的名字,被称为决策树的树叶。例子中的这棵决策树只有4 片树叶,所以通过手动的方式就可以进行建模。但是如果样本的特征特别多, 就不得不使用机器学习的办法来进行建模了。