4.1 决策树基本概念

顾名思义,决策树是基于树结构来进行决策的,在网上看到一个例子十分有趣,放在这里正好合适。现想象一位捉急的母亲想要给自己的女娃介绍一个男朋友,于是有了下面的对话:


  1. 女儿:多大年纪了?
  2. 母亲:26
  3. 女儿:长的帅不帅?
  4. 母亲:挺帅的。
  5. 女儿:收入高不?
  6. 母亲:不算很高,中等情况。
  7. 女儿:是公务员不?
  8. 母亲:是,在税务局上班呢。
  9. 女儿:那好,我去见见。

这个女孩的挑剔过程就是一个典型的决策树,即相当于通过年龄、长相、收入和是否公务员将男童鞋分为两个类别:见和不见。假设这个女孩对男人的要求是:30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员,那么使用下图就能很好地表示女孩的决策逻辑(即一颗决策树)。

1.png

在上图的决策树中,决策过程的每一次判定都是对某一属性的“测试”,决策最终结论则对应最终的判定结果。一般一颗决策树包含:一个根节点、若干个内部节点和若干个叶子节点,易知:

  1. * 每个非叶节点表示一个特征属性测试。
  2. * 每个分支代表这个特征属性在某个值域上的输出。
  3. * 每个叶子节点存放一个类别。
  4. * 每个节点包含的样本集合通过属性测试被划分到子节点中,根节点包含样本全集。