机器学习——决策树和随机森林

2023-04-16 07:20:43

决策树：从根节点开始一步步走到叶子节点（决策），所有的数据最终都会落到叶子节点，既可以做分类也可以做回归

机器学习——决策树和随机森林

决策树思想，实际上就是寻找最纯净的划分方法，这个最纯净在数学上叫纯度，纯度通俗点理解就是目标变量要分得足够开（y=1的和y=0的混到一起就会不纯）。另一种理解是分类误差率的一种衡量。实际决策树算法往往用到的是，纯度的另一面也即不纯度，下面是不纯度的公式。不纯度的选取有多种方法，每种方法也就形成了不同的决策树方法，比如ID3算法使用信息增益作为不纯度；C4.5算法使用信息增益率作为不纯度；CART算法使用基尼系数作为不纯度。

树的组成

根节点：第一个选择点

非叶子节点与分支：中间过程

叶子节点：最终的决策结果

机器学习——决策树和随机森林

决策树的衡量标准——熵

熵：熵是表示随机变量不确定性的度量（解释：说白了就是物体内部的混乱程度，比如杂货市场里面什么都有

那肯定混乱呀，专卖店里面只卖一个牌子的那就稳定多啦）

机器学习——决策树和随机森林

我们在学习决策树的时候——如何决策一个节点的选择呢？

信息增益：表示特征X使得类Y的不确定性减少的程度。（分类后的专一性，希望分类后的结果是同类在一起）

机器学习——决策树和随机森林

决策树剪枝策略

为什么要剪枝：决策树过拟合风险很大，理论上可以完全分得开数据（想象一下，如果树足够庞大，每个叶子节点不就一个数据了嘛）

剪枝策略：预剪枝，后剪枝

预剪枝：边建立决策树边进行剪枝的操作（更实用）

后剪枝：当建立完决策树后来进行剪枝操作

集成算法：

机器学习——决策树和随机森林

Bagging模型

全称： bootstrap aggregation（说白了就是并行训练一堆分类器）

最典型的代表就是随机森林啦

森林：很多个决策树并行放在一起

随机：数据采样随机，特征选择随机

机器学习——决策树和随机森林

随机森林——构造树模型

机器学习——决策树和随机森林

随机森林优势

它能够处理很高维度（feature很多）的数据，并且不用做特征选择

在训练完后，它能够给出哪些feature比较重要

可以进行可视化展示，便于分析

容易做成并行化方法，速度比较快

机器学习——决策树和随机森林

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

【分类算法】什么是分类算法定义分类与聚类分类过程方法

分类算法的评价指标

K-近邻算法以及图像分类应用

weka之NB算法

使用weka的select attribute

weka中分类器算法

在weka中集成自己的算法

【多变量线性回归】学习记录序思路实现终

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告