以使用UserClassifier分类器建立决策树为例,进一步了解分类器。
1、打开Explorer界面,选择数据集segment-challenge.arff。
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiAzNfRHLGZkRGZkRfJ3bs92YsYTMfVmepNHL9EFWaVXNpJ2aONTW1NmMiNnStxEbahVYtpEWadnSYl1b5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnLxAzN3MTNxIjM5EDMxkTMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
这是一个比较复杂的关于图像分析的数据集。
详情请看:https://blog.csdn.net/qq_42752823/article/details/102643706
2、打开classify面板,选择UserClassifier分类器。
若无此分类器,至Tools->package manager下载即可。
3、选择测试集segment-test.arff。
4、点击close。
5、点击start开始分类,将弹出一个含2个面板的可视化窗口。选择数据可视化面板。
树的可视化:
数据可视化:
6、如图选择region-centroid-row(Num)为x轴,intensity-mean(Num)为y轴。
7、使用合适的形状选择较整齐的数据点。
以使用矩形为例:
(1)选择矩形。
(2)选择整齐的数据点。这里我先选择了紫色的数据点(path)。
(3)点击submit,提交数据。紫色的数据点(sky)消失了。
(4)此时再查看树可视化面板,不难看出节点得到了细化。
观察左节点,刚刚提交的数据点共238个,分别是233个path节点,3个cement节点和2个grass节点。
(5)循环执行步骤1-3,进一步细化树的节点。同时,还可改变x轴、y轴/选择其他形状(线段、多边形)进行节点细化。
(6)对树满意后,右键选择accept the tree接受树。
(7)最终得到了一个正确率为78.1481%的分类结果。
思考
此方法尝试了实例空间的不同区域,找了纯度最高即数据点最整齐的区域进行覆盖,从而建立纯度最高的分支。这是由底至上的方法。
而J48创建树时是用整个数据集来划分,在最顶端,将数据集一分为二,每次将剩下的一半数据构建成最优化的树形。这是由顶至下的方法。
因此J48创建的树比用UserClassifier分类器创建的更好。