急急～～在决策树中关于算Gain 的问题

randomblbl 2008-03-03 01:36:19

我要把3种花分类（A类花，B类花,C类花），4个属性：
如下：开始是三种花各有50个；
花瓣长度
小于等于3.2 / \ 大于3.2
/ \
结果： A类：20个 A类：30个
B：40个 B： 10个
C：40个 C： 10个

因为是分出来之后是3种，就不知道怎么算了。
在这里怎么算gain啊？

...全文

108 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

randomblbl 2008-03-03

打赏
举报

就是训练集数据中 50个A类，50个是B类，50个是c 类，四个属性是花瓣长度，宽度，花枝长度，叶子宽度。

样本数据为

例如；花瓣长度，宽度，花枝长度，叶子宽度，类型
2.4 0.2 5.0 0.6 A
2.9 0.3 5.1 0.4 A
3.8 0.6 4.2 0.2 B
..........

我先只取了一个属性去分类，求出信息增益度（Gain），但是不知道我求的对不对。～～·

帮忙啊～～～～～～～～～～

dubiousway 2008-03-03

打赏
举报

什么是gain 啊？那4个属性和gain 什么关系？也没看到什么4个属性啊，你的Gain 公式又是怎么回事啊。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。 lz, 俺都不明白

liufangbj 2008-03-03

打赏
举报

没有明白楼主的题目

randomblbl 2008-03-03

打赏
举报

Gain= I(花瓣长度)-100/150*I(左孩子)-50/150*I(右孩子)
I(花瓣长度)= -( 1/3*log2(1/3) + 1/3*log2(1/3) + 1/3*log2(1/3) )
I(左孩子)= -(20/100*log2(20/100) + 40/100*log2(40/100) + 40/100*log2(40/100))
I(右孩子)= -(30/50*log2(30/50) + 10/50*log2(10/50) + 10/50*log2(10/50))

这样对不对啊？

划分选择的各种准则虽然对决策树的尺寸有较大影响，但对泛化性能的影响很有限；如果剪枝后的树>未剪枝的树则剪枝，否则不剪，当正确率相等时不做操作，一方面是防止欠拟合，一方面是剪枝也会有一定的开销。（2）若某一个类别比其他类别多，则该结点为该类别，如结点中的样本“好瓜”>“坏瓜”，则该结点为好瓜。（3）若所有类别样本数一样，或为空集，则取其父节点的类别作为该结点的类别。（1）若全为一个类别，则该结点为该类别，如全为“好瓜”，则该结点为好瓜。有属性，但是在属性上划分的结果都一样。（1）结点包含样本全为同一类别。

该楼层疑似违规已被系统折叠隐藏此楼查看此楼代码如下：# # C50# #训练集mydatamydata str(mydata)summary(mydata)table(mydata$y)set.seed(123)data1data2data1_traindata2_traind1d2mdtraind1_testd2_testmdtest#基于数据训练模型library(C50)md_modelm...

最近在各种测试redis的时候，发现主从同步的时候主会bgsave rdb文件，然后把rdb网络发送给从，就在这个过程中，如果主触发了save rdb条件，主会重新生成rdb文件覆盖正在网络上传输的原来rdb文件，可是经过我测试，主从正在传输并没有受影响。后来观察发现在主做bgsave的时候会多占用 rdb大小的内存，磁盘也会多占用rdb大小的空间也就是说当前主从正在传的