libsvm 数据集的不平衡问题

xdp719 2011-05-31 08:54:33

在用svm训练数据集时，出现样本不平衡问题，用smote算法使样本平衡（根据正样本集增加了一些以前不存在的样本作为正样本），即正样本数目等于负样本数目，那么在计算正确率的时候，要不要将增加的以前并不存在的正样本（即smote算法增加的正样本）计算在内呢，求高手解答，谢谢！

...全文

429 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

zhaoliangtsc8 2012-05-30

打赏
举报

回复

果断不算。而且评价性能也不能只用正确率来评价了。问一下楼主，你的smote算法程序是不是C++的。是的话能否给传一份。我的邮箱zhaoliangtsc@yahoo.cn。不胜感激啊！有什么问题可以交流啊。

relaxisland 2011-06-01

打赏
举报

回复

[Quote=引用楼主 xdp719 的回复:]
在用svm训练数据集时，出现样本不平衡问题，用smote算法使样本平衡（根据正样本集增加了一些以前不存在的样本作为正样本），即正样本数目等于负样本数目，那么在计算正确率的时候，要不要将增加的以前并不存在的正样本（即smote算法增加的正样本）计算在内呢，求高手解答，谢谢！
[/Quote]
计算准确率不是应该用另外一组测试数据吗。
新的测试数据的正负样本比例应该是跟你要解决的实际问题的比例是一致。
但是在某类样本的个数占有绝对性优势的情况下，可能计算出的结果不是很明显。
我觉得可以另加2个统计数据，正样本的准确率，跟负样本的准确率
跟不平衡数据训练的svm进行比较，看看正样本的准确率是不是提高了。

这个东西，看文章怎么写吧，要解决的问题的特性吧。

zxfqingtian807 2011-06-01

打赏
举报

回复

不大明白vv

king__xy 2011-06-01

打赏
举报

回复

做了个关于这个的课程设计，各种错误。。。训练的数据各种错

ryfdizuo 2011-05-31

打赏
举报

回复

支持向量机，不懂 up~

libsvm matlab 代码不平衡数据分类的实现，内核空间过采样支持向量机论文这是发表在 IEEE Transactions on Neural Networks and Learning Systems 上的论文的 MATLAB 实现出版日期：2017 年 10 月 10 日 ISSN 信息：印刷 ISSN：2162-237X 电子 ISSN：2162-2388 PubMed ID：29028213 DOI：10.1712010000000000000作者：Josey Mathew、Chee Khiang Pang、Ming Luo、Weng Hoe Leong 标题：在支持向量机的核空间中通过过采样对不平衡数据进行分类为了运行作为上述研究论文的实际实现的 main.m，您需要设置安装在您的 matlab 和 SMOTE 程序中的加权 libsvm，该程序将用于生成合成少数类示例。 --> 打开matlab文件夹，使用文件夹内的readme --> 安装 libsvm-weighted 包 --> 将代码、测试数据集(diabetes.csv) 和 smote 代码放在同一

一个不平衡数据分类的东西，数据来源于UCI数据集中的AREM人体姿态，用于检测二分类的好坏。程序是用NCL+SVM，SVM用的是LIBSVM-3.14的工具箱

图像矩阵matlab代码Breast_cancer_detection 使用预训练模型对图像进行分类以检测癌细胞前提条件： Python2.7 MATLAB（LIBSVM）脾气暴躁的，西皮，斯克莱恩 Tensorflow 1.0 Tflearn BreakHis的数据集位于：Davi Frossard的网页上正在使用VGG-16权重：这是他的干净入门教程：我们尝试预先训练的网络和分类与从头开始的训练。方法1：使用预先训练的VGG-16来获取功能。运行vgg16_cv.py以从BreakHis数据集的每个图像中提取特征。它将为每个图像在同一文件夹中创建一个功能文件运行generate_features.py将所有单个要素文件组合为一个要素矩阵（mat文件）。它还会创建一个单独的目标Mat文件。运行CV_balancing_code.m处理数据不平衡。它输出4个文件：训练数据，训练数据目标，测试数据和测试数据目标使用classifier_code.m和RandomForest_CV.m使用线性SVM，多项式SVM和随机森林对数据进行分类。方法2：运行alexnet.

在处理不平衡的数据集时，如果类不能与给定变量很好地分离，并且我们的目标是获得最佳的准确性，则最佳分类器可以是始终回答多数类的“幼稚”分类器

69,369

社区成员

243,082

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章