求助:weka的J48(C4.5)分类的结果分析 [问题点数:40分]

Bbs1
本版专家分:0
结帖率 94.44%
Bbs1
本版专家分:0
Weka分类---J48
利用iris数据集用<em>weka</em>只带的J48训练<em>分类</em>器详细见程序注释package <em>weka</em>Test;import <em>weka</em>.classifiers.meta.FilteredClassifier; import <em>weka</em>.classifiers.trees.J48; import <em>weka</em>.core.Instances; import <em>weka</em>.core.converters.ConverterUti
C4.5(weka又称为J48)算法原理详解
C4.5(<em>weka</em>又称为J48)算法原理详解1. 信息增益率ID3算法有以下几个缺点: + 1个属性取值越多,则此属性的信息增益率越大,越有可能被ID3选为当前<em>分类</em>属性。然而取值较多的属性并不一定最优。(例如一个属性的每个子节点都只有1个样本,此时信息增益率达到最大,但是用这样的属性却没有任何意义) ID3只能处理离散型属性 可以处理缺失数据 可以对树进行剪枝 针对ID3算法的不足,Quinlan
weka J48决策树学习
Weka为一个Java基础上的机器学习工具,上手简单,并提供图形化界面,提供如<em>分类</em>、聚类、频繁项挖掘等工具,本篇文章主要写一下<em>分类</em>器算法中的J48算法及其实现。 一、算法 J48是基于C4.5实现的决策树算法,对于C4.5算法相关资料太多了,笔者在这里转载一部分(来源:http://blog.csdn.net/zjd950131/article/details/802708
Weka算法Classifier-tree-J48源码分析(四)总结
Weka算法Classifier-tree-J48源码<em>分析</em>(四)总结
机器学习:WEKA的应用之 J48(C4.5)
对于机器学习<em>分类</em>问题的解决方法除了SVM(支持向量机)、maxent(最大熵)还有J48和Adaboost,这两项工具箱都有集成在<em>weka</em>里,下面先说一下对J48即C4.5的应用nnnnn<em>weka</em>的下载与安装n什么是J48(C4.5)n<em>weka</em>中J48(C4.5)的应用nnnnnnn一、<em>weka</em>的下载与安装nnnn下载地址:<em>weka</em>下载地址(SourceForge) 我用的是win7的32位系统,
Weka c4.5 决策树 j48源码 解析(一)
<em>weka</em>是一个java的机器学习库,官网 n这篇文章是搭建阅读<em>weka</em>源码环境的过程。想直接看源码<em>分析</em>的可以跳过。 n工具:Eclipse Java EE IDE for Web Developers.Version: Mars.2 Release (4.5.2)n在Eclipse中新建一个maven项目,如图,接下来有好几个下一步,这个比较随意,可以自己看着填,也可以上网搜索其他参考。 n使用ma
weka使用ID3和C4.5算法 分类实验
使用<em>weka</em>做<em>分类</em>任务并建立相应决策树(ID3算法和C4.5算法)n<em>weka</em>安装 n相关知识理论 n 2.1 决策树 n 2.2 ID3算法 n 2.3 C4.5算法 n<em>分类</em>实验 n 3.1 数据处理 n 3.2 使用ID3算法 n 3.3 使用C4.5算法 n 3.4 ID3和C4.5的比较 n总结n1.<em>weka</em>安装 n <em>weka</em>官网Download地址: n https://w
weka J48 demo代码
决策树J48的demo代码,对自带的数据集进行<em>分类</em>
weka3.7数据的类型已改,J48算法没法点亮
-
thinkpad X200 刷BIOS 官方BIOS[6duj48us].exe 分离出来的bios.wph
使用EXFILE分离出来的bios.wph
Weka J48决策树算法(C4.5)源码学习
http://<em>weka</em>.wikispaces.com/Subversion J48 C4.5决策树算法源码学习  TODO: J48 的<em>分类</em>效率<em>分析</em>。 题记: 之前虽然对 J48 用得比较多,是由于它能方便的区别特征的好坏。 工作了,希望自己能更深入, 如是开始了这个算法学习系列。 希望和大家共同进步。 个人对看算法源代码也没有很好的流程,计划先采用 按类Class 做架构
J48源代码介绍
Weka开发 —J48源代码介绍 这次介绍一下J48的源码,<em>分析</em>J48的源码似乎真还是有用的,同学改造J48写过VFDT,我自己用J48进行特征选择(当然很失败)。 J48的buildClassfier函数: public voidbuildClassifier(Instances instances)throws Exception {     M
使用Weka进行数据挖掘(Weka教程八)Weka分类评价Evaluation输出分析
Weka提供了多种多样的评价指标,为了让大家更清楚,降低学习时间,在这篇文章中我将<em>分析</em>ROC/AUC/F1/recall/precision/MCC/PRC
数据挖掘weka使用C4.5实验报告
本实验报告为数据挖掘课程<em>weka</em>工具使用C4.5算法进行决策树<em>分类</em>学习的一次实验报告,使用<em>weka</em>工具的图形界面,对UCI上下载的数据集进行<em>分类</em>测试。
使用Weka进行数据挖掘(Weka教程七)Weka分类/预测模型构建与评价
如何使用Weka进行数据<em>分类</em>,模型学习和构建,模型评价与预测
weka的uci数据
常见的数据。用于进行数据<em>分析</em>。 Weka datasets - A jarfile containing 37 classification problems, originally obtained from the UCI repository
Weka应用总结
一. 引入本文是我学习《数据挖掘与机器学习–WEKA应用技术与实践》的笔记。该书电子版的链接是:http://download.csdn.net/detail/fhb292262794/8759397全书简单说明了机器学习的<em>分类</em>、聚类、关联的算法原理及实践,在高级应用中说明了贝叶斯网络、神经网络的原理及简单实例应用,还给出了Java Api调用WEKA接口的方法。总体而言该书比较详实,有理论有实践,
WEKA结果解读
rn红括号里面,左边是bad的数目,右边是good数目。rn                           TP Rate   FP Rate   Precision   Recall  F-Measure  ROC Area  Classrn                           0.536       0.185       0.712        0.536     0...
决策分类算法-C4.5算法原理
与ID3的不同之处:n(1)分支指标采用增益比例,而不是ID3所使用的信息增益;n(2)按照数值属性值的大小对样本排序,从中选择一个分割点,划分数值属性的取值区间,从而将ID3的处理能力扩充到数值属性上来。n(3)将训练样本集中的位置属性值用最常用的值代替,或者用该属性所有取值的平均值代替,从而处理缺少属性值的训练样本。n(4)使用k次迭代交叉验证,评估模型的优劣程度n(5)根据生成的决
weka之对id3实现可视化
参照J48,添加两个变量 /*the node's id*/n private int m_id;n //static count to assign the idsn private static int ms_count=0;添加构造函数 public Id3Visualise() n {n m_id=ms_count++;n }n继承Drawable接口
weka分类决策树用echart进行web可视化
public static void main(String[] args) {n String data = "digraph J48Tree {\n" +n "N0 [label=\"PVC烤箱(七点)\" ]\n" +n "N0-&gt;N1 [label=\"&lt;= 212.1\"]\n" +n "N1 [label=\"合格 (1975....
weka简单实例
1.交叉验证J48rn设置流以加载ARFF文件(批处理模式),并使用J48(WEKA的C4.5实现)执行交叉验证。rnrnrn•单击DataSources选项卡,从工具栏中选择ArffLoader(鼠标指针将变为十字线)。rn•接下来,通过单击布局上的某处(ArffLoader图标的副本将出现在布局区域上),将ArffLoader组件放置在布局区域上。rn•下一个指定要加载的ARFF文件,首先右键
Weka初体验——中文文本分类
最近在公司实习做电商评论相关的数据<em>分析</em>,需要调几个<em>分类</em>器,组里的代码一贯用Java编写,为了提高工作效率,找了找Java环境下的机器学习工具库,发现了Weka这个神奇的东西。Weka介绍及下载n Weka是一个Java编写的具有10几年历史的开源机器学习与数据挖掘软件,曾获得SIGKDD颁发的数据挖掘领域内最高服务奖。n上面这张图就是Weka的主页面,GUI做得很简陋,但它的功能的确非常强大。而且
weka中ID3算法及可视化
<em>weka</em>中ID3算法及可视化n最近看西瓜书看到决策树,想把数据集拿过来跑跑,具体我在博客中写了。但是遇到一个问题就是新版本<em>weka</em>(我用的是3.7.11和3.8.1)中均不再提供ID3算法,可能确实是ID3算法缺点太过明显,这个不在我们的讨论之内。但是对于初学者拿来练手了解原理还是蛮好的,找了好久终于在<em>weka</em>中找到了ID3算法,就是通过<em>weka</em>的Tools->packagen manager
决策树ID3及C4.5算法实现源代码
机器学习,决策树ID3及C4.5算法实现源代码(西瓜数据集2.0测试及<em>结果</em>)
R语言与网站分析 第7章分类指…
7章<em>分类</em>指标建模:<em>分类</em><em>分析</em>n      n决策树分裂    n第7章<em>分类</em>指标建模:<em>分类</em><em>分析</em>" TITLE="R语言与网站<em>分析</em> 第7章<em>分类</em>指标建模:<em>分类</em><em>分析</em>" />nnn信息增益:信息熵;信息增益ngain(X)=info(S)-info1(S)=熵-条件熵nCART算法:二分支,Gini系数  nC4.5:多分支,连续/离散变量,信息增益比率(info gain ratio)n  nC4.5如何
weka 建立回归模型并输出打分结果
例子是从数据库中读取数据,并拆分成建模数据,测试数据,建立多层感知器模型,并对测试数据进行打分,输出打分<em>结果</em>nnpackage <em>weka</em>.regression;nnimport java.io.File;nnimport org.apache.commons.compress.utils.IOUtils;nimport org.apache.commons.io.FileUtils;nnimpor...
Weka 常用分类算法效果比较
本实验是福建矿产分布<em>分类</em>识别实验,使用常用的<em>weka</em> <em>分类</em>识别算法,第一组实验只使用数据中的数值型数据,第二组实验在数值型特征基础上加上了标称属性<em>分类</em>。
Weka数据挖掘——分类
定义:rn<em>分类</em>就是得到一个函数或<em>分类</em>模型(即<em>分类</em>器),通过<em>分类</em>器将未知类别的数据对象映射到某个给定的类别。rnrnrn1. 数据<em>分类</em>可以分为两步rnrn第一步建立模型,通过<em>分析</em>由属性描述的数据集,来建立反映其特性的模型。该步骤也称为是有监督的学习,基于训练集而到处模型,训练集合是已知类别标签的数据对象。rn第二步使用模型对数据对象inxing<em>分类</em>。首先评估对象<em>分类</em>的准确度或者其他指标,如果可以接受
【大数据部落】r、 weka从决策树模型看员工为什么离职?
原文链接:https://www.cnblogs.com/tecdat/p/11096823.htmlnnnnnn马云说:“员工离职的原因总是只有两个:钱,没有到位;心委屈了。”nn现在很多老板都抱怨说,年轻人的流动率太高了,员工觉得老板的钱太少了,最后还是多指责。nn为什么我们最好和最有经验的员工过早离职?nn到底如何解决这个困境? 拓端数据tecdat使用数据<em>分析</em>员工离开的原因,希望能从中找...
weka J48算法源码
<em>weka</em> J48算法源码 数据挖掘 Java <em>weka</em> J48算法源码 数据挖掘
机器学习笔记(8)——C4.5决策树算法的完整Python代码
C4.5算法较之ID3算法主要有4点改进:nn采用信息增益率作为最优划分属性。n 能够处理连续值类型的属性。n 能够处理缺失值属性。n 增加了剪枝处理,从而避免过拟合。n其中第2、3、4点在之前文章中都详细讨论过,此文主要补充说明第一点信息增益率准则,并对C4.5算法给出完整的Python代码。nn一、信息增益率nnID3算法中的信息增益准则对取值数目较多的属性有所偏好,例如西瓜数据集中,如果把“...
求助weka分类结果分析
使用<em>weka</em>的M5算法进行<em>分类</em>,得到如下数据:rn训练集:rn=== Error on training data ===rnCorrelation coefficient 0.9449rnMean absolute error 37.0872rnRoot mean squared error 108.5924rnRelative absolute error 24.4718 %rnRoot relative squared error 32.7766 %rnTotal Number of Instances 66333rnrn=== Cross-validation ===rnCorrelation coefficient 0.9412rnMean absolute error 37.5665rnRoot mean squared error 112.0182rnRelative absolute error 24.7869 %rnRoot relative squared error 33.8097 %rnTotal Number of Instances 66333rnrn测试集:rn=== Error on test data ===rnCorrelation coefficient 0.941rnMean absolute error 38.0273rnRoot mean squared error 114.7968rnTotal Number of Instances 22111rnrn求版上达人帮忙<em>分析</em>一下,这些数据分别是什么含义?我该从什么哪些数据入手去看我这个数据是不是适合这个模型呢?
基于weka的数据分类分析实验报告(精选)
数据挖掘课程中,关于<em>分类</em>算法的课程实验报告,要求使用<em>weka</em>工具完成
WEKA数据集
WEKA数据集:nWEKA所处理的数据集是一个.arff(attribute relation file)为后缀名的二维表。这是一种ASCII文本文件。以%开始的行是注释。n表中具体的内容:n@relation+文件名称n@attribute+属性名和具体的属性值n@data后为每个实例对应的属性值n1、@relation&amp;amp;lt;关系名&amp;amp;gt;,此处关系名是一个字符串 ,如果字符串包含空格,必须加...
Weka选择属性算法介绍
在Select attribute标签页中可以指定属性评估器和搜索方法。nnn选择属性通常搜索属性子集空间,评估每一个空间,这可以通过组合属性子集评估器和搜索方法得以实现。n快捷但准确度不高的方法是评估单个属性并排序,丢弃低于指定截止点的属性,这可以通过组合单个属性评估器和属性排名的方法得以实现。nnnnn1、属性子集评估器nn属性子集评估器选取属性的一个子集,并返回一个指导搜索的度量数值。 nC...
应用WEKA进行数据分类
WEKA把<em>分类</em>(Classification)和回归(Regression)都放在“Classify”选项卡中,这是有原因的。 在这两个任务中,都有一个目标属性(输出变量)。我们希望根据一个样本(WEKA中称作实例)的一组特征(输入变量),对目标进行预测。为了实现这一目的,我们需要有一个训练数据集,这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例,可以建立起预测的模型。有了这个模型,我们就可以对新的输出未知的实例进行预测了。衡量模型的好坏就在于预测的准确程度。 在WEKA中,待预测的目标(输出)被称作Class属性,这应该是来自<em>分类</em>任务的“类”。一般的,若Class属性是<em>分类</em>型时我们的任务才叫<em>分类</em>,Class属性是数值型时我们的任务叫回归。
使用weka进行数据挖掘
参考教程点击打开链接
基于WEKA的聚类分析算法
基于WEKA软件实现金融领域数据挖掘<em>分析</em>案例,分别使用随机森林,支持向量机等算法对大数据进行聚类<em>分析</em>,得出结论
Weka各类分类器的使用(Java)
Java使用Weka的整个流程,内有示例。配置:MyEclipse2013+Weka3.6+libsvm3.18+Jdk1.7+Win8.1
weka分类结果分析
使用<em>weka</em>的M5算法进行<em>分类</em>,得到如下数据:rn训练集:rn[color=#CCFFCC]=== Error on training data ===rnCorrelation coefficient 0.9449rnMean absolute error 37.0872rnRoot mean squared error 108.5924rnRelative absolute error 24.4718 %rnRoot relative squared error 32.7766 %rnTotal Number of Instances 66333rnrn=== Cross-validation ===rnCorrelation coefficient 0.9412rnMean absolute error 37.5665rnRoot mean squared error 112.0182rnRelative absolute error 24.7869 %rnRoot relative squared error 33.8097 %rnTotal Number of Instances 66333[/color]rnrn测试集:rn[color=#CCFFCC]=== Error on test data ===rnCorrelation coefficient 0.941rnMean absolute error 38.0273rnRoot mean squared error 114.7968rnTotal Number of Instances 22111[/color]rnrn求版上达人帮忙<em>分析</em>一下,这些数据分别是什么含义?我该从什么哪些数据入手去看我这个数据是不是适合这个模型呢?
Weka中的有监督的离散化方法
参考:机器学习-变量离散之MDLPnn对应<em>分析</em>Weka中<em>weka</em>.filters.supervised.attribute.Discretize n涉及的其他类包括<em>weka</em>.filters.Filter n<em>分析</em>的宏观代码nnDiscretize disc=new Discretize()ndisc.setInputFormat(data)nInstances afterDiscretize=Fil...
机器学习工具之WEKA
WekanExplorernExperimenternKnowledgeFlownWorkbenchnSimpleCLInPackage Managernnn免费课程nnnnnnnnnWekannWaikato Environment for Knowledge Analysis是新西兰怀卡托大学开发的一个开源机器学习平台,它使用Java语言编写,提供了一个图形用户界面、命令行接口以及Java A
Weka数据预处理
Weka数据预处理(一)n对于数据挖掘而言,我们往往仅关注实质性的挖掘算法,如<em>分类</em>、聚类、关联规则等,而忽视待挖掘数据的质量,但是高质量的数据才能产生高质量的挖掘<em>结果</em>,否则只有"Garbage in garbage out"了。保证待数据数据质量的重要一步就是数据预处理(Data Pre-Processing),在实际操作中,数据准备阶段往往能占用整个挖掘过程6~8成的时间。本文就<em>weka</em>工具中的...
【机器学习算法模型】分类决策树——C4.5
【机器学习算法模型】<em>分类</em>决策树——C4.5nnnnnnnnnn参考材料: n1.《统计学习方法》——李航 n2.《机器学习》——周志华nn我的github地址:Daniel1586的Github
weka中,如何使用EM聚类,并导出聚类结果
新建Eclipse工程,下载<em>weka</em>.jar包,导入工程,新建class类,创建main函数,这些都不用说了吧!首先准备数据官方文本格式为arff,个人原因选择TXT格式,这个不必纠结!新建txt文本,格式为ANSI,接下来文件内容格式: n@relation 作者 n@attribute 特征名称 特征属性 n@data n第一个特征值,第二个特征值,……备注:①个人认为relation不是很重要
C4.5算法笔记
1.简介rnC4.5算法是机器学习和数据挖掘领域中的一个用于处理<em>分类</em>问题的算法。该算法是有监督学习类型的,即:给定一个数据集,所有实例都由一组属性来描述,每个实例仅属于一个类别,在给定数据集上运行C4.5算法可以学习得到一个从属性值到类别的映射,进而可使用该映射去<em>分类</em>新的未知实例。rnC4.5算法是由J.Ross Quinlan设计的,源于名为ID3的一种决策树诱导算法,而ID3是被称为“迭代分解
Java调用weka代码
<em>weka</em>与其说一个软件,不如说是一个算法库,集成了主流的算法,并提供GUI以及CLI操作n那么除了在<em>weka</em>自身的GUI操作以为,用java项目怎么调用<em>weka</em>呢?nnn1我们安装后的<em>weka</em>目录里面有一个<em>weka</em>.jarnnn2将<em>weka</em>包导入Eclipse中的java工程(过程应该都明白吧,新建个lib文件夹,将<em>weka</em>.jar放进去,然后右键buildpath,之后就可以写代码
WEKA快速入门(含银行数据集bank-data及天气数据集weather)
Weka是机器学习中的一个非常好的开源工具,对于熟悉Java的同学们来说是一个非常好的选择。Weka几乎包含了所有常见机器学习算法的Java实现,Weka中支持的数据格式主要是arff,虽然<em>weka</em>官网上提供了一些arff文件,但有时仅有这些还不能满足需求,为此,本人搜集各方资料,再加上自己的手工转换,整理出了一个还算比较完整的arff数据集合,在这里分享给大家,并配有教材能边看边进行案例<em>分析</em>
决策树 (Decision Tree) 原理简述及相关算法(ID3,C4.5)
Decision Tree 决策树:rn决策树是属于机器学习监督学习<em>分类</em>算法中比较简单的一种,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 rn下面来看个范例,就能很快理解
weka之如何利用kmeans算法分析数据的聚类效果
聚类算法之k-means算法的数据集<em>分析</em>:rnrnrn1. K均值聚类的步骤:rnK均值算法首先随机的指定K个簇中心。然后:rn1)将每个实例分配到距它最近的簇中心,得到K个簇;rn2)计分别计算各簇中所有实例的均值,把它们作为各簇新的簇中心。重复1)和2)不断迭代,直到K个簇中心的位置都固定,簇的分配也固定。rn                                          
weka和matlab完成完整分类实验
本文简单介绍数据集介绍、<em>weka</em>的使用、<em>weka</em>与LIBSVM、matlab与LIBSVM以及<em>分类</em>的若干细节问题。
Weka数据挖掘——选择属性
Weka数据挖掘——选择属性。n选择属性属性选择是通过搜索数据中所有可能的属性组合,以找到预测效果最好的属性子集。手工选择属性既繁琐又容易出错,为了帮助用户事项选择属性自动化。Weka中提供了选择属性面板。要自动选择属性需要设立两个对象:属性评估器和搜索方法。
基于weka的中文文本分类(java版)
    本demo已上传github 地址:https://github.com/CharlsShan/word-classify/tree/master/src/main                本例子是用springboot完成,基于<em>weka</em>实现中文文本<em>分类</em> , 本例子只是一个简单版,可以在简单版基础上进行扩展分词后再<em>分类</em>,最后达到程序帮我们分词、<em>分类</em>,大大提高效率、简化了人工<em>分类</em>的成本...
使用weka内置算法分析数据(图形界面操作)
原文n 本文使用<em>weka</em>中内置的三种<em>分类</em>算法(naive bayes,SVM,Logistic Regression)根据收集到的鸢尾属植物的数据进行<em>分类</em>,通过精度和效率对三种算法进行比较。n1、鸢尾属植物的<em>分类</em>数据中包含鸢尾属植物的四种属性。四种属性分别是萼片长度、萼片宽度、花瓣长度、花瓣宽度。数据中还包含鸢尾属植物的三种种类,分别是:Iris-setosa(山鸢尾)、Iris-Versicol
Weka-Fliter类-选择属性变量[4]
在研究了<em>weka</em>如何导入导出数据后,根据制作数据模型的要求,我们需要对导入数据进入整理:nnn整理数据包括:属性处理、样本处理、数据转换(生成新变量)nnn本文先研究如何程序中选择属性,代码如下:nnnimport java.io.FileReader;nnimport <em>weka</em>.core.Instances;nimport <em>weka</em>.filters.unsupervised.a
Weka 界面操作实例
rn今天google到一个很好的介绍如何使用Weka GUI 的例子。rn具体看附件吧~ rn原文链接: http://referensi.dosen.narotama.ac.id/files/2011/12/<em>weka</em>-tutorial-2.pdfrn rn虽然我们没有例子之中要到的iris.arff 但是可以使用自带的weather-*.arffrn天气的例子<em>分类</em>如下所示:rn rn...
weka之调用特征选择
参考文献 nhttp://download.csdn.net/detail/kaikai_sk/9854774package FilterTest;import java.io.FileNotFoundException;nimport java.io.FileReader;nimport java.util.Random;import <em>weka</em>.attributeSelection.CfsSubs
基于weka的数据分类分析实验报告.
数据挖掘课程中,关于<em>分类</em>算法的课程实验报告,要求使用<em>weka</em>工具完成。
Weka分类结果指标含义
&nbsp; &nbsp; &nbsp; &nbsp;Weka<em>分类</em>器<em>结果</em>的指标根据所选择的测试模式,显示不同文字。例如,如果选择十折交叉验证,显示Stratified cross-validation;如果选择使用训练集,显示Classifier model(full training set),等等。由于评估内容较多,将<em>结果</em>分解显示如下。rn1.Summary(总结):一个统计列表,根据所选择的测...
weka数据挖掘分析
基于Weka 数据聚类<em>分析</em>银行用户的购买力n 通过<em>分析</em>对银行储户信息的<em>分析</em>,进行cluster<em>分类</em>,最终找到合适的消费n人群。n实验基本原理及目的 n聚类<em>分析</em>中的“类”(cluster)和前面<em>分类</em>的“类”(class)是不同的,对 cluster 更加准确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇,使得同一个簇的实例聚集在一个簇中心的周围,它们之间距离的比较近;而不同簇实例之间的距离
[机器学习]K近邻算法及其应用--WEKA工具
K邻近算法 <em>weka</em>
Weka中分类器指标的说明
Mean absolute error 和 Root mean squared error: 平均绝对误差,用来衡量<em>分类</em>器预测值和实际<em>结果</em>的差异,越小越好。Relative absolute error 和 Root relative squared error:举个例子来说明:实际值为500,预测值为450,则绝对误差为50;实际值为2,预测值为1.8,则绝对误差为0.2。这两个数字50和0.2...
Weka开发[2]-分类器类
n     这次介绍如何利用<em>weka</em>里的类对数据集进行<em>分类</em>,要对数据集进行<em>分类</em>,第一步要指定数据集中哪一列做为类别,如果这一步忘记了(事实上经常会忘记)会出现“Class index is negative (not set)!”这个错误,设置某一列为类别用Instances类的成员方法setClassIndex,要设置最后一列为类别则可以用Instances类的numAttributes()成员...
Weka开发[5]-参数设置
rn      这一次介绍的非常简单,会用传命令行参数的人就不用浪费时间看这一篇了,这一篇介绍<em>weka</em>中一些类参数传递的问题。rn      首先要传递参数当然要知道参数有哪些,有什么作用,要知道这些,建议用Weka软件就好了,在源码中看也不是不可以,但请记住简单的就是最好的(Occam’s Razor)。以下的图就是打开的以J48为例的界面(不知道怎么打开以下界面的,回家面壁思过),对话框里当然...
3 机器学习入门——决策树之天气预报、鸢尾花
前面我们简单学习了线性回归、逻辑回归,不知道有没有做一个总结,那就是什么时候该用逻辑回归?从<em>结果</em>来观察,可以看到,线性回归的过程就是在找那个合适的方程,来尽量满足你的每行数据。即Y=ax + bx^2 + …….通过算法来寻找合适的a、b、c。一般来说,线性回归适用于最终<em>结果</em>和各属性之间有数值上的关系,能通过一系列的组合,得出一个规律。当然,实际在应用中,我们一般不管什么数据集,都先跑一遍逻辑(线...
weka 中em算法详细解析
详细讲述了<em>weka</em>中EM算法解析,清晰,值得学习
使用weka进行聚类分析
1、将.xls文件转化为.arff格式  首先,将.xls文件另存为.csv格式,然后使用<em>weka</em> explorer的预处理面板(preprocess),打开.csv文件,将导入的文件另存为.arff。打开.csv文件时提示如下错误解决方法:出现特殊符号(‘),修改它的形式如下(.csv文件中不要出现“ ‘ ”符号):...
java语言调用weka
简单列举几个demo,详细代码见: nhttp://download.csdn.net/detail/kaikai_sk/9827913package callWeka;import java.io.File;import <em>weka</em>.core.Instances;nimport <em>weka</em>.core.converters.CSVSaver;nimport <em>weka</em>.core.converters.Co
初识机器学习之决策树对鸢尾花进行分类
今天想简单聊一下对机器学习中决策树<em>分类</em>的认识,并实现了一个用决策树对经典鸢尾花数据集<em>分类</em>的应用。在我看来,决策树中最重要的一个概念就是信息熵。X的信息熵用H(X)表示,也就是X所含的信息量大小。
WekaClassifier-J48
一个应用Weka的<em>分类</em>器使用Demo,J48算法
wekaj48源码解析
详细讲述了<em>weka</em>中<em>j48</em>源码解析,详细,值得学习
Weka学习之用java构建ARFF文件
ARFF是Weka支持的文件类型 ,我们可以通过读取ARFF文件获取数据,进而执行Weka进行数据的<em>分析</em>,但是由于某些需求的原因,我们需要连接数据库对ARFF进行动态的添加,构建我们需要的Instances 。我们可以粗略的理解一个Instances对应一个ARFF文件,代码如下,如果不清楚ARFF文件格式,请参考我的另一篇博客http://blog.csdn.net/sinat_23225111
简单决策树空气质量评价
决策树是基于树结构进行决策的,是人类在面临决策问题时的一种很自然的处理机制。当我们进行决策时,会考虑一系列因素并进行判断,得到我们的最终结论。 n一颗决策树包含一根节点,若干个内部节点和若干个叶节点,叶节点对应于决策<em>结果</em>,其他每个节点则对应一个属性测试,每个节点包含样本集合根据属性测试的<em>结果</em>被划分到子节点中;根节点包含样本全集,从根节点到每个叶节点的路径对应了一个判断测试序列。决策树学习的目的是为
数据分析&机器学习-分类好坏的评价方式
1.ROC曲线nn这是我们机器学习和数据挖掘等领域用来可视化预测<em>结果</em>准确性最常用的工具之一。nn它的定义如下:按照顺序逐个把样本作为正例进行预测,计算出FPR和TPR。分别以FPR、TPR为横纵坐标作图即可得到ROC曲线。nn其中,两个变量定义如下。nnFPR = TP/(TP+FN)nnTPR = TP/(TP+FP)nn其中,变量定义如下表,其实就是混淆矩阵的<em>结果</em>。nnn TPn n ...
WEKA 3.6 导入libsvm进行分类使用困惑与解决办法
WEKA导入libsvm进行<em>分类</em>使用困惑与解决,需要分别下载wlsvm.jar和liibsvm.jar文件,然后拷贝到WEKA安装目录下,修改RunWeka.ini的cmd_default路径,就可以在WEKA中成功使用libsvm啦。
决策树(ID3,C4.5,CART)原理以及实现
决策树n决策树是一种基本的<em>分类</em>和回归方法.决策树顾名思义,模型可以表示为树型结构,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布.n[图片上传失败…(image-2e6565-1543139272117)]n决策树的中间节点可以看做是对一种特征的判断,也是符合上一次判断特征某种取值的数据集,根节点代表所有数据集;叶子节点看做是判断所属的类别.n决策树学习通常包括...
《机器学习实战》之决策树ID3、C4.5、CART算法【二】
环境: win10 64位+Python3.6.0说明:本系列文章笔记将结合《统计学习方法》一起来说明,因为这两本书刚好实现了理论与实践的完美结合,既没有理论的那种枯燥无味的不适感,也没有一昧追求动手(敲代码)的能力而忽略了理论原理性的东西!所以更能很好的把握算法的原理与实现过程吧。资料: 本系列博客设计的书籍及其相关代码http://pan.baidu.com/s/1i5GbyRj 密码:orfe
Andrew Ng机器学习笔记+Weka相关算法实现(六)SMO/LibSVM/SVM参数
SMO算法,坐标上升法,LibSVM,Weka中的SMO和MultiClassClassifier<em>分类</em>器的使用,SVM参数含义,SVM参数寻优技巧,SVM使用注意事项
C4.5 决策树算法对UCI wine数据集分类的实现(MATLAB)
 1、功能实现与样本<em>分析</em>在数据挖掘领域,可以利用相应的算法对数据集进行训练,即对样本的特征进行<em>分析</em>,从而归纳出相同类别的样本之间存在的内在特征联系,进一步对未知类别的样本进行预测,判断出该样本所属的类别。本文实现了利用决策树算法对UCI 机器学习库上的经典wine数据集进行<em>分类</em>的目的。为达到相应的<em>分类</em>目的,需要先对数据集样本进行<em>分析</em>。表1 wine数据集样本特征不用化学成分的含量与酒的所属类别息息...
交叉验证的Java weka实现,并保存和重载模型
我觉得首先有必要简单说说交叉验证,即用只有一个训练集的时候,用一部分数据训练,一部分做测试,当然怎么分配及时不同的方法了。1)k-folder cross-validation:k个子集,每个子集均做一次测试集,其余的作为训练集。交叉验证重复k次,每次选择一个子集作为测试集,并将k次的平均交叉验证识别正确率作为<em>结果</em>。优点:所有的样本都被作为了训练集和测试集,每个样本都被验证一次。10-folder
ID3和C4.5决策树算法总结
决策树的算法流程主要是: n1.如果当前样本集全部为同一类别,则返回这一类标签 n2.如果当前属性集为空集或者D中样本在属性集中的取值全部相同,那么采用多数表决法,返回样本数最多的类标签 n3.如果不满足上面三个条件,说明当前结点还可以继续划分,这时候要选择最优的属性 n4.选择完属性之后根据属性值划分样本,如果在某个取值下样本集为空,那么标记为父节点中样本最多的类,否则递归产生子节点 n5.返回根
R语言之决策树CART、C4.5算法
决策树是以树的结构将决策或者<em>分类</em>过程展现出来,其目的是根据若干输入变量的值构造出一个相适应的模型,来预测输出变量的值。预测变量为离散型时,为<em>分类</em>树;连续型时,为回归树。nR语言的调用函数rpart(),J48(),prune()
基于WEKA实现时间序列的预测
时间序列预测是根据客观事物发展的规律性,运用历史数据来推测未来的发展趋势。rnrnrn时序预测是一项应用非常广的技术,如股票预测,天气预测等。rnrnrn然而时序预测也是一项比较难的地方,主要是短期预测可能还比较准,而对一段时间的预测则会比较难。rnrnrn在学习时序预测过程中,先看了WEKA的功能。WEKA本身是不带这功能的,不过还好,WEKA方面倒是这样的<em>分析</em>插件,运行一下,里面提供的界面还是
Weka下的线性回归分类 以及 基于预测值进行分类
Weka 的Liner Regression并且用Liner Regression的预测值进行<em>分类</em> n简单了解一下这个概念吧 nClassification by regression nLinear regression can be used for classification too. On the diabetes data, use the NominalToBinary filter
数据挖掘的weka包和数据集
<em>weka</em>链接:https://pan.baidu.com/s/1SrlaErxMqpBoya7_HAkuHQ 密码:kzfb数据集链接:https://pan.baidu.com/s/1wDUGoh30pUdQ6bGkwTVhlw 密码:8hsz
Weka源代码结构分析
Weka源码<em>分析</em>(1)——模块划分及core package<em>分析</em>
【Weka】Weka工具包
用久了scikitlearn,突然换回<em>weka</em>各种不适应rn<em>weka</em>的tree<em>分类</em>器输出的树后面的括号的含义rnrn调用API对样本进行<em>分类</em>rn在<em>分类</em>问题中,当调用如下代码对testInstance进行<em>分类</em>,输出的是一个double,预测的<em>结果</em>是一个index,假设预测<em>结果</em>为0.0rndouble index = classifier.classifyInstance(testInstance)rnrn假如训练...
C4.5决策树代码详细解析以及C4.5程序调用(正确的代码!!!)
正确的代码传上来了,对上一篇博客中刚提到的几点错误做了更改,都是一些比较小的细节,可能不仔细看看不出来,可以和上文对比一下....不过本次用了新的数据集用来生成决策树,亲测正确!数据集也会放上来.....
探索weka实现中文文本分类
探索<em>weka</em>实现中文文本<em>分类</em>n总体思路:n主要流程:n1. 从网上搜寻中文文本<em>分类</em>数据集n2. 使用python-jieba库对所搜集的中文文本数据集进行分词操作,并存储为txt文本n3. 将txt通过excel转换成cvs文件n4. 在<em>weka</em>中进行数据预处理后进行<em>分类</em>学习并预测,比较各个参数以及函数对正确率的影响n主要实现流程nnn下载数据集,下载地址给出:链接:https://pan.bai...
weka中解读经典关联规则Apriori
在<em>weka</em> 中,详细解读经典关联算法的Apriori的源代码
机器学习weka,java api调用随机森林及保存模型
工作需要,了解了一下<em>weka</em>的java api,主要是随机森林这一块,刚开始学习,记录下。n了解不多,直接上demo,里面有一些注释说明:npackage <em>weka</em>;nnimport java.io.File;nnimport <em>weka</em>.classifiers.Classifier;nimport <em>weka</em>.classifiers.trees.RandomForest;nimport <em>weka</em>.c...
C4.5算法的matlab实现(连续值属性)及西瓜数据集
maketree根据数据集递归生成决策树;printree可打印出决策树结构;classify根据决策树<em>分类</em>数据;dataDiscretize对数据集中的连续值属性离散化
关于weka里面如何获得绘制ROC曲线的数据
在自己课题上常需要使用到<em>weka</em>工具包,以使用randomforest为例说明如何绘制roc曲线。rn1)打开<em>weka</em>,选择explorer,open你的arff格式的数据,选择classify,choose选择你使用的<em>分类</em>方法,设置相应的参数,将output设置为plain text, save之后点击start;rnrnrn2)得到的<em>结果</em>如下图所示,需要单独将prediction on tes
一个实例理解怎样用Weka使用SVM
教程原文nn我认为SVM如此有挑战性的原因是训练SVM是一个复杂的优化问题,需要大量的数学和理论来解释。然而,下面这个训练一个简单数据集的例子能让你理解SVM的核心思想。nn我编了一个非常简单的例子来帮助我理解一些概念。这里有一些<em>结果</em>和图表,还有数据文件,因此你也能自己运行算法。nn在Excel中,我随意地建了两个点的集合,我这么放是为了能方便地画一条线来区分两个类(类被称为线性分离)。nnnn这...
决策树算法JAVA实现(包括C4.5和ID3)
决策树算法的java实现,包括C4.5和ID3的实现。
Visual C++典型模块与项目实战大全下载
二、运行软硬件环境 (1)软件环境 开发工具:Visual C++ 6.0 数据库:Microsoft SQL Server 2000、Microsoft Access 2000 音视频:DirectShow 9.0 图形图像:GDIPlus (2)硬件环境 CPU:推荐使用Pentium 4 1GHz以上级别; 内存:不低于512MB,推荐1GB; 其他为常规硬件配置,对显卡、声卡都无特别要求。 相关下载链接:[url=//download.csdn.net/download/xizhou704/5115283?utm_source=bbsseo]//download.csdn.net/download/xizhou704/5115283?utm_source=bbsseo[/url]
Flex从入门到精通下载
Flex从入门到精通,一共31章节的经典PPT,分享给大家。 相关下载链接:[url=//download.csdn.net/download/lishuangzs/3233000?utm_source=bbsseo]//download.csdn.net/download/lishuangzs/3233000?utm_source=bbsseo[/url]
TCP/IP技术实验详解下载
TCP/IP课程 网络技术实验 详细步骤指导书 相关下载链接:[url=//download.csdn.net/download/cuiseheyanlao/3380850?utm_source=bbsseo]//download.csdn.net/download/cuiseheyanlao/3380850?utm_source=bbsseo[/url]
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 java weka学习 java的weka学习
我们是很有底线的