社区
数据结构与算法
帖子详情
关于数据挖掘的数据集
f22fbi
2009-07-23 09:05:34
数据挖掘的数据集是个什么概念?
由哪些部分组成?
能够提供算法的正确性验证吗?
...全文
369
5
打赏
收藏
关于数据挖掘的数据集
数据挖掘的数据集是个什么概念? 由哪些部分组成? 能够提供算法的正确性验证吗?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
5 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
瓶盒
2009-07-26
打赏
举报
回复
mark,帮顶
千与
2009-07-24
打赏
举报
回复
数据挖掘的对象就是一个数据集,DM其实只是KDD的一个步骤,因为DM本身很复杂,也是从KDD分离出来的原因吧。
执行DM是在对原始数据库进行清洗预处理之后,这时得到的数据集(例如事务数据库、序列数据库)才是DM执行的起点,此时的数据集也是规范化的数据集,也是DM感兴趣的数据。
然后执行DM过程,挖掘结果也是一个数据集,例如频繁关联规则、频繁序列模式等。
最后挖掘得到的结果数据集,用以辅助决策。
f22fbi
2009-07-24
打赏
举报
回复
[Quote=引用 3 楼 shirdrn 的回复:]
你的说法很模糊啊。
网站上提供的数据集为何意?数据集不就是数据的集合吗。。。
给你举个例子吧:
搜索引擎,提供的那些搜索数据就是一个很大的数据集,用户检索就能得到自己想要结果。试想,没有搜索引擎呢,用户只能从海量的互联网上去找,那不是海底捞针一样。
搜索引擎所做的工作就是对互联网上海量的数据处理,挖掘出有用的数据,然后服务于用户的检索需求。搜索引擎先要采集数据,放出N多爬虫到互联网上采集网页数据,…
[/Quote]
http://kdd.ics.uci.edu/
这个网站上提供一些数据集,供数据挖掘者使用
我想知道能用这些数据干什么?
麻烦您看看
千与
2009-07-24
打赏
举报
回复
你的说法很模糊啊。
网站上提供的数据集为何意?数据集不就是数据的集合吗。。。
给你举个例子吧:
搜索引擎,提供的那些搜索数据就是一个很大的数据集,用户检索就能得到自己想要结果。试想,没有搜索引擎呢,用户只能从海量的互联网上去找,那不是海底捞针一样。
搜索引擎所做的工作就是对互联网上海量的数据处理,挖掘出有用的数据,然后服务于用户的检索需求。搜索引擎先要采集数据,放出N多爬虫到互联网上采集网页数据,采集到的是原始数据,杂乱无章,有用的没用的(比如广告信息等等)都有,而且这些数据都是非格式化的,首先要做的就是对数据预处理,得到对搜索引擎提供检索支持的格式化数据,然后从格式化数据中提取关键字(这就是DM了),将提取到的有用信息存储到搜索引擎后台支持数据库中,用户检索的时候,就从数据库中直接查询出来。
f22fbi
2009-07-24
打赏
举报
回复
[Quote=引用 1 楼 shirdrn 的回复:]
数据挖掘的对象就是一个数据集,DM其实只是KDD的一个步骤,因为DM本身很复杂,也是从KDD分离出来的原因吧。
执行DM是在对原始数据库进行清洗预处理之后,这时得到的数据集(例如事务数据库、序列数据库)才是DM执行的起点,此时的数据集也是规范化的数据集,也是DM感兴趣的数据。
然后执行DM过程,挖掘结果也是一个数据集,例如频繁关联规则、频繁序列模式等。
最后挖掘得到的结果数据集,用以辅助决策。
[/Quote]
那一些网站上提供的数据集是怎么产生的?
如何使用?
数据挖掘
公开
数据集
【汇总】
公开
数据集
指的是不同的公司、组织公开的用于机器学习、深度学习、人工智能等方向大规模
数据集
合。以下
数据集
可用于数据分析、
数据挖掘
和机器学习等大数据场景下的测试和学习。按照数据工作的不同应用主题方向,分为音频
数据集
、图像和视频
数据集
、自然语音
数据集
及综合
数据集
。............
数据挖掘
&机器学习及其他领域
数据集
汇总
本文所收集的
数据集
来自互联网,并将学习
数据挖掘
、机器学习、深度学习过程遇到的一些
数据集
加入其中,可能有些
数据集
随着时间的流逝链接会失效。 1,气候监测
数据集
http://cdiac.ornl.gov/ftp/ndp026b 2,几个实用的测试
数据集
下载的网站 MATLAB黑客数据(手写数字,面孔,文字) http://www
数据挖掘
中免费
数据集
下载网站
数据挖掘
实验
数据集
参考
数据挖掘
-公开
数据集
的合集
AWS (Amazon Web Server) Public datasets 亚马逊公用
数据集
:过去,查找、下载、自定义和分析卫星图像或基因组数据等大型
数据集
需要几个小时或几天的时间。当数据在 AWS 上公开提供后,任何人都可以分析任意数量的数据,而无需自行下载或存储这些数据。包括:地理空间和环境
数据集
、基因组和生命科学
数据集
、机器学习
数据集
、监管和统计数据。 BigML : BigML提供一个
机器学习
数据挖掘
数据集
划分 训练集 验证集 测试集
机器学习之
数据集
划分: 训练集 验证集 测试集 Q:将
数据集
划分为测试
数据集
和训练
数据集
的常用套路是什么呢? A:three ways shown as follow: 1.像sklearn一样,提供一个将
数据集
切分成训练集和测试集的函数: 默认是把
数据集
的75%作为训练集,把
数据集
的25%作为测试集。 2.交叉验证(一般取十折交叉验证:10-fold
数据结构与算法
33,028
社区成员
35,337
社区内容
发帖
与我相关
我的任务
数据结构与算法
数据结构与算法相关内容讨论专区
复制链接
扫一扫
分享
社区描述
数据结构与算法相关内容讨论专区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章