关于数据挖掘的数据集

f22fbi 2009-07-23 09:05:34
数据挖掘的数据集是个什么概念?
由哪些部分组成?
能够提供算法的正确性验证吗?
...全文
366 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
瓶盒 2009-07-26
  • 打赏
  • 举报
回复
mark,帮顶
千与 2009-07-24
  • 打赏
  • 举报
回复
数据挖掘的对象就是一个数据集,DM其实只是KDD的一个步骤,因为DM本身很复杂,也是从KDD分离出来的原因吧。
执行DM是在对原始数据库进行清洗预处理之后,这时得到的数据集(例如事务数据库、序列数据库)才是DM执行的起点,此时的数据集也是规范化的数据集,也是DM感兴趣的数据。
然后执行DM过程,挖掘结果也是一个数据集,例如频繁关联规则、频繁序列模式等。
最后挖掘得到的结果数据集,用以辅助决策。
f22fbi 2009-07-24
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 shirdrn 的回复:]
你的说法很模糊啊。
网站上提供的数据集为何意?数据集不就是数据的集合吗。。。
给你举个例子吧:
搜索引擎,提供的那些搜索数据就是一个很大的数据集,用户检索就能得到自己想要结果。试想,没有搜索引擎呢,用户只能从海量的互联网上去找,那不是海底捞针一样。
搜索引擎所做的工作就是对互联网上海量的数据处理,挖掘出有用的数据,然后服务于用户的检索需求。搜索引擎先要采集数据,放出N多爬虫到互联网上采集网页数据,…
[/Quote]
http://kdd.ics.uci.edu/
这个网站上提供一些数据集,供数据挖掘者使用
我想知道能用这些数据干什么?
麻烦您看看
千与 2009-07-24
  • 打赏
  • 举报
回复
你的说法很模糊啊。
网站上提供的数据集为何意?数据集不就是数据的集合吗。。。
给你举个例子吧:
搜索引擎,提供的那些搜索数据就是一个很大的数据集,用户检索就能得到自己想要结果。试想,没有搜索引擎呢,用户只能从海量的互联网上去找,那不是海底捞针一样。
搜索引擎所做的工作就是对互联网上海量的数据处理,挖掘出有用的数据,然后服务于用户的检索需求。搜索引擎先要采集数据,放出N多爬虫到互联网上采集网页数据,采集到的是原始数据,杂乱无章,有用的没用的(比如广告信息等等)都有,而且这些数据都是非格式化的,首先要做的就是对数据预处理,得到对搜索引擎提供检索支持的格式化数据,然后从格式化数据中提取关键字(这就是DM了),将提取到的有用信息存储到搜索引擎后台支持数据库中,用户检索的时候,就从数据库中直接查询出来。
f22fbi 2009-07-24
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 shirdrn 的回复:]
数据挖掘的对象就是一个数据集,DM其实只是KDD的一个步骤,因为DM本身很复杂,也是从KDD分离出来的原因吧。
执行DM是在对原始数据库进行清洗预处理之后,这时得到的数据集(例如事务数据库、序列数据库)才是DM执行的起点,此时的数据集也是规范化的数据集,也是DM感兴趣的数据。
然后执行DM过程,挖掘结果也是一个数据集,例如频繁关联规则、频繁序列模式等。
最后挖掘得到的结果数据集,用以辅助决策。
[/Quote]
那一些网站上提供的数据集是怎么产生的?
如何使用?

33,028

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧