关于数据挖掘的数据集

f22fbi 2009-07-23 09:05:34

数据挖掘的数据集是个什么概念？
由哪些部分组成？
能够提供算法的正确性验证吗？

...全文

369 5 打赏收藏转发到动态举报

写回复

用AI写文章

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

瓶盒 2009-07-26

打赏
举报

mark，帮顶

千与 2009-07-24

打赏
举报

数据挖掘的对象就是一个数据集，DM其实只是KDD的一个步骤，因为DM本身很复杂，也是从KDD分离出来的原因吧。
执行DM是在对原始数据库进行清洗预处理之后，这时得到的数据集（例如事务数据库、序列数据库）才是DM执行的起点，此时的数据集也是规范化的数据集，也是DM感兴趣的数据。
然后执行DM过程，挖掘结果也是一个数据集，例如频繁关联规则、频繁序列模式等。
最后挖掘得到的结果数据集，用以辅助决策。

f22fbi 2009-07-24

打赏
举报

[Quote=引用 3 楼 shirdrn 的回复:]
你的说法很模糊啊。
网站上提供的数据集为何意？数据集不就是数据的集合吗。。。
给你举个例子吧：
搜索引擎，提供的那些搜索数据就是一个很大的数据集，用户检索就能得到自己想要结果。试想，没有搜索引擎呢，用户只能从海量的互联网上去找，那不是海底捞针一样。
搜索引擎所做的工作就是对互联网上海量的数据处理，挖掘出有用的数据，然后服务于用户的检索需求。搜索引擎先要采集数据，放出N多爬虫到互联网上采集网页数据，…
[/Quote]
http://kdd.ics.uci.edu/
这个网站上提供一些数据集，供数据挖掘者使用
我想知道能用这些数据干什么？
麻烦您看看

千与 2009-07-24

打赏
举报

你的说法很模糊啊。
网站上提供的数据集为何意？数据集不就是数据的集合吗。。。
给你举个例子吧：
搜索引擎，提供的那些搜索数据就是一个很大的数据集，用户检索就能得到自己想要结果。试想，没有搜索引擎呢，用户只能从海量的互联网上去找，那不是海底捞针一样。
搜索引擎所做的工作就是对互联网上海量的数据处理，挖掘出有用的数据，然后服务于用户的检索需求。搜索引擎先要采集数据，放出N多爬虫到互联网上采集网页数据，采集到的是原始数据，杂乱无章，有用的没用的（比如广告信息等等）都有，而且这些数据都是非格式化的，首先要做的就是对数据预处理，得到对搜索引擎提供检索支持的格式化数据，然后从格式化数据中提取关键字（这就是DM了），将提取到的有用信息存储到搜索引擎后台支持数据库中，用户检索的时候，就从数据库中直接查询出来。

f22fbi 2009-07-24

打赏
举报

[Quote=引用 1 楼 shirdrn 的回复:]
数据挖掘的对象就是一个数据集，DM其实只是KDD的一个步骤，因为DM本身很复杂，也是从KDD分离出来的原因吧。
执行DM是在对原始数据库进行清洗预处理之后，这时得到的数据集（例如事务数据库、序列数据库）才是DM执行的起点，此时的数据集也是规范化的数据集，也是DM感兴趣的数据。
然后执行DM过程，挖掘结果也是一个数据集，例如频繁关联规则、频繁序列模式等。
最后挖掘得到的结果数据集，用以辅助决策。
[/Quote]
那一些网站上提供的数据集是怎么产生的？
如何使用？