数据挖掘中，如何处理多值的属性？

gwgyk 2013-10-21 08:02:39

在DBLP数据集中查找最常合著的作者。因为一篇论文中有多个作者(最多可能有上百个)，而整个数据集中可能有上万个作者。

现在只需提取每条记录中的作者信息，但很多文章都是多个作者，该怎么把这些作者处理成weka能够识别的arff格式中的数据呢？

如果将其定义为String类型，使用逗号来分隔，weka会报错(因为我只需作者这一个属性)，而同一个属性的值中不能出现逗号。若使用别的符号来分隔(如“--”或“*”)，weka也不能自动识别这些符号，会把多个作者当成一个属性值来处理。

该怎么处理成合理的格式呢？谢谢大家指教

...全文

846 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

gwgyk 2013-10-21

打赏
举报

回复

不能按标称属性来处理

数据挖掘中，数据预处理至关重要，包括数据清理、集成、规约和变换。数据清理涉及属性选择、填充空缺值、处理噪声和不平衡数据；数据集成通过统一属性值编码和处理重复属性来整合多源数据；数据规约旨在减少特征数量以提高效率；数据变换则包括标准化和离散化，用于处理噪声和简化数据。预处理过程中，数据质量的衡量要素包括准确性、完整性、一致性和时效性等。

本文介绍了数据挖掘的基本概念，包括数据预处理的任务、属性分类、离群点检测等内容，并探讨了聚类方法的不同类型及其特点。

数据挖掘是大数据时代的重要技术，用于从海量数据中发现有价值信息。本文介绍了数据挖掘的基本概念，如目标（描述和预测）、数据集、属性等，并详细探讨了数据预处理的重要性，包括数据清洗的原因、方法，以及数据集中常见的问题和解决方案。预处理步骤如数据融合、清洗和维规约，对提高数据分析效果至关重要。

本文详细介绍了在Educoder数据挖掘实训中如何使用Pandas的drop_duplicates和reset_index函数处理数据集中的冗余值，以及在实际操作中的注意事项，特别提到了旧版Pandas限制和功能缺失的问题。

本文全面解析数据挖掘中缺失值的定义、产生原因及处理方法，对比多种填充策略，探讨其适用场景与优劣，旨在指导数据预处理实践。

202

社区成员

446

社区内容

发帖

与我相关

我的任务

数据库数据库架构数据库开发技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章