数据挖掘中,如何处理多值的属性?

gwgyk 2013-10-21 08:02:39
在DBLP数据集中查找最常合著的作者。因为一篇论文中有多个作者(最多可能有上百个),而整个数据集中可能有上万个作者。

现在只需提取每条记录中的作者信息,但很多文章都是多个作者,该怎么把这些作者处理成weka能够识别的arff格式中的数据呢?

如果将其定义为String类型,使用逗号来分隔,weka会报错(因为我只需作者这一个属性),而同一个属性的值中不能出现逗号。若使用别的符号来分隔(如“--”或“*”),weka也不能自动识别这些符号,会把多个作者当成一个属性值来处理。

该怎么处理成合理的格式呢?谢谢大家指教
...全文
752 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
gwgyk 2013-10-21
  • 打赏
  • 举报
回复
不能按标称属性来处理

202

社区成员

发帖
与我相关
我的任务
社区描述
非技术问题的乐园
数据库数据库架构数据库开发 技术论坛(原bbs)
社区管理员
  • 非技术区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧