数据挖掘的预处理步骤,怎么把xml文件转换成csv文件?

gwgyk 2013-10-14 10:47:59
我们在学数据挖掘,有个实验是从DBLP上的一个数据集来查找最常合著的作者。这个数据集是xml格式的,但是weka不能识别这个格式,而且这个xml文件很大,有1.2G,超过100万条记录。该怎么把这个xml文件格式转换成weka能识别的csv格式呢?

可否通过java程序来读取这个xml文件,然后用java把它写成csv格式?或者是否可以直接写成arff格式呢?

但是这个xml文件很大,如果直接读入的话,可能会让机子卡死,该怎么办呢?
...全文
1245 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
天善智能 2013-11-19
  • 打赏
  • 举报
回复
有好的挖掘方面的知识记得分享
foreverwingsfly 2013-10-29
  • 打赏
  • 举报
回复
引用 5 楼 gwgyk 的回复:
[quote=引用 3 楼 foreverwingsfly 的回复:] 楼主也是孙广中的课么
我去,不要说你也是[/quote] 必须是,坑一笔
zhongxiaobing 2013-10-28
  • 打赏
  • 举报
回复
引用 6 楼 gwgyk 的回复:
[quote=引用 4 楼 QQ247085994 的回复:] [quote=引用 2 楼 gwgyk 的回复:] [quote=引用 1 楼 apple_8180 的回复:] 不要一次性读取,分批读,分批写入。
那么大概该怎么做呢?谢谢?[/quote] 用写程序读取时数据时,按行读取,指定读取多少行后转化一次[/quote] 那么用java写的话大概该怎么写呢?求指教,谢谢了[/quote] 本人走的是c#方向,JAVA真心帮不了了,只能给你思路
gwgyk 2013-10-26
  • 打赏
  • 举报
回复
引用 4 楼 QQ247085994 的回复:
[quote=引用 2 楼 gwgyk 的回复:] [quote=引用 1 楼 apple_8180 的回复:] 不要一次性读取,分批读,分批写入。
那么大概该怎么做呢?谢谢?[/quote] 用写程序读取时数据时,按行读取,指定读取多少行后转化一次[/quote] 那么用java写的话大概该怎么写呢?求指教,谢谢了
gwgyk 2013-10-26
  • 打赏
  • 举报
回复
引用 3 楼 foreverwingsfly 的回复:
楼主也是孙广中的课么
我去,不要说你也是
foreverwingsfly 2013-10-23
  • 打赏
  • 举报
回复
楼主也是孙广中的课么
zhongxiaobing 2013-10-23
  • 打赏
  • 举报
回复
引用 2 楼 gwgyk 的回复:
[quote=引用 1 楼 apple_8180 的回复:] 不要一次性读取,分批读,分批写入。
那么大概该怎么做呢?谢谢?[/quote] 用写程序读取时数据时,按行读取,指定读取多少行后转化一次
gwgyk 2013-10-15
  • 打赏
  • 举报
回复
引用 1 楼 apple_8180 的回复:
不要一次性读取,分批读,分批写入。
那么大概该怎么做呢?谢谢?
十豆三 2013-10-15
  • 打赏
  • 举报
回复
不要一次性读取,分批读,分批写入。
【为什么学习数据挖掘】       人工智能、大数据时代有什么技能是可以运用在各种行业的?数据分析就是。      从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过数据分析进一步挖掘出数据价值,它和编程一样,本质上也是一个工具,通过数据来对现实事物进行分析和识别的能力。不管你从事什么行业,掌握了数据分析能力,往往在其岗位上更有竞争力。【超实用的课程内容】      本课程为Python数据挖掘方向的入门课程,课程主要以真实数据为基础,详细介绍数据挖掘入门的流程和使用Python实现pandas与numpy在数据挖掘方向的运用,并深入学习如何运用scikit-learn调用常用的数据挖掘算法解决数据挖掘问题,为进一步深入学习数据挖掘打下扎实的基础。本课程分为三大部分:基础知识篇:主要讲解数据挖掘这项技能的基本工作流程和介绍和入门必须的基本技能Python语言的入门,带领大家了解数据挖掘的常见操作和基础知识。数据采集篇:学习如何解决数据挖掘的数据来源问题,读取各类型不同的数据包括CSV,excel,MySQL进行数据采集的交互。数据探索篇:本篇主要解决数据的预处理保证数据的质量并用常见数据挖掘算法进行特征提取,分析数据背后隐含的信息。【报名须知】课程采取录播模式,课程永久有效,可无限次观看课件、课程案例代码完全开放给你,你可以根据所学知识,自行修改、优化【如何开始学习?】PC端:报名成功后可以直接进入课程学习移动端:下载CSDN学院或CSDN

202

社区成员

发帖
与我相关
我的任务
社区描述
非技术问题的乐园
数据库数据库架构数据库开发 技术论坛(原bbs)
社区管理员
  • 非技术区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧