社区
XML/XSL
帖子详情
大型(超过200M) 200万行XML解析
jeff994
2011-07-07 08:07:00
在解析大型XML文件的时候,用SAX PARSER 解析,越到后面越慢。 花了超过一个小时解析完所有文件
(文件里面是几何图形,解析完了放在内存里,内存足够,CPU足够)
请问有什么解决方案么? 或者谁有经验解决类似的问题么?
...全文
505
21
打赏
收藏
大型(超过200M) 200万行XML解析
在解析大型XML文件的时候,用SAX PARSER 解析,越到后面越慢。 花了超过一个小时解析完所有文件 (文件里面是几何图形,解析完了放在内存里,内存足够,CPU足够) 请问有什么解决方案么? 或者谁有经验解决类似的问题么?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
21 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
xfq520157
2013-06-28
打赏
举报
回复
楼主可以分享下如何解决的么,我也遇到要解析200-300M的XML但是我是学PB的,能力不足,能解析的起码得几十个小时
jeff994
2011-09-29
打赏
举报
回复
问题已经解决, 事情发现不是XML 的问题,, 这么大的文件 也就需要1-2分钟,是程序的其它部分出了问题
hztj2005
2011-08-22
打赏
举报
回复
我来学习
寒沙胜雪
2011-08-02
打赏
举报
回复
LINK TO XML
XML-DOM
XML-DATASET
CaptainGan
2011-08-02
打赏
举报
回复
解析一部分,放入数据库中,然后删除前面的内容,这样应该不会出现上面的问题。
苏丹-陈
2011-08-01
打赏
举报
回复
优化你的处理过程,别无它法。
a276786511
2011-07-12
打赏
举报
回复
XML不适合这么大的数据量啊
jeff994
2011-07-08
打赏
举报
回复
而且,也没好的关系数据库
jeff994
2011-07-08
打赏
举报
回复
不是随机读写,是要全部的读。
ImN1
2011-07-08
打赏
举报
回复
VTD-XML
http://vtd-xml.sourceforge.net/
masterz
2011-07-08
打赏
举报
回复
可以用文件型数据库,比如http://www.sqlite.org/
KK3K2005
2011-07-07
打赏
举报
回复
吧解析完的内容 作为一个内存映像 保存 或者缓存
如果是随机读写用的话 这么大 还是别用XML了
huntor
2011-07-07
打赏
举报
回复
.net Use XmlTextReader to parse large XML documents.
http://msdn.microsoft.com/en-us/library/ff647804.aspx#scalenetchaptch09 _topic8
huntor
2011-07-07
打赏
举报
回复
http://stackoverflow.com/questions/tagged/large-files+xml
huntor
2011-07-07
打赏
举报
回复
VTD-XML
Java: StAX or XPP3
挨踢直男
2011-07-07
打赏
举报
回复
把用 xml描述的数据转换成关系数据吧
关系数据库的优化方案比xml多的多
碧海情天-赵亮
2011-07-07
打赏
举报
回复
XML的根本特点是“开放性”。如果你只是自己的项目使用,就算使用自定义格式的TEXT文本文件,都比用XML强得多。
碧海情天-赵亮
2011-07-07
打赏
举报
回复
你用XML做这样的事,就得面对这样的后果。XML根本不适合作为大型数据存储载体。
masterz
2011-07-07
打赏
举报
回复
如果是解析的效率问题,可以考虑
State
pattern.
masterz
2011-07-07
打赏
举报
回复
曾经把element的名字放在map里面,有些element在xml里面只出现了一次,解析到以后就把它从map里面删掉。
加载更多回复(1)
深入浅出带你了解XML实体注入
Xml外部实体注入漏洞(XML External Entity Injection)简称XXE,XXE漏洞发生在应用程序解析XML输入时,没有禁止外部实体的加载,导致可以构造加载恶意外部文件,进而通过恶意外部文件对服务器进行攻击。今天比较详细的讲了XXE漏洞的原理以及应用方法,有兴趣的小伙伴可以自己去搭建靶机来进行测试,喜欢的小伙伴不妨一键三连。## 题外话初入计算机行业的人或者大学计算机相关专业毕业生,很多因缺少实战经验,就业处处碰壁。
SQL Server 性能优化详解
故事开篇:你和你的团队经过不懈努力,终于使网站成功上线,刚开始时,注册用户较少,网站性能表现不错,但随着注册用户的增多,访问速度开始变慢,一些用户开始发来邮件表示抗议,事情变得越来越糟,为了留住用户,你开始着手调查访问变慢的原因。 经过紧张的调查,你发现问题出在数据库上,当应用程序尝试访问/更新数据时,数据库执行得相当慢,再次深入调查数据库后,你发现数据库表增长得很大,有些表甚至
一次flume exec source采集日志到kafka因为单条日志数据非常大同步失败的踩坑带来的思考
本次遇到的问题描述,日志采集同步时,当单条日志(日志文件中一行日志)
超过
2M大小,数据无法采集同步到 kafka,分析后,共踩到如下几个坑。 1、flume采集时,通过shell+EXEC(tail -F xxx.log 的方式) source来获取日志时,当单条日志过大
超过
1M时,source端无法从日志中获取到Event。 2、日志
超过
1M后,flume的kafka sink 作为生产者发送给...
Spark内核解析:Driver与Executor,spark-yarn模式,通讯架构,调度优化策略,spark-shuffle解析,SortShuffle,spark内存管理,核心组件解析,内核源码
文章目录 Spark 内核概述 1.1 Spark核心组件回顾 1.1.1 Driver 1.1.2 Executor 1.2 Spark通用运行流程概述 Spark 部署模式 2.1 Standalone模式运行机制 2.1.1 Standalone Client模式 2.1.2 Standalone Cluster模式 2.2 YARN模式运行机制 2.2.1 YARN Client模式 2...
Nmap 使用教程
选项概要 Nmap 7.91SVN(https://nmap.org) 用法:nmap [扫描类型] [选项] {目标规范} 目标规格: 可以传递主机名,IP地址,网络等。 例如:scanme.nmap.org,microsoft.com/24,192.168.0.1;10.0.0-255.1-254 -iL :来自主机/网络列表的输入 -iR <主机数量>:选择随机目标 –exclude <host1 [,host2] [,host3],…>:排除主机/网络 –excludefil
XML/XSL
8,906
社区成员
22,678
社区内容
发帖
与我相关
我的任务
XML/XSL
XML/XSL相关问题讨论专区
复制链接
扫一扫
分享
社区描述
XML/XSL相关问题讨论专区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章