大型（超过200M) 200万行XML解析

jeff994 2011-07-07 08:07:00

在解析大型XML文件的时候，用SAX PARSER 解析，越到后面越慢。花了超过一个小时解析完所有文件
（文件里面是几何图形，解析完了放在内存里，内存足够，CPU足够）
请问有什么解决方案么？或者谁有经验解决类似的问题么？

...全文

557 21 打赏收藏转发到动态举报

写回复

用AI写文章

21 条回复

切换为时间正序

请发表友善的回复…

发表回复

xfq520157 2013-06-28

打赏
举报

楼主可以分享下如何解决的么，我也遇到要解析200-300M的XML但是我是学PB的，能力不足，能解析的起码得几十个小时

jeff994 2011-09-29

打赏
举报

问题已经解决，事情发现不是XML 的问题，，这么大的文件也就需要1-2分钟，是程序的其它部分出了问题

hztj2005 2011-08-22

打赏
举报

我来学习

寒沙胜雪 2011-08-02

打赏
举报

LINK TO XML
XML-DOM
XML-DATASET

CaptainGan 2011-08-02

打赏
举报

解析一部分，放入数据库中，然后删除前面的内容，这样应该不会出现上面的问题。

苏丹-陈 2011-08-01

打赏
举报

优化你的处理过程，别无它法。

a276786511 2011-07-12

打赏
举报

XML不适合这么大的数据量啊

jeff994 2011-07-08

打赏
举报

而且，也没好的关系数据库

jeff994 2011-07-08

打赏
举报

不是随机读写，是要全部的读。

ImN1 2011-07-08

打赏
举报

VTD-XML

http://vtd-xml.sourceforge.net/

masterz 2011-07-08

打赏
举报

可以用文件型数据库，比如http://www.sqlite.org/

KK3K2005 2011-07-07

打赏
举报

吧解析完的内容作为一个内存映像保存或者缓存

如果是随机读写用的话这么大还是别用XML了

huntor 2011-07-07

打赏
举报

.net Use XmlTextReader to parse large XML documents.
http://msdn.microsoft.com/en-us/library/ff647804.aspx#scalenetchaptch09 _topic8

huntor 2011-07-07

打赏
举报

http://stackoverflow.com/questions/tagged/large-files+xml

huntor 2011-07-07

打赏
举报

VTD-XML

Java: StAX or XPP3

挨踢直男 2011-07-07

打赏
举报

把用 xml描述的数据转换成关系数据吧
关系数据库的优化方案比xml多的多

碧海情天-赵亮 2011-07-07

打赏
举报

XML的根本特点是“开放性”。如果你只是自己的项目使用，就算使用自定义格式的TEXT文本文件，都比用XML强得多。

碧海情天-赵亮 2011-07-07

打赏
举报

你用XML做这样的事，就得面对这样的后果。XML根本不适合作为大型数据存储载体。

masterz 2011-07-07

打赏
举报

如果是解析的效率问题，可以考虑State pattern.

masterz 2011-07-07

打赏
举报

曾经把element的名字放在map里面，有些element在xml里面只出现了一次，解析到以后就把它从map里面删掉。

Xml外部实体注入漏洞（XML External Entity Injection）简称XXE，XXE漏洞发生在应用程序解析XML输入时，没有禁止外部实体的加载，导致可以构造加载恶意外部文件，进而通过恶意外部文件对服务器进行攻击。今天比较详细的讲了XXE漏洞的原理以及应用方法，有兴趣的小伙伴可以自己去搭建靶机来进行测试，喜欢的小伙伴不妨一键三连。## 题外话初入计算机行业的人或者大学计算机相关专业毕业生，很多因缺少实战经验，就业处处碰壁。

本文探讨了动态位置管理与XML数据库查询处理效率的相关研究。在动态位置管理方面，重点分析了带有缓存的动态位置管理方案及其对寻呼区域和总成本的影响，并通过数学模型比较不同方案的性能优劣。对于XML数据库部分，研究对比了原生XML数据库和支持XML的关系型数据库在查询处理效率方面的表现，实验涉及不同大小的XML文档以及有索引和无索引条件下的查询性能。研究表明，动态缓存方案能显著降低位置管理成本，而支持XML的数据库系统在多数情况下具有更好的查询处理性能，但原生XML数据库在特定场景下也展现出优势。

故事开篇：你和你的团队经过不懈努力，终于使网站成功上线，刚开始时，注册用户较少，网站性能表现不错，但随着注册用户的增多，访问速度开始变慢，一些用户开始发来邮件表示抗议，事情变得越来越糟，为了留住用户，你开始着手调查访问变慢的原因。　　经过紧张的调查，你发现问题出在数据库上，当应用程序尝试访问/更新数据时，数据库执行得相当慢，再次深入调查数据库后，你发现数据库表增长得很大，有些表甚至

本文介绍了如何用PHP高效解析用户上传的Excel文件，避免常见问题如内存崩溃和数据乱码。文章分为四个部分： 1. **文件上传安全战**：强调处理用户上传文件时的安全性，包括文件类型验证、大小限制和路径安全。 2. **格式处理生死劫**：讲解如何识别和处理不同格式的Excel文件（如xls和xlsx），避免因格式问题导致的错误。 3. **核心读取玄机**：介绍如何使用PhpSpreadsheet高效读取Excel数据，优化内存使用。 4. **内存优化秘籍**：分享处理大型Excel文件时的内存优化技

XML/XSL

8,909

社区成员

22,678

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章