htmlparser 解析速度问题,急!

adiao713 2009-05-02 06:54:35
使用了htmlparser获取网页的指定数据,该采集的功能的确强悍,特别是filter的功能。
但是现在出现速度问题!
我第一层解析了45个页面,获取相关数据,总共花了3分钟。即每个页面要花0.6秒钟。
而每个页面又有12个链接,所以第二层又要解析45*14=630,即:第二层要解析630个页面总共花了38分钟。
这630个页面里又有10个链接。。。
总之一个笛卡尔积。总共要解析45*14*10*50=315000个页面。一计算,一次性解析完要花十几天时间啊!unbelievable!!
请问,
1、怎么样优化htmlparser的解析速度?是否解析这么多页面必然要花那么多时间的?
2、htmlparser解析页面中最花时间的是那个环节。是否是new parser(url)的时候。

请各位帮帮忙!谢谢!如解决马上结贴给分。
...全文
150 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
springbird 2009-05-05
  • 打赏
  • 举报
回复
正在用htmlparser解析网页,打算做个搜索引擎,希望了解一下,不知道该怎么样提取一个网页内的有用信息
jishu_vip 2009-05-03
  • 打赏
  • 举报
回复
htmlparser用过

不知道你解析的目的是什么

如果仅仅只是提取网页内容中对你有用的那部分的话,可以考虑一下正则表达式。

81,092

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧