关于HtmlParser解析本地Html文件的问题!

cokeyang 2007-05-08 08:55:16
数据库记录文件远程URL及本地保存路径。
我想通过HtmlParser打开本地文件!
取出连接形式为相对地址(URI),然后用setUrl设置Url!
我的本意是给HtmlParser指定一个BaseUrl,
结果发现,setUrl把文件从远程重新下载了一次!
而不是我要的方式。我比较喜欢用httpclient下载文件!因为可能抓取和分析是异步发生的。

我的问题是 这个问题用htmlParser本身是不是可以解决?
...全文
869 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
Terryguy1991 2011-10-21
  • 打赏
  • 举报
回复
htmlparser貌似不能抓取全部超链接吧,table里面的超链接没有被抓取
andyzhang_zl 2010-09-28
  • 打赏
  • 举报
回复
请教: 我现在可以取得html中的所有超链接,但是我想过滤掉一些,怎么才能过滤掉我不想要的那些呢
eqxu 2007-06-13
  • 打赏
  • 举报
回复
HTTPParser 解析HTML中的Table的行列 手工设定需要解析的table
http://blog.csdn.net/eqxu/archive/2007/06/06/1640699.aspx
用html parser 来获取HTML网页中Form的各个属性名 值组
http://blog.csdn.net/eqxu/archive/2007/05/29/1629820.aspx
cokeyang 2007-05-08
  • 打赏
  • 举报
回复
谢谢楼上兄弟的回答!问题我解决了!
事实上,我的问题是本地文件的相对连接,如何转换为绝对连接的问题!

分析本地文件,这个其实原本就可以!

解决办法
parser.getLexer().getPage().setBaseUrl("http://www.xxx.com");
也可以用
parser.getLexer().getPage().setUrl("http://www.xxx.com");
不知道这两个有什么区别!奇怪了!呵呵

masse 2007-05-08
  • 打赏
  • 举报
回复
可以。我以前做过。
htmlparser可以打开本地文件,你把uri写成本地绝对路径试试呢?

67,516

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧