社区
Java EE
帖子详情
关于HtmlParser解析本地Html文件的问题!
cokeyang
2007-05-08 08:55:16
数据库记录文件远程URL及本地保存路径。
我想通过HtmlParser打开本地文件!
取出连接形式为相对地址(URI),然后用setUrl设置Url!
我的本意是给HtmlParser指定一个BaseUrl,
结果发现,setUrl把文件从远程重新下载了一次!
而不是我要的方式。我比较喜欢用httpclient下载文件!因为可能抓取和分析是异步发生的。
我的问题是 这个问题用htmlParser本身是不是可以解决?
...全文
879
6
打赏
收藏
关于HtmlParser解析本地Html文件的问题!
数据库记录文件远程URL及本地保存路径。 我想通过HtmlParser打开本地文件! 取出连接形式为相对地址(URI),然后用setUrl设置Url! 我的本意是给HtmlParser指定一个BaseUrl, 结果发现,setUrl把文件从远程重新下载了一次! 而不是我要的方式。我比较喜欢用httpclient下载文件!因为可能抓取和分析是异步发生的。 我的问题是 这个问题用htmlParser本身是不是可以解决?
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
6 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
Terryguy1991
2011-10-21
打赏
举报
回复
htmlparser貌似不能抓取全部超链接吧,table里面的超链接没有被抓取
andyzhang_zl
2010-09-28
打赏
举报
回复
请教: 我现在可以取得html中的所有超链接,但是我想过滤掉一些,怎么才能过滤掉我不想要的那些呢
eqxu
2007-06-13
打赏
举报
回复
HTTPParser 解析HTML中的Table的行列 手工设定需要解析的table
http://blog.csdn.net/eqxu/archive/2007/06/06/1640699.aspx
用html parser 来获取HTML网页中Form的各个属性名 值组
http://blog.csdn.net/eqxu/archive/2007/05/29/1629820.aspx
cokeyang
2007-05-08
打赏
举报
回复
谢谢楼上兄弟的回答!问题我解决了!
事实上,我的问题是本地文件的相对连接,如何转换为绝对连接的问题!
分析本地文件,这个其实原本就可以!
解决办法
parser.getLexer().getPage().setBaseUrl("http://www.xxx.com");
也可以用
parser.getLexer().getPage().setUrl("http://www.xxx.com");
不知道这两个有什么区别!奇怪了!呵呵
masse
2007-05-08
打赏
举报
回复
可以。我以前做过。
htmlparser可以打开本地文件,你把uri写成本地绝对路径试试呢?
html
parser
.jar
文件
//
解析
本地
文件
// 进行
解析
操作 } catch (ParserException | FileNotFoundException e) { e.printStackTrace(); } } } ```
HTML
Parser
提供了多种方法来访问和操作
解析
树,比如`parseContent()`用于获取整个...
使用
HTML
Parser
解析
网页,找出文章后下载保存
总结来说,使用
HTML
Parser
解析
网页涉及到以下步骤: 1. 继承`
HTML
Parser
`并重写相关方法以定义
解析
逻辑。 2. 找到文章内容所在的标签,如`<p>`或`<article>`,并在适当的方法中处理它们。 3. 收集文章文本,并在适当...
html
parser
使用详解
以下是一个使用
HTML
Parser
解析
本地
文件
的简单示例: ```java import java.io.BufferedReader; import java.io.InputStreamReader; import java.io.FileInputStream; import java.io.File; import java.net....
Delphi通过MS
HTML
实现一个
HTML
解析
类
通过这样的
HTML
解析
类,开发者可以在Delphi应用程序中方便地处理
HTML
数据,无论是从网络获取,还是本地存储,都能高效地
解析
和操作
HTML
内容,为各种Web相关的应用提供了强大的支持。在实际开发中,这样的类还可以...
HTML
Parser
使用举例
HTML
Parser
是一个开源的类库,用于
解析
Web 页面。它有两种主要使用方式:extraction 和 transformation。前者用于从网页中萃取出需要的内容,后者用于把 Web 页面中的内容转换为需要的格式。 Extraction(萃取)...
Java EE
67,549
社区成员
225,860
社区内容
发帖
与我相关
我的任务
Java EE
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
复制链接
扫一扫
分享
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章