社区
Java EE
帖子详情
关于HtmlParser解析本地Html文件的问题!
cokeyang
2007-05-08 08:55:16
数据库记录文件远程URL及本地保存路径。
我想通过HtmlParser打开本地文件!
取出连接形式为相对地址(URI),然后用setUrl设置Url!
我的本意是给HtmlParser指定一个BaseUrl,
结果发现,setUrl把文件从远程重新下载了一次!
而不是我要的方式。我比较喜欢用httpclient下载文件!因为可能抓取和分析是异步发生的。
我的问题是 这个问题用htmlParser本身是不是可以解决?
...全文
869
6
打赏
收藏
关于HtmlParser解析本地Html文件的问题!
数据库记录文件远程URL及本地保存路径。 我想通过HtmlParser打开本地文件! 取出连接形式为相对地址(URI),然后用setUrl设置Url! 我的本意是给HtmlParser指定一个BaseUrl, 结果发现,setUrl把文件从远程重新下载了一次! 而不是我要的方式。我比较喜欢用httpclient下载文件!因为可能抓取和分析是异步发生的。 我的问题是 这个问题用htmlParser本身是不是可以解决?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
6 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
Terryguy1991
2011-10-21
打赏
举报
回复
htmlparser貌似不能抓取全部超链接吧,table里面的超链接没有被抓取
andyzhang_zl
2010-09-28
打赏
举报
回复
请教: 我现在可以取得html中的所有超链接,但是我想过滤掉一些,怎么才能过滤掉我不想要的那些呢
eqxu
2007-06-13
打赏
举报
回复
HTTPParser 解析HTML中的Table的行列 手工设定需要解析的table
http://blog.csdn.net/eqxu/archive/2007/06/06/1640699.aspx
用html parser 来获取HTML网页中Form的各个属性名 值组
http://blog.csdn.net/eqxu/archive/2007/05/29/1629820.aspx
cokeyang
2007-05-08
打赏
举报
回复
谢谢楼上兄弟的回答!问题我解决了!
事实上,我的问题是本地文件的相对连接,如何转换为绝对连接的问题!
分析本地文件,这个其实原本就可以!
解决办法
parser.getLexer().getPage().setBaseUrl("http://www.xxx.com");
也可以用
parser.getLexer().getPage().setUrl("http://www.xxx.com");
不知道这两个有什么区别!奇怪了!呵呵
masse
2007-05-08
打赏
举报
回复
可以。我以前做过。
htmlparser可以打开本地文件,你把uri写成本地绝对路径试试呢?
JAVA上百实例源码以及开源项目
Java实现HTTP连接与浏览,Java源码下载,输入
html
文件
地址或网址,显示页面和
HTML
源
文件
,一步步的实现过程请下载本实例的Java源码,代码中包括丰富的注释,对学习有帮助。 Java实现的FTP连接与数据浏览程序 1个...
JAVA上百实例源码以及开源项目源代码
Java实现HTTP连接与浏览,Java源码下载,输入
html
文件
地址或网址,显示页面和
HTML
源
文件
,一步步的实现过程请下载本实例的Java源码,代码中包括丰富的注释,对学习有帮助。 Java实现的FTP连接与数据浏览程序 1个...
自己动手写搜索引擎(罗刚著).doc
4.1 从
HTML
文件
中提取文本 43 4.1.1
Html
Parser
介绍 51 4.1.2 结构化信息提取 54 4.1.3 网页去噪 60 4.1.4 网页结构相似度计算 63 4.1.5 正文提取的工具FireBug 64 4.1.6 正文提取的工具Neko
HTML
66 4.1.7 正文提取 ...
java开源包1
ftp4j是一个FTP客户端Java类库,实现了FTP客户端应具有的大部分功能
文件
(包括上传和下 载),浏览远程FTP服务器上的目录和
文件
,创建、删除、重命,移动远程目录和
文件
。ftp4j提供多种方式连接到远程FTP服务器包括...
java开源包11
ftp4j是一个FTP客户端Java类库,实现了FTP客户端应具有的大部分功能
文件
(包括上传和下 载),浏览远程FTP服务器上的目录和
文件
,创建、删除、重命,移动远程目录和
文件
。ftp4j提供多种方式连接到远程FTP服务器包括...
Java EE
67,516
社区成员
225,878
社区内容
发帖
与我相关
我的任务
Java EE
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
复制链接
扫一扫
分享
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章