怎样用java读取网页的内容?

li_new 2002-08-12 04:48:56
怎样用java读取网页的内容,因为我想将网页中的内容转换成pdf文档?
...全文
91 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
chenzhp 2010-05-27
  • 打赏
  • 举报
回复
做一个标记。
anod 2002-08-13
  • 打赏
  • 举报
回复
如果想把得到的文件转成pdf文件,最简单的办法是找一个html2pdf的工具,然后用java方法带参数启动这个转换程序。另外,我不知道Adobe公司是否有pdf文档的专用java api库,如果有的话,用哪个导也可以。
anod 2002-08-13
  • 打赏
  • 举报
回复
我说一个方法:
1、得到网页的url(当然了,没有这个没法取网页);
2、用url创建一个InetAddress对象,并用它创建一个Socket对象;
3、从Socket对象得到InputStream和PrintStream;
4、按照http协议向PrintStream写数据(就是GET URL HTTP/1.0\R\N HOST:...,实际上是给服务器一个请求,就象ie访问一样);
5、从InputStream取得响应头,分析里面的http状态码,如果是2**的话,说明访问成功,同时监测Location头,看是否有转向。如果转向的话,按照上面的方法继续访问。
6、如果没有上述的意外情况,在响应头后面有一个空行,然后的内容就是html文件了。
7、好要注意比如连接超时、socket异常等情况,需要分别处理,比如重试或者终端连接等等。
zhangkai 2002-08-12
  • 打赏
  • 举报
回复
URLConnection可以搞定,不过好怎么转成pdf就不知道了
signboy 2002-08-12
  • 打赏
  • 举报
回复
关注!
SQLException 2002-08-12
  • 打赏
  • 举报
回复
貫注
telenths 2002-08-12
  • 打赏
  • 举报
回复
用 URLConnection

62,614

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧