社区
Web 开发
帖子详情
htmlparser解析网页出现中文乱码
dushouxian
2010-08-09 10:37:23
http://www.21golf.com/communityarticleinfo/36606
就这个网址 不知道为什么中文就是乱码 设置了Encoding 是UTF-8还是GBK都不行
...全文
386
12
打赏
收藏
htmlparser解析网页出现中文乱码
http://www.21golf.com/communityarticleinfo/36606 就这个网址 不知道为什么中文就是乱码 设置了Encoding 是UTF-8还是GBK都不行
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
12 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
myfamiliar
2010-12-20
打赏
举报
回复
根本就不乱,我专门写了段代码,试试了试,不乱.
大家可以试试这个:http://health.sohu.com/yangshengtang/
如果有人可以把这个网址的源码不乱码的解析出来,就厉害了,有谁知道这是怎么做到的?
dushouxian
2010-08-09
打赏
举报
回复
顶一下 希望中午有牛人能够解决
dushouxian
2010-08-09
打赏
举报
回复
做过爬虫的大哥指点一下吧。。。
sling2007
2010-08-09
打赏
举报
回复
htmlparser应该有内置的编码解析机制
我只用过jtidy,它提供了几种编码,几种之间都试一下得了
dushouxian
2010-08-09
打赏
举报
回复
没人知道吗?
worki
2010-08-09
打赏
举报
回复
应该是将页面内容读取到本地时转码错误。
String charset = urlConnection.getContentEncoding();
urlConnection 是对应的URLConnection。
应该优先使用charset为页面编码类型。如果为空,则使用页面中的编码类型。
建议先将页面以字节流方式读到本地,然后进行分析,可以避免页面中文乱码问题。
dushouxian
2010-08-09
打赏
举报
回复
谢谢楼上
yinzisheng
2010-08-09
打赏
举报
回复
虽然不知道怎么解决,还是帮顶下
dushouxian
2010-08-09
打赏
举报
回复
有没有人晓得啊?
dushouxian
2010-08-09
打赏
举报
回复
我说的是用Htmlparser分析网页?
Silence_Smile
2010-08-09
打赏
举报
回复
页面内容应该是UTF-8的,虽然源码里写着gb2312
chrome浏览器 设置编码gb2312乱码,设为UTF-8显示正常
dushouxian
2010-08-09
打赏
举报
回复
为什么浏览器显示的中文正常?!!!
html-parser:php html
解析
器,类似与PHP Simple HTML DOM Parser,但是比它快好几倍
HtmlParser
php html
解析
工具,类似与PHP Simple HTML DOM Parser。由于基于php模块dom,所以在
解析
html时的效率比PHP Simple HTML DOM Parser快好几倍。 注意:html代码必须是utf-8编码字符,如果不是请转成utf-8如果有乱码的问题参考: ://www.fwolf.com/blog/post/314 现在支持composer “ require”:{“ bupt1987 / html-parser”:“ dev-master”} 加载作曲家需要'vendor / autoload.php'; ========
HttpClient以及获取页面内容应用
压缩包中含有多个文档,从了解httpclient到应用。 httpClient 1httpClint 1.1简介 HttpClient是Apache Jakarta Common下的子项目,用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包,并且它支持HTTP协议最新的版本和建议。HttpClient已经应用在很多的项目中,比如Apache Jakarta上很著名的另外两个开源项目Cactus和HTMLUnit都使用了HttpClient。 下载地址: http://hc.apache.org/downloads.cgi 1.2特性 1. 基于标准、纯净的java语言。实现了Http1.0和Http1.1 2. 以可扩展的面向对象的结构实现了Http全部的方法(GET, POST, PUT, DELETE, HEAD, OPTIONS, and TRACE)。 3. 支持HTTPS协议。 4. 通过Http代理建立透明的连接。 5. 利用CONNECT方法通过Http代理建立隧道的https连接。 6. Basic, Digest, NTLMv1, NTLMv2, NTLM2 Session, SNPNEGO/Kerberos认证方案。 7. 插件式的自定义认证方案。 8. 便携可靠的套接字工厂使它更容易的使用第三方解决方案。 9. 连接管理器支持多线程应用。支持设置最大连接数,同时支持设置每个主机的最大连接数,发现并关闭过期的连接。 10. 自动处理Set-Cookie中的Cookie。 11. 插件式的自定义Cookie策略。 12. Request的输出流可以避免流中内容直接缓冲到socket服务器。 13. Response的输入流可以有效的从socket服务器直接读取相应内容。 14. 在http1.0和http1.1中利用KeepAlive保持持久连接。 15. 直接获取服务器发送的response code和 headers。 16. 设置连接超时的能力。 17. 实验性的支持http1.1 response caching。 18. 源代码基于Apache License 可免费获取。 1.3版本 org.apache.http.impl.client.HttpClients 与 org.apache.commons.httpclient.HttpClient目前后者已被废弃,apache已不再支持。 一般而言,使用HttpClient均需导入httpclient.jar与httpclient-core.jar2个包。 1.4使用方法与步骤 开发环境:需要 使用HttpClient发送请求、接收响应很简单,一般需要如下几步即可。 1.创建HttpClient对象。 HttpClient client = new HttpClient(); 2.创建请求方法的实例,并指定请求URL。如果需要发送GET请求,创建HttpGet对象;如果需要发送POST请求,创建HttpPost对象。 //使用GET方法,如果服务器需要通过HTTPS连接,那只需要将下面URL中的 http换成https HttpMethod method = new GetMethod("http://www.baidu.com"); //使用POST方法 HttpMethod method = new PostMethod("http://java.sun.com";); 3. 如果需要发送请求参数,可调用HttpGet、HttpPost共同的setParams(HetpParams params)方法来添加请求参数;对于HttpPost对象而言,也可调用setEntity(HttpEntity entity)方法来设置请求参数。 3.调用HttpClient对象的execute(HttpUriRequest request)发送请求,该方法返回一个HttpResponse。 client.executeMethod(method); 5. 调用HttpResponse的getAllHeaders()、getHeaders(String name)等方法可获取服务器的响应头;调用HttpResponse的getEntity()方法可获取HttpEntity对象,该对象包装了服务器的响应内容。程序可通过该对象获取服务器的响应内容。 6. 释放连接。无论执行方法是否成功,都必须释放连接 //打印服务器返回的状态 System.out.println(method.getStatusLine()); //打印返回的信息 System.out.println(method.getResponseBodyAsString(
java parser乱码_
htmlparser
解析
一些
网页
时,繁体中文会变成乱码
最近发现用
htmlparser
解析
一些
网页
时,繁体中文会变成乱码.分析了下原因,发现在用stringbean的时候
htmlparser
会自己根据meta来决定用哪种内码来解码,而有的网站在meta中是用gb2312来做charset,实际应用的时候又用到了gbk.gb2312是不能表示繁体的,所以就
出现
了乱码.解决的办法很简单,gbk是兼容gb2312的,所以在
htmlparser
的page.ja...
htmlparser
解析
一些
网页
时,繁体中文会变成乱码
htmlparser
解析
一些
网页
时,繁体中文会变成乱码 最近发现用
htmlparser
解析
一些
网页
时,繁体中文会变成乱码.分析了下原因,发现在用stringbean的时候
htmlparser
会自己根据meta来决定用哪种内码来解码,而有的网站在meta中是用gb2312来做charset,实际应用的时候又用到了gbk.gb2312是不能表示繁体的,所以就
出现
了乱码.解决的办法很简单,gbk是兼容...
基于
htmlparser
实现
网页
内容
解析
基于
htmlparser
实现
网页
内容
解析
网页
解析
,即程序自动分析
网页
内容、获取信息,从而进一步处理信息。
网页
解析
是实现网络爬虫中不可缺少而且十分重要的一环,由于本人经验也很有限,我仅就我们团队开发基于关键词匹配和模板匹配的主题爬虫的经验谈谈如何实现
网页
解析
。 首先,必须说在最前的是我们使用的工具——
htmlparser
简要地说,
htmlparser
包提供方便、简洁的处理html文...
Web 开发
81,091
社区成员
341,718
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章