高分求助：为什么在用java程序获得网页编码格式时charset找不到？

千山独行 2008-09-02 02:07:28

html网页的内容大致如下：
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />

<title>CSDN首页</title>
...
</head>
<body>
.....
</html>

我使用以下语句抓取类似上面的网页：
URL url = new URL("http://www.csdn.net");
HttpURLConnection connection = (HttpURLConnection)url.openConnection();
//建立连接后，使用下面两句取得网页的编码格式
String contentType = connection.getHeaderField("Content-Type");
contentType = connection.getContentType();
无论是哪一句，得到的contentType的值都是text/html，而不包含后面的charset=gb2312，这是为什么？

我注意到一个问题，content="text/html; charset=gb2312"这里，在;和charset之间有一个空格，是否因为这个空格的缘故，而不能得到content-type的准确值
还有没有其他的办法可以得到页面的编码字符集？

...全文

554 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

miaoliujun 2008-09-02

打赏
举报

回复

request里获取的是传输时候的编码，需要在程序中设置response的编码，这两个是对应的
而meta中的和这个是两回事了，主要用于浏览器显示时候字符集的选择

handsome224521 2008-09-02

打赏
举报

回复

顶一下 jf

吴冬冬 2008-09-02

打赏
举报

回复

根据html内容的编码规律，自动检测

还要注意一个页面多种编码的情况

老紫竹 2008-09-02

打赏
举报

回复

一段典型的返回信息的Header数据
HTTP/1.1 200 OK
Date: Mon, 01 Sep 2008 23:13:31 GMT
Server: Apache/2.2.4 (Win32) mod_jk/1.2.26
Vary: Host,Accept-Encoding
Set-Cookie: JAVA2000_STYLE_ID=1; Domain=www.java2000.net; Expires=Thu, 03-Nov-2011 09:00:10 GMT; Path=/
Content-Encoding: gzip
Transfer-Encoding: chunked
Content-Type: text/html;charset=UTF-8
<html>
.....

本问题有典型性，我整理于这里：http://www.java2000.net/p9226

老紫竹 2008-09-02

打赏
举报

回复

connection.getContentType();
这个需要服务器设置了 ContentType才可以，这个数据在文件头里面，而不是在文件的主体(也就是你看到的html）里面。
所以检测页面类型需要分3步，如果这一步不行，则用下一个
1 看header里面的ContentType,也就是你用的那个方法
2 看 html 里面的 ContentType ，也就是解析html页面
3 对html数据进行自动评估，类似于it里面的自动检测编码类型。

千山独行 2008-09-02

打赏
举报

回复

请问老紫竹，需要服务器设置了 ContentType是什么意思，是指tomcat等webserver某个配置文件设置这个值，还是静态文件的文件头<head>内设置这个值？

1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

内容概要：本文介绍了一个基于冠豪猪优化算法（CPO）的无人机三维路径规划项目，利用Python实现了在复杂三维环境中为无人机规划安全、高效、低能耗飞行路径的完整解决方案。项目涵盖空间环境建模、无人机动力学约束、路径编码、多目标代价函数设计以及CPO算法的核心实现。通过体素网格建模、动态障碍物处理、路径平滑技术和多约束融合机制，系统能够在高维、密集障碍环境下快速搜索出满足飞行可行性、安全性与能效最优的路径，并支持在线重规划以适应动态环境变化。文中还提供了关键模块的代码示例，包括环境建模、路径评估和CPO优化流程。; 适合人群：具备一定Python编程基础和优化算法基础知识，从事无人机、智能机器人、路径规划或智能优化算法研究的相关科研人员与工程技术人员，尤其适合研究生及有一定工作经验的研发工程师。; 使用场景及目标：①应用于复杂三维环境下的无人机自主导航与避障；②研究智能优化算法（如CPO）在路径规划中的实际部署与性能优化；③实现多目标（路径最短、能耗最低、安全性最高）耦合条件下的工程化路径求解；④构建可扩展的智能无人系统决策框架。; 阅读建议：建议结合文中模型架构与代码示例进行实践运行，重点关注目标函数设计、CPO算法改进策略与约束处理机制，宜在仿真环境中测试不同场景以深入理解算法行为与系统鲁棒性。

先看效果： https://pan.quark.cn/s/4f231e33b729 auto-buy-Python-tool 图形界面, 电脑小白也会用, 下载可直接运行! 京东自动购买口罩实时抢购口罩工具, 抗击疫情中国加油! :fire: 点击这里下载, 解压后可直接运行! 欢迎加星修复了商品下架后的问题, 更新了交互界面; 修复了可配货商品的判断, 更新了数量调整接口, 更新了是否监控下架商品选项 :star2: 使用指南 :notebookwithdecorative_cover: Tips: 登录一次之后本地会保存登录信息, 重启软件(注意重启之后也行)之后仍然可以记住账号登录信息, 重启之后只需点击"开始监控"就可以登录! 不必重复扫码! 运行界面如下图: interface Update at 2020-3-2: Continuously monitor goods removed from JD.monitorSoldOutGoods Update at 2020-2-15: quantity can be modifiedquantity 填写方式: Tips: 软件启动时带有标准填写格式的默认值, 请留意. 输入商品ID: 比如为: https://item.jd.com/1835967.html 的商品ID为1835967. 输入收件地区编码: 使用Chrome浏览器(如果是其他浏览器请用同样方式打开开发者工具)登录京东并访问商品页, 选择派送地址后按查找开头的讯息, 如下图: AreaID 接受讯息邮箱: 您的接受讯息邮箱. 滑动条: 控制监控时查询的速度(频率). 购买数量: 调整一次购买数量. 是否自动忽略下架商品: 未打...

clustering-results-PathologyGAN.csv

代码随便写的，将就看看吧基于pyqt5开发的，功能简单的mqtt客户端工具原文https://blog.csdn.net/weixin_45066336/article/details/122923967

81,115

社区成员

341,731

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章