网页抓取信息,加字符编码转换

gigi_cg 2010-05-07 08:07:18
情况是这样的:从别人网站上抓取股票交易信息,结果网站上代码如下

<html>
<body>
<table id=historical_price class=gf-table>
<tr class=bb>
<th class="bb lm">日期
<th class="rgt bb">开盘价 <th class="rgt bb">最高价 <th class="rgt bb">最低价
<th class="rgt bb">收盘价
<th class="rgt bb rm">成交量
</tr>
<tr>
<td class="lm">2010-04-23
<td class="rgt">18.18
<td class="rgt">18.50
<td class="rgt">17.99
<td class="rgt">18.18
<td class="rgt rm">4,317,567
</tr>
<tr>
<td class="lm">2010-04-22<td>
<td class="rgt">18.11
<td class="rgt">18.11
<td class="rgt">18.11
<td class="rgt">18.11
<td class="rgt rm">0
</tr>
<tr>
<td class="lm">2010-04-21
<td class="rgt">17.60
<td class="rgt">18.25
<td class="rgt">17.60
<td class="rgt">18.11
<td class="rgt rm">4,993,918

</table>
</body></html>

想把日期这种转换成汉字:日期,并且把有关数据提取出来,哪位大大能帮帮忙,关键它也不符合xml
...全文
247 8 打赏 收藏 转发到动态 举报
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
gigi_cg 2010-05-07
  • 打赏
  • 举报
回复
使用htmlparser轻松搞定,谢谢各位
附:参考连接:http://htmlparser.com.cn/post/20100408679.html
海会圣贤 2010-05-07
  • 打赏
  • 举报
回复
。。。。。。。。。。。
zfq642773391 2010-05-07
  • 打赏
  • 举报
回复
网页的编码一般是utf-8的,你看一下它的编码是哪种 ,重编码一下
想用简单的重编码就用String,
例如str=“你的抓起内容”;
str=new String(str.getBytes("utf-8"),"utf-8");
或者用java.nio里的charset也可以
star19860411 2010-05-07
  • 打赏
  • 举报
回复
一般来说网页中用的编码方式都是UTF-8的...
ladybirds2008 2010-05-07
  • 打赏
  • 举报
回复
编码GBK 帮你顶啦。。。。。。。。。不知道你要干什么?
qustgjk 2010-05-07
  • 打赏
  • 举报
回复
他的编码是GBK的,你把它转成你要的编码不就行了
http://bm.kdd.cc/index.asp
ginni215 2010-05-07
  • 打赏
  • 举报
回复
获得上面的关键信息,比如2010-04-23、18.18这些关键信息。

用正则表达式就可以了~
gigi_cg 2010-05-07
  • 打赏
  • 举报
回复
大家先仔细看下,这个不是一个正规的xml,
<tr>
<td class="lm">2010-04-23
<td class="rgt">18.18
<td class="rgt">18.50
<td class="rgt">17.99
<td class="rgt">18.18
<td class="rgt rm">4,317,567

我主要有2个目的:
1.日期对他一个转换----已解决
2.获得上面的关键信息,比如2010-04-23、18.18这些关键信息。

81,094

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧