<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
...(中间部分省略)
<!-- {start:list -->
<div class="grid-view">
<ul class="cls" id="data-table">
<li>
<div class="img"><a target="_blank" href="http://test.com/abcdefg"> <img src="http://img.mall.test.com/abcd.jpg"> </a></div>
<div class="title">
<a class="ico-b2c" href="http://co.test.com/content/help/2009-08-06/113746233677.html#1" target="_blank" title="测试数据1!"></a><h3><a target="_blank" href="http://book.test.com/">沸腾15年</a></h3>
<a class="xb-icon-small-1 no_name"></a> <a class="xb-icon-small-2 no_name"></a>
</div>
<div class="bot">
价格:<strong>75.<span class="small">00</span></strong>
<a href="#" class="btn-im-online2" account="北京图书出版室"></a><br>
</div>
</li>
<li>
<div class="img"><a target="_blank" href="http://test.com/abcdefg2"> <img src="http://img.mall.test.com/abcd2.jpg"> </a></div>
<div class="title">
<a class="ico-b2c" href="http://co.test.com/content/help/2009-08-06/113746233677.html#1" target="_blank" title="测试数据2!"></a><h3><a target="_blank" href="http://book.test.com/">三国演义</a></h3>
<a class="xb-icon-small-1 no_name"></a> <a class="xb-icon-small-2 no_name"></a>
</div>
<div class="bot">
价格:<strong>255.<span class="small">00</span></strong>
<a href="#" class="btn-im-online2" account="北京图书出版室"></a><br>
</div>
</li>
...(类似的数据)
</ul>
</div>
<!-- }end:list -->
...(后面省略的数据)
1、是想通过过滤,通过<div class="grid-view">
然后把这段数据首先获取下来,由于"grid-view"带有双引号,这个unicode字符无法通过正则表达式区分,查了下
http://www.gznc.edu.cn/yxsz/jjglxy/book/Java_api/java/util/regex/Pattern.html
这个链接页面,针对Unicode 块和类别的类,\p{InGreek} Greek 块(简单块)中的字符。
测试,还是无法获取这段数据。
2、想获取每个<li>...<li>
中的
<div class="img"><a target="_blank" href="http://test.com/abcdefg"> <img src="http://img.mall.test.com/abcd.jpg">
获取这个img标记的图片的href以及图片的src,http://test.com/abcdefg以及http://img.mall.test.com/abcd.jpg。
以及产品名称:沸腾15年
产品价格:75
以前没怎么用过正则表达式,搜索看了很多资料,始终未找到和此应用相关的例子,请求高手解答下!
谢谢!!!