求正则高手如何取网页中的指定内容

满天飞舞rose 2014-01-15 10:01:44
如下的文件,只是举例,里面的url和非html元素可能会变
<table class="info-table">
<tbody>
<tr>
<td class="name">发行银行</td>
<td class="value"><a href="http://bank.eastmoney.com/Bank3080136.html">招商银行</a></td>
<td class="name">币种</td>
<td class="value">人民币</td>
</tr>
<tr>
<td class="name">产品类型</td>
<td class="value">人民币理财</td>
<td class="name">委托管理期</td>
<td class="value wtglq" style="height:45px;">53日</td>
</tr>
<tr>
<td class="name">预期最高年化收益</td>
<td class="value">6.00%</td>
<td class="name">是否保本</td>
<td class="value">非保本</td>
</tr>
<tr>
<td class="name">收益类型</td>
<td class="value">收益浮动</td>
<td class="name">投资金额</td>
<td class="value">50000</td>
</tr>
<tr>
<td class="name">销售起始日期</td>
<td class="value">2014-01-15</td>
<td class="name">销售结束日期</td>
<td class="value">2014-01-19</td>
</tr>
<tr>
<td class="name">收益起始日期</td>
<td class="value">2014-01-20</td>
<td class="name">收益结束日期</td>
<td class="value">2014-03-14</td>
</tr>
<tr>
<td class="name">销售地区</td>
<td class="value area" colspan="3" style=" height:79px;"><p>北京市</p></td>
</tr>

</tbody>
</table>

我想把
招商银行,人民币,人民币理财等内容分别取出,这些内容是会变化的,但是前面对应的发行银行.币种,产品类型等不会变.

求用java正则的方法
...全文
125 点赞 收藏 5
写回复
5 条回复
风暴之灵_tlfu 2014年01月16日
jsoup...
回复 点赞
兔子托尼啊 2014年01月16日
jsoup 抓取 。然后分析。
回复 点赞
suciver 2014年01月16日
解析网页jsoup要比正则方便的多
回复 点赞
小卜兔 2014年01月15日

String result = "<td class=\"name\">是否保本</td>";
		
		//匹配<td></td>
		Pattern p = Pattern.compile("(<td class=\"name\">[^<]+</td>)|(<td class=\"value\">[^<]+</td>)");
		Matcher mather = p.matcher(result);
		while(mather.find()) {
			String temp = mather.group();

			//替换<td></td>后的结果
			temp = temp.replaceAll("(<td[^>]+>)|(</td>)", "");
			System.out.println(temp);
		}
回复 点赞
发动态
发帖子
Web 开发
创建于2007-09-28

5.2w+

社区成员

34.1w+

社区内容

Java Web 开发
社区公告
暂无公告