java 正则表达式提取页面代码问题。。。

txzgavin334diuje 2010-01-22 03:48:02
要提取下面网页中的
1。title部分。
2。<div id="movie_detail_infor">到<!-- google_ad_section_end -->中间部分。


<html xmlns="http://www.w3.org/1999/xhtml"><head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>
还有一个值得向动作游戏高手们推荐的系统要素</title>
</head>
<body>
<div id="movie_detail_infor">
<div id="footer">
? (网站试运行),现阶段我们提供电影,电影游戏等内容的下载

</div>
</div>
<!-- google_ad_section_end -->
</body></html>



下面是我的代码。就是取不到。


public static void getMainContens(String alls) {

String patternStr = "<div id=\"movie_detail_infor\">" +
"(.*?)" +
"<!-- google_ad_section_end -->";

Pattern pa = Pattern.compile(patternStr);
Matcher m = pa.matcher(alls);

while (m.find()) {
System.out.println(m.group(1));
}
}


请高手帮忙。
...全文
49 2 打赏 收藏 举报
写回复
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
keepkey 2010-01-23
  • 打赏
  • 举报
回复
建议楼主用I/O方法取,一行一行的,用indexOf()判断


我前几天给朋友下载《盗墓笔记》,没有找到现成的TXT,我就拿迅雷下载的网页全部链接,然后按固定格式分析HTML,批量转换为TXT
吴冬冬 2010-01-22
  • 打赏
  • 举报
回复
htmlparser
相关推荐
发帖
Java

4.9w+

社区成员

Java相关技术讨论
javaspring bootspring cloud 技术论坛(原bbs)
社区管理员
  • Java相关社区
  • 小虚竹
  • 谙忆
加入社区
帖子事件
创建了帖子
2010-01-22 03:48
社区公告
暂无公告