java 正则表达式提取页面代码问题。。。

txzgavin334diuje 2010-01-22 03:48:02
要提取下面网页中的
1。title部分。
2。<div id="movie_detail_infor">到<!-- google_ad_section_end -->中间部分。


<html xmlns="http://www.w3.org/1999/xhtml"><head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>
还有一个值得向动作游戏高手们推荐的系统要素</title>
</head>
<body>
<div id="movie_detail_infor">
<div id="footer">
? (网站试运行),现阶段我们提供电影,电影游戏等内容的下载

</div>
</div>
<!-- google_ad_section_end -->
</body></html>



下面是我的代码。就是取不到。


public static void getMainContens(String alls) {

String patternStr = "<div id=\"movie_detail_infor\">" +
"(.*?)" +
"<!-- google_ad_section_end -->";

Pattern pa = Pattern.compile(patternStr);
Matcher m = pa.matcher(alls);

while (m.find()) {
System.out.println(m.group(1));
}
}


请高手帮忙。
...全文
57 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
keepkey 2010-01-23
  • 打赏
  • 举报
回复
建议楼主用I/O方法取,一行一行的,用indexOf()判断


我前几天给朋友下载《盗墓笔记》,没有找到现成的TXT,我就拿迅雷下载的网页全部链接,然后按固定格式分析HTML,批量转换为TXT
吴冬冬 2010-01-22
  • 打赏
  • 举报
回复
htmlparser

50,639

社区成员

发帖
与我相关
我的任务
社区描述
Java相关技术讨论
javaspring bootspring cloud 技术论坛(原bbs)
社区管理员
  • Java相关社区
  • 小虚竹
  • 谙忆
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧