java 正则表达式提取页面代码问题。。。

txzgavin334diuje 2010-01-22 03:48:02

要提取下面网页中的
1。title部分。
2。<div id="movie_detail_infor">到中间部分。

<html xmlns="http://www.w3.org/1999/xhtml"><head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>
还有一个值得向动作游戏高手们推荐的系统要素</title>
</head>
<body>
<div id="movie_detail_infor">
<div id="footer">
? (网站试运行)，现阶段我们提供电影,电影游戏等内容的下载

</div>
</div>

</body></html>

下面是我的代码。就是取不到。

public static void getMainContens(String alls) {

String patternStr = "<div id=\"movie_detail_infor\">" +
"(.*?)" +
"";

Pattern pa = Pattern.compile(patternStr);
Matcher m = pa.matcher(alls);

while (m.find()) {
System.out.println(m.group(1));
}
}

请高手帮忙。

...全文

103 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

keepkey 2010-01-23

打赏
举报

回复

建议楼主用I/O方法取，一行一行的，用indexOf()判断

我前几天给朋友下载《盗墓笔记》，没有找到现成的TXT，我就拿迅雷下载的网页全部链接，然后按固定格式分析HTML，批量转换为TXT

吴冬冬 2010-01-22

打赏
举报

回复

htmlparser

版权声明：本文为博主博客园原创文章，转载请著名作者和出处。原文地址：https://www.cnblogs.com/zenglintao/p/12812804.html 对于在职场工作的朋友们如果需要批量提取文本信息就可以使用本方法 1 import java.io.BufferedReader; 2 import java.io.BufferedWriter; 3 impor...

java获取网页源代码后，提取标签内容……关注:245答案:2mip版解决时间 2021-02-01 09:11提问者咏bù琂败2021-01-31 13:49import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.io.PrintWriter...

正则表达式是一种通过字符模式来匹配和查找字符串的工具。它由一些特殊字符和普通字符组成，可以用来定义搜索模式。

本篇博客介绍了 Java 正则表达式的基本概念、语法和常用操作。我们学习了如何创建正则表达式模式对象、匹配器对象，以及如何使用它们进行字符串的匹配、提取和替换操作。正则表达式在 Java 程序中具有广泛的应用，可以帮助我们处理文本数据，提取关键信息，进行格式验证等。通过灵活运用正则表达式，我们可以更高效地处理字符串操作。希望本篇博客对你理解和使用 Java 正则表达式有所帮助。祝你在 Java 编程中取得更多的成功！

在本教程中，我们将向您展示如何从HTML页面提取超链接。例如，要从以下内容获取链接： this is text1 <a href='mkyong.com' target='_blank'>hello</a> this is text2... 首先从“价值” a标签-结果： a href='mkyong.com' target='_blank' 稍后从上面提...

51,408

社区成员

86,093

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章