Java正则表达式抽取网页script标签之间的内容

tsang1990 2017-07-14 11:04:09



String regex = "<[\\s]*?script type=\"text/tp[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";

		String htmlURL = "http://mshupeidian.bjx.com.cn/mnews/20170711/836347.shtml";

		//		String html = "<script type=\"text/tp1\" id=\"tp1\"><p><strong>95、发电源设点功率按什么原则计算?</strong></p><p>答：电源设点功率是根据ACE的大小按不同原则计算。ACE按其大小分为死区、正常分配区、允许控制区及紧急支援区。对不同的区域有不同的分配策略。</p></script>"; 

		String html = HtmlUtils.getUserHtmlContent(htmlURL);//返回的网页源码

		Pattern pattern = Pattern.compile(regex);   

		Matcher matcher = pattern.matcher(html); 

		while(matcher.find()){

			System.out.println(matcher.group(0));

		}

如题，想利用正则表达式提取网页<script type="text/tp1" id="tp1"></script>间的内容，采用如上regex表达式时发现返回的结果:
<script type="text/tp1" id="tp1">
<p><strong>95、发电源设点功率按什么原则计算?</script>
<script type="text/tp2" id="tp2">
<p><strong>107、什么是能量管理系统(EMS）？其主要功能是什么?</script>
<script type="text/tp3" id="tp3">
<p><strong>122、电力系统电压调整的常用方法有几种？</script>
<script type="text/tp4" id="tp4">
<p><strong>137、电力变压器停、送电操作,应注意哪些事项？</script>

问题即遇到源码含半边 /> 就停止匹配了，不能抽取完整结果，但同样的方法将上述的匹配内容换为注释的内容时有能准确抽取，尝试直接在网页源码进行转义双引号（即

String html = HtmlUtils.getUserHtmlContent(htmlURL).replaceAll("\"","\"");

）但依然无法抽取！请问如何才能抽取完整结果，万谢！！

...全文

706 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

tsang1990 2017-07-14

打赏
举报

将表达式

String regex = "<[\\s]*?script type=\"text/tp[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";

改为

String regex = "<script type=\"text/tp\\d\"\\s*id=\"tp\\d\">(\\s*\\S*.*)"

也就是将后半个标签</script>去除匹配就解决了问题，匹配出来的部分结果

<p><strong>导体屏蔽层（也称内屏蔽层、内半导电层）</script>

可见到有</script>穿插在其中，但后面的内容依然可以准确抽取出来，新手不才，希望哪位大神解答一下其中的原因，万谢！！

本文介绍了一种使用正则表达式及字符串操作从网页中抽取信息的方法。具体包括去除script标签、注释和HTML标签等内容，同时提供了根据指定的起始和结束位置截取字符串的功能。这些技术对于进行网页爬虫和内容解析非常有用。

本文介绍了一种使用正则表达式及字符串操作从网页中抽取信息的方法。具体包括去除script标签、注释及HTML标签等内容，同时提供了根据指定起始与结束位置截取字符串的实用函数。

本文介绍了一种使用正则表达式及字符串操作从网页中抽取信息的方法。具体包括去除script、注释和HTML标签等步骤，并提供了如何根据指定的起始和结束位置截取字符串的示例代码。

本文系统讲解RAG（检索增强生成）与长短记忆机制在AI Agent中的工程落地，涵盖ETL智能清洗、语义分块、向量库集成（Milvus/pgvector）、混合检索与重排、自适应查询重写与CRAG容错路由，以及基于BaseStore的短周期会话管理与长效用户画像提取。强调生产级实践，包括PII脱敏、多租户隔离、静默观察者架构和LCEL统一编排，最终构建‘千人千面’记忆问答智能体。

Java

51,408

社区成员

86,090

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章