java正则表达式，如何剔除HTML注释

小羊快跑 2013-02-18 05:28:18

下面这段html代码，我想剔除所有的标签、脚本、注释，只留下实际的文字内容，使用的java方法也贴出来了，可结果却不尽人意，剔除结果是剩下了几个字，经研究，发现是regEx_o = "<\\!--.*-->"导致的，由于<body></body>的前后都有注释，导致整个body都被截掉了，尝试这样写regEx_o = "<\\!--[^(*-->*)]-->";还是会存在问题，所有正能请教高人了！
HTML页面的内容：

<html xmlns:v="urn:schemas-microsoft-com:vml"

xmlns:o="urn:schemas-microsoft-com:office:office"

xmlns:w="urn:schemas-microsoft-com:office:word"

xmlns:m="http://schemas.microsoft.com/office/2004/12/omml"

xmlns="http://www.w3.org/TR/REC-html40">



<head>

<meta http-equiv=Content-Type content="text/html; charset=gb2312">

<meta name=ProgId content=Word.Document>

<meta name=Generator content="Microsoft Word 12">

<meta name=Originator content="Microsoft Word 12">

<link rel=File-List href="54-01-01_3_2.files/filelist.xml">

<link rel=Edit-Time-Data href="54-01-01_3_2.files/editdata.mso">

<!--[if !mso]>

<style>

v\:* {behavior:url(#default#VML);}

o\:* {behavior:url(#default#VML);}

w\:* {behavior:url(#default#VML);}

.shape {behavior:url(#default#VML);}

</style>

<![endif]-->

<title>气发〔2001〕×号</title>

<!--[if gte mso 9]><xml>

 <o:DocumentProperties>

  <o:Author>admin</o:Author>

 </o:DocumentProperties>

</xml><![endif]-->

<link rel=themeData href="54-01-01_3_2.files/themedata.thmx">

<link rel=colorSchemeMapping href="54-01-01_3_2.files/colorschememapping.xml">

<!--[if gte mso 9]><xml>

 <w:WordDocument>

</xml><![endif]-->

<style>

<!--

 /* Font Definitions */

div.Section1

	{page:Section1;}

-->

</style>

<!--[if gte mso 10]>

<style>

 /* Style Definitions */

</style>

<![endif]--><!--[if gte mso 9]><xml>

 </o:shapelayout></xml><![endif]-->

</head>



<body lang=ZH-CN style='tab-interval:21.0pt;text-justify-trim:punctuation'>



<div class=Section1 style='layout-grid:30.8pt -.2pt;mso-layout-grid-char-alt:

-849'>



<p class=MsoNormal style='line-height:28.3pt;mso-line-height-rule:exactly'><!--[if gte vml 1]><v:line

 id="_x0000_s1029" style='position:absolute;left:0;text-align:left;z-index:-3;

 visibility:visible;mso-position-vertical-relative:page' from="-20.95pt,783.3pt"

 to="460.95pt,783.3pt" strokecolor="red" strokeweight="4.5pt">

 <v:stroke linestyle="thinThick"/>

</v:line><![endif]-->



</span><![endif]><!--[if gte vml 1]><v:line id="_x0000_s1027" style='position:absolute;

 left:0;text-align:left;z-index:-5;visibility:visible;

 mso-position-vertical-relative:page' from="-20.75pt,140.6pt" to="461.15pt,140.6pt"

 strokecolor="red" strokeweight="4.5pt">

 <v:stroke linestyle="thickThin"/>

</v:line><![endif]--><![if !vml]><span style='mso-ignore:vglayout;position:

absolute;z-index:-5;left:0px;margin-left:-31px;margin-top:184px;width:649px;

height:7px'><img width=649 height=7 src="54-01-01_3_2.files/image002.gif"

v:shapes="_x0000_s1027"></span><![endif]></p>



</span><![endif]></p>



<p class=MsoNormal align=center style='text-align:center;line-height:35.0pt;

mso-line-height-rule:exactly;layout-grid-mode:char'><span style='font-size:

22.0pt;mso-bidi-font-size:10.0pt;font-family:方正小标宋简体;mso-bidi-font-weight:bold'>质量检验工作改革方案的通知<span

lang=EN-US><o:p></o:p></span></span></p>



<p class=MsoNormal style='text-indent:31.6pt;mso-char-indent-count:2.0;

line-height:25.0pt;mso-line-height-rule:exactly'><span style='mso-bidi-font-size:

16.0pt;font-family:仿宋_GB2312;mso-bidi-font-family:宋体;color:black;mso-font-kerning:

0pt'>为适应精细化天气预报服务工作需求，开展精细化的天气预报质量检验工作，完善预报业务质量考核体系，有效促进天气预报准确率的提高，我司决定对现行中短期天气预报质量检验工作进行改革。主要改革内容为：<span

lang=EN-US>12</span>小时降水量预报用语严格按照<span lang=EN-US>12</span>小时降水量分级标准，<span

lang=EN-US>24</span>小时时效的检验使用<span lang=EN-US>2</span>段<span lang=EN-US>12</span>小时的预报质量检验结果。现行的由<span

lang=EN-US>2</span>段<span lang=EN-US>12</span>小时预报合成为<span lang=EN-US>24</span>小时预报进行质量检验的方法暂且保留。<span

lang=EN-US><o:p></o:p></span></span></p>





<p class=MsoNormal style='line-height:21.5pt;mso-line-height-rule:exactly;

layout-grid-mode:char'><!--[if gte vml 1]><v:shape id="文本框_x0020_2" o:spid="_x0000_s1030"

 type="#_x0000_t202" style='position:absolute;left:0;text-align:left;

 margin-left:182.2pt;margin-top:16.15pt;width:272.75pt;height:34.7pt;z-index:5;

 visibility:visible;mso-width-relative:margin;mso-height-relative:margin'

 o:gfxdata="UEsDBBQABgAIAAAAIQC2gziS/gAAAOE

" stroked="f" strokecolor="white">

 <v:fill opacity="0"/>

 <v:textbox style='mso-next-textbox:#文本框_x0020_2'>

  <![if !mso]>

  <table cellpadding=0 cellspacing=0 width="100%">

   <tr>

    <td><![endif]>

    <div>

    <p class=MsoNormal align=center style='text-align:center'><span

    style='font-family:仿宋_GB2312;mso-ascii-font-family:"Times New Roman"'>预报司</span></p>

    </div>

    <![if !mso]></td>

   </tr>

  </table>

  <![endif]></v:textbox>

</v:shape><![endif]--><![if !vml]><span style='mso-ignore:vglayout'>



<table cellpadding=0 cellspacing=0 align=left>

 <tr>

  <td width=242 height=21></td>

 </tr>

 <tr>

  <td></td>

  <td><img width=369 height=51 src="54-01-01_3_2.files/image003.gif"

  alt="文本框: 预报司" v:shapes="文本框_x0020_2"></td>

 </tr>

</table>



</span><![endif]>



<p class=MsoNormal align=right style='margin-right:63.15pt;mso-para-margin-right:

4.0gd;text-align:right;line-height:30.0pt;mso-line-height-rule:exactly;

layout-grid-mode:char'><span lang=EN-US style='font-family:仿宋_GB2312;

letter-spacing:-.3pt'>2012</span><span style='font-family:仿宋_GB2312;letter-spacing:

-.3pt'>年<span lang=EN-US>11</span>月<span lang=EN-US>29</span>日<span lang=EN-US><o:p></o:p></span></span></p>



</div>



</body>



</html>

我使用的java方法：

public static String stripHtml(String HTMLStr) {

       String htmlStr = HTMLStr;  

       String textStr = "";  

       java.util.regex.Pattern p_script;  

       java.util.regex.Matcher m_script;  

       java.util.regex.Pattern p_style;  

       java.util.regex.Matcher m_style;  

       java.util.regex.Pattern p_html;  

       java.util.regex.Matcher m_html;  

       java.util.regex.Pattern p_o;  

       java.util.regex.Matcher m_o;  

       try {  

           

           String regEx_o = " ";//空格

           p_o = Pattern.compile(regEx_o, Pattern.CASE_INSENSITIVE);

           m_o = p_o.matcher(htmlStr);

           htmlStr = m_o.replaceAll(" ");

         

           regEx_o = "<\\/p>";//换行符

           p_o = Pattern.compile(regEx_o, Pattern.CASE_INSENSITIVE);

           m_o = p_o.matcher(htmlStr);

           htmlStr = m_o.replaceAll("</p>;newline;");

  

           regEx_o = "<\\!--.*-->";//html注释

           p_o = Pattern.compile(regEx_o, Pattern.CASE_INSENSITIVE);

           m_o = p_o.matcher(htmlStr);

           htmlStr = m_o.replaceAll("");





           String regEx_script = "<[//s]*?script[^>]*?>[//s//S]*?<[//s]*?///[//s]*?script[//s]*?>";  //脚本

           p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);  

           m_script = p_script.matcher(htmlStr);  

           htmlStr = m_script.replaceAll("");   



           String regEx_style = "<[//s]*?style[^>]*?>[//s//S]*?<[//s]*?///[//s]*?style[//s]*?>";   //样式

           p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);  

           m_style = p_style.matcher(htmlStr);  

           htmlStr = m_style.replaceAll("");

           

           regEx_o = " ";//空格

           p_o = Pattern.compile(regEx_o, Pattern.CASE_INSENSITIVE);

           m_o = p_o.matcher(htmlStr);

           htmlStr = m_o.replaceAll(" ");

           

           regEx_o = "<\\/p>";//换行符

           p_o = Pattern.compile(regEx_o, Pattern.CASE_INSENSITIVE);

           m_o = p_o.matcher(htmlStr);

           htmlStr = m_o.replaceAll("</p>;newline;");





           String regEx_html = "<[^>]+>"; //其他html标签

           p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);  

           m_html = p_html.matcher(htmlStr);  

           htmlStr = m_html.replaceAll("");  



           textStr = htmlStr.replaceAll(" ", "");  

           textStr = textStr.replaceAll(";newline;","\n");

       } catch (Exception e)  {  

           System.err.println("Html2Text: " + e.getMessage());

       }

      return textStr;

   }

...全文

530 10 打赏收藏转发到动态举报

写回复

用AI写文章

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

小羊快跑 2013-02-28

打赏
举报

谢谢各位的解答，因为忙着其他事，这个问题被搁置了，先结贴，回头再试各位给的支的招！

失落夏天 2013-02-20

打赏
举报

引用 8 楼 suciver 的回复:

引用 6 楼 AA5279AA 的回复:desc = desc.replaceAll("", ""); 这样就行了。我工程里面就这么解决的这样的是不够的，因为注释的部分有可能多行，这种的只能去掉单行注释 html.replaceAll("","");这样的就可以把不论多行的还是单行的都去掉 ……

只要读出来的是一个字符串，多行注释也是没有关系的。 desc = desc.replaceAll("", ""); 这样是没有问题的。当然换行的时候会转译成$ 这个建议处理一下， desc = desc.replaceAll("$", ""); 当然，这样肯定英雄，可以判断一下$后面连接什么再删除

suciver 2013-02-20

打赏
举报

引用 6 楼 AA5279AA 的回复:

desc = desc.replaceAll("", ""); 这样就行了。我工程里面就这么解决的

这样的是不够的，因为注释的部分有可能多行，这种的只能去掉单行注释 html.replaceAll("","");这样的就可以把不论多行的还是单行的都去掉

a597926661 2013-02-20

打赏
举报

引用 6 楼 AA5279AA 的回复:

desc = desc.replaceAll("", ""); 这样就行了。我工程里面就这么解决的

失落夏天 2013-02-20

打赏
举报

desc = desc.replaceAll("", ""); 这样就行了。我工程里面就这么解决的

爱T 2013-02-20

打赏
举报

本想解决的不过看着看着就看不下去了。。。。就当路过了

Java_Super_Man 2013-02-20

打赏
举报

可以用现成的库，这个比较方便我记得名字是htmlparser 上网搜一下

coder-zzzz 2013-02-18

打赏
举报

还有就是你的代码逻辑有点乱~~~

coder-zzzz 2013-02-18

打赏
举报

//去除注释 regexPattern = ")-->"; pattern = Pattern.compile(regexPattern, Pattern.CASE_INSENSITIVE); matcher = pattern.matcher(result); result = matcher.replaceAll(""); //去除标签 regexPattern = "<[^>]+>"; pattern = Pattern.compile(regexPattern, Pattern.CASE_INSENSITIVE); matcher = pattern.matcher(result); result = matcher.replaceAll(""); //去除空格 regexPattern = "\\s"; pattern = Pattern.compile(regexPattern, Pattern.CASE_INSENSITIVE); matcher = pattern.matcher(result); result = matcher.replaceAll(""); 处理结果：气发〔2001〕×号质量检验工作改革方案的通知为适应精细化天气预报服务工作需求，开展精细化的天气预报质量检验工作，完善预报业务质量考核体系，有效促进天气预报准确率的提高，我司决定对现行中短期天气预报质量检验工作进行改革。主要改革内容为：12小时降水量预报用语严格按照12小时降水量分级标准，24小时时效的检验使用2段12小时的预报质量检验结果。现行的由2段12小时预报合成为24小时预报进行质量检验的方法暂且保留。预报司2012年11月29日

易语言源码高亮显示（模块代码）

源码下载地址： https://pan.quark.cn/s/a4b39357ea24 Altium Designer 18是一款功能丰富的电子设计自动化工具，其集成了电路原理图绘制、PCB布局规划、三维视图展示、电路仿真分析以及生产文件生成等多项核心功能，为电子工程师们提供了一个全面的硬件设计解决方案。该软件的官方中文指导材料系统地阐述了从项目初始阶段到最终完成的全过程操作方法。在“AD18 官方中文指导材料”中，使用者可以掌握以下核心内容要点： 1. **系统配置与界面认知**：熟悉Altium Designer 18的工作平台，涵盖菜单选项、工具栏配置、工作区域安排，以及个性化工作界面的设定方法。 2. **项目创建流程**：掌握如何建立新的项目工程，包括工程参数配置、项目模板选取，以及项目文件的添加操作。 3. **电路图绘制技术**：学习电路原理图的绘制流程，包括元件库的维护管理、元件放置技巧、连接线路绘制、属性编辑操作，以及网络表的自动生成方法。 4. **元件库构建与管理**：了解如何建立自定义元件库，执行元件的导入与导出任务，以及利用Altium Designer自带的元件资源库。 5. **PCB布局设计方法**：掌握PCB设计的基本准则，如元件布局策略、布线技巧、层叠结构调整、布线规则优化，以及冲突检测与短路处理技术。 6. **设计规范与约束条件**：理解设定设计规范和电气约束条件的关键性，包括间距参数设定、焊盘尺寸规格、过孔尺寸要求等，以及运用规则检查进行设计验证的流程。 7. **三维模型整合应用**：学习如何将三维模型与PCB设计内容相结合，以实现更为直观的机械配合验证。 8. **电路性能仿真技术**：掌握使用Altium Des...

源码链接： https://pan.quark.cn/s/a4b39357ea24 ### 接口测试知识要点说明 #### 一、接口测试的定义及分类 1. **概念阐释**： - 接口测试作为软件测试的关键环节，主要对系统之间的交互点进行验证。 - 它旨在核实接口的正确性、稳定性和功能性，保障各个系统组件能够依照预期执行交互操作。 2. **实施情境**： - 适用于多系统联合开发的环境。 - 适用于包含多个子系统的复杂应用系统开发过程。 3. **适用范围**： - 为其他系统提供支持的底层基础架构系统。 - 负责协调中心服务的系统架构。 4. **分类标准**： - **模块接口测试**：通常作为单元测试的一部分，适用于独立构建的功能模块。 - **Web接口测试**： - **服务端接口测试**：针对客户端与服务器端之间的接口进行验证。 - **外部接口测试**：对第三方提供的接口进行测试，例如支付平台提供的授权登录接口。 5. **测试角度**： - **接口功能验证**：核实接口功能是否满足预期要求。 - **接口性能评估**：衡量接口的处理能力及响应时间。 - **接口稳定性考察**：检测接口在长时间运行中的表现情况。 - **接口安全检测**：确保接口能够抵御非法访问或数据篡改。 6. **测试手法**： - **参数细致测试**：深入测试接口的输入参数和输出结果。 - **场景模拟测试**：依据实际业务场景进行测试验证。 #### 二、接口测试的详细流程 1. **测试规划**： - 明确测试范围、目标及所需资源。 - 规划测试策略，选择适宜的工具和技术手段。 2. **测试用例设计**： - 依据需求文档和接口规格文档设计测试用例。 - 覆...

内容概要：本文研究基于遗传算法（GA）与粒子群算法（PSO）相结合的无人机三维路径规划方法，旨在解决无人机在复杂三维环境中避障与路径优化的关键问题。通过构建包含障碍物、威胁区域等约束的三维仿真环境，系统实现了GA与PSO两种智能优化算法的Matlab代码，并对其在路径规划中的性能进行全面对比分析，重点关注路径长度、飞行安全性、算法收敛速度等核心指标。研究充分利用GA的全局搜索能力与PSO的快速局部收敛特性，提出一种混合优化策略，有效克服单一算法易陷入局部最优或收敛缓慢的缺陷。文中不仅详细阐述了算法的设计流程、数学模型与实现细节，还提供了完整的仿真结果，验证了所提混合方法在复杂动态场景下的优越性、有效性和鲁棒性，为无人机自主导航提供了可靠的理论依据和技术方案。; 适合人群：具备一定Matlab编程基础和优化算法理论知识，从事无人机系统设计、智能控制、路径规划、人工智能应用等相关领域研究的研究生、科研人员及工程技术人员。; 使用场景及目标：①应用于城市峡谷、山区、灾害救援等复杂三维环境中的无人机自主避障与最优任务路径规划；②为智能优化算法（GA、PSO及其混合策略）的学习、性能对比与工程化应用提供详实的实践案例和代码参考；③服务于高校科研教学、算法原型快速复现、以及在此基础上的进一步改进与创新研究。; 阅读建议：建议读者结合所提供的Matlab代码进行仿真运行与调试，深入理解两种算法的参数设置、适应度函数设计及路径生成机制，可通过修改环境地图、增加动态障碍物或调整优化目标函数等方式进行扩展性研究，以深化对算法本质和应用场景的理解。

内容概要：LTK8870S是一款单通道H桥有刷直流电机驱动器，支持6.5V至20V工作电压，具备3.0A峰值电流驱动能力，适用于打印机、家用电器及工业设备等机电一体化应用。该芯片采用PWM控制接口，可通过IN1和IN2逻辑输入实现电机正转、反转、滑行与制动等多种工作模式，并支持快衰减和慢衰减两种电流衰减方式以优化电机控制性能。器件集成电流调节功能，通过VREF引脚和外部检测电阻设定限流值，有效控制电机电流并降低系统功耗。同时具备低功耗休眠模式，在IN1和IN2均为低电平时自动进入，显著节省能耗。LTK8870S还集成了多重保护机制，包括VM欠压锁定（UVLO）、过温保护（TSD）、过流保护（OCP）及自动故障恢复功能，提升系统可靠性。其ESOP-8封装带裸露焊盘，利于散热，符合无铅环保标准。; 适合人群：电子硬件工程师、电机控制系统开发者、嵌入式系统设计人员，尤其适用于从事电机驱动电路设计的中级技术人员。; 使用场景及目标：①用于控制中小型有刷直流电机的正反转与调速；②应用于需要电流限制和节能休眠功能的电池供电设备；③作为工业自动化、智能家电或办公设备中的核心驱动模块；④帮助开发者理解H桥驱动、PWM调速、电流衰减模式及保护电路的设计原理。; 阅读建议：此资源技术细节丰富，建议结合典型应用电路图与电气参数表进行硬件设计参考，重点关注PWM控制逻辑、电流调节设置及保护机制的实现方式，并在实际应用中配合示波器调试输出波形与电流响应。