新手求教htmlparser 简单问题

flashicp 2007-10-01 08:13:00

要获取的HTML原始字符如下
<div class="Left">
<span class="red">基本信息</span><br>

¡¤<span class="dark">
开本：</span>
16<br >

¡¤<span class="dark">
出版日期：</span>
2007-06<br >

¡¤<span class="dark">
版次：</span>
2007年6月第1版<br >

¡¤<span class="dark">
页数：</span>
653<br >

¡¤<span class="dark">
ISBN：</span>
9787500837909<br >

¡¤<span class="dark">
国别：</span>
中国大陆<br >

¡¤<span class="dark">
出版社：</span>
中国工人出版社<br >

¡¤<span class="dark">
精简装：</span>
平装<br >

</div>
要获取的内容如下
ISBN号
出版社号等各个信息
我用了正则的方式可是为什么获取不到呢
下面是我的代码
RegexFilter regFilter=new RegexFilter("ISBN：(.|\\n)+?<br\\s+>");
Parser isbnP=new Parser(nlist.toHtml().toString());
//System.out.println(isbnP.parse(Isbn).toHtml().toString());
System.out.println(isbnP.extractAllNodesThatMatch(regFilter).toHtml());
JAVA中正则要注意什么事件呢，难道是我的正则错了么

...全文

218 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

postmaster2007850929 2008-05-12

打赏
举报

回复

RegexFilter regFilter=
new RegexFilter("(([Ii][Ss][Bb][Nn]:.*?)|((出版社).*?))");

flashicp 2007-10-01

打赏
举报

回复

还没解决不知道那里错了是正则那里就是找不到具体的错误

本文介绍了HTMLParser2项目的常见问题及解决方案，包括如何安装、解析HTML文档以及处理解析过程中的错误。适用于JavaScript开发者快速上手该高效容错的HTML/XML解析器。

HTMLParser2是一个高性能、容错性强的HTML和XML解析库，适用于网页抓取、模板生成、数据迁移等场景。其事件驱动架构支持流式处理，兼顾速度与低内存消耗，提供类DOM操作接口及自定义处理器扩展能力，适合JavaScript和Node.js环境。

本文介绍 React Showdown 项目，它能将 Markdown 渲染为 React 组件，支持在 Markdown 中嵌入 React 组件，基于 Showdown 和 htmlparser2 构建。还针对新手使用时遇到的安装依赖、Markdown 渲染、自定义组件嵌入问题，给出了相应的解决步骤。

该博客针对Python中'HTMLParser'对象缺少'unescape'属性的AttributeError错误，指出其根本原因为pip或setuptools版本过低导致与新版HTML解析模块不兼容。提出通过清华镜像源升级pip和setuptools两个核心工具包来彻底解决此问题，适用于PyInstaller及其他依赖HTML处理的第三方库安装场景。

博客介绍了如何利用Python的HTMLParser模块自定义解析器处理HTML数据。通过创建MyParser类继承自HTMLParser，并重写feed和handle_data方法，实现了对HTML内容的捕获和存储。示例代码展示了如何将HTML内容喂给解析器并打印解析结果。

67,536

社区成员

225,852

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章