文章中过滤HTML标签的问题,欢迎讨论
全文检索出一段文章,简要内容显示,我想过滤掉所有的HTML标签,只剩下文本内容然后再截取部分显示。由于考虑到中国的书名号写法,光去除<>标签是不对的。我是用htmlparser的包,但它好像没有我所需求的方法,倒是可以分析到每个节点。下面是我写的代码。
String testhtml = "我们是害虫<table>1234567890<table>lk你好中国";
Parser parser = Parser.createParser(new String(testhtml.getBytes(),"8859_1"), "GBK");
for (NodeIterator ni = parser.elements(); ni.hasMoreNodes(); ) {
Node node = ni.nextNode();
System.out.println(new String(node.getText().getBytes("8859_1")));
System.out.println(new String(node.toHtml().getBytes("8859_1")));
}
还是就是这篇文章也有比较多的说明。
http://www-900.ibm.com/developerWorks/cn/java/l-html-parser/index.shtml?ca=dwcn-newsletter-java
现在我的问题是,如果把所有的HTML标签脱掉,不一定要用htmlparser包,只要能实现就行?欢迎大家讨论。