java解析txt文件

观尔乃插标卖首 2006-12-08 04:15:15
小弟手里有这样一个文本文件:
1 02
http://news.xinhuanet.com/edu/2006-03/08/content_4276043.htm<html>
网页代码
</html>

2 08
http://news.xinhuanet.com/edu/2006-03/08/content_4276043.htm<html>
网页代码
</html>
.
.
.
.
一共有1000多个这样的段落

我想把每个段落<html></html>以及中间的内容去掉,其他全部保留,想了很长时间也没想出来该怎么弄,请各位高手帮帮忙,小弟先谢了
...全文
815 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
love4xiang 2006-12-08
  • 打赏
  • 举报
回复
用正则表达式来就很简单
love4xiang 2006-12-08
  • 打赏
  • 举报
回复
String regEx="</?[^>]+>";//"<textarea>(\\s|.)*</textarea>";

Matcher m= Pattern.compile(regEx).matcher(str);

while(m.find())
System.out.println(m.group());
System.out.println(m.replaceAll(""));
}
liufei8463 2006-12-08
  • 打赏
  • 举报
回复
有个开源得html解析工具可以做到. htmlparser
fool_leave 2006-12-08
  • 打赏
  • 举报
回复
如果<html></html>匹配
str=str.replaceAll("<html>.*</html>","");
挑大梁 2006-12-08
  • 打赏
  • 举报
回复
覆盖,重写原来的txt
挑大梁 2006-12-08
  • 打赏
  • 举报
回复
把文件的内容先读出,替换完成之后,然后写txt
挑大梁 2006-12-08
  • 打赏
  • 举报
回复
replaceAll("<html></html>","");

仅供参考,关注

62,614

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧