如何用正则表达式解析HTML

princeforest 2006-10-16 11:11:18
试图用Pattern从HTML中提取形如<a href="http://tech.tom.com/2006-07-16/04BI/08261701.html" target=_blank class=clink>科研经费提成合法不合理 多位大学校长呼吁改革</a><br>的字符串,
需要支持中文的提取,请问该如何编写相应的正则表达式?
...全文
319 5 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
zzhzzh204553 2006-11-15
  • 打赏
  • 举报
回复
你把标签去部去掉就可以啊.
<.*?>可以找出所有标签,替换成"",
剩下的就是文本了.
gzpoplar 2006-11-15
  • 打赏
  • 举报
回复
mark
lip009 2006-10-18
  • 打赏
  • 举报
回复
从HTML代码中提取连接地址:
<script>
var str="ksldfjk<a href='a.jsp'>aaa</a><a href='a.jsp'>aaa</a><a href='a.jsp'>aaa</a>";
var url=[];
var i=0;
str.replace(/<a\s+href=[\"']?([^<>\"']*)[\"']?>/g,function($0,$1){url[i]=$1;i++});
alert(url);
</script>
zh__ua 2006-10-18
  • 打赏
  • 举报
回复
<a\s+href=.+?>.+?</a>
princeforest 2006-10-18
  • 打赏
  • 举报
回复
<a href=([^>]*)>[\u4e00-\u9fa5]+</a>

62,635

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧