求个正则表达式，万分感谢

whos2002110 2014-10-16 03:51:25

在爬一些财经新闻时，碰到个问题是这样的：

从某个跟节点开始爬（http://news.hexun.com/），每级爬下来有很多链接，新闻链接格式如下：
news.hexun.com/2014-10-16/1221323123.html;
stock.hexun.com/2014-10-16/8097823123.html;
xxx.hexun.com/yyyy-MM-dd/7797979123.html;

二级域名有很多(news、stock、roll、opinion、tv...) 在过滤url时，我使用这个正则： http://[a-z]+.hexun.com.*
这样所有和讯网本身的链接都会继续请求(抓下一级)，对于所有满足上述条件的url 我再使用
http://[a-z]+.hexun.com/2014-10-16/[0-9]+.html 过滤出当天新闻页面保存到本地。

这两个正则基本可以满足要求，但是后来发些问题，页面上的js、css链接满足第一个正则也会去抓取一次，显然没有必要。
再有有个栏目是tv，这个栏目里都是视频新闻，我也不要。

我怎么修改第一个正则使：
1 不抓取页面上的.js、.css链接
2. 不抓取tv.hexun.com/xxx 这样的链接。

修改这个 http://[a-z]+.hexun.com.* ， [a-z]+ 改为非tv 还有不是以js、css结尾。

正则不懂，求帮助

...全文

261 5 打赏收藏转发到动态举报

写回复

用AI写文章

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

tony4geek 2014-10-20

打赏
举报

匹配 .htm 结尾的可以吗？

猿哥 2014-10-19

打赏
举报

引用 3 楼 sca4441479 的回复:

final String REGEX="http://[^tv]+\\.hexun\\..*[^cssjs]$";
可能有问题，楼主先用着

正解

sca4441479 2014-10-17

打赏
举报

final String REGEX="http://[^tv]+\\.hexun\\..*[^cssjs]$";

可能有问题，楼主先用着

whos2002110 2014-10-17

打赏
举报

引用 1 楼 ohogogo 的回复:

非要要用正则吗？可以不可以通过过滤器来做？

你说的过滤器是指什么？我这个正则校验就是一个过滤器的实现

ps低音炮 2014-10-16

打赏
举报

非要要用正则吗？可以不可以通过过滤器来做？

本门课程主要讲解正则表达式的引用场景和一些基础用法，让大家对正则表达式有一个清晰地认识。为什么需要掌握正则表达式？ 正则表达式非常灵活、而且功能非常强大，它可以迅速地用极简单的方式达到字符串的复杂...

在许多语言中都存在着正则表达式，C++11中也将正则表达式纳入了新标准的一部分，不仅如此，它还支持了6种不同的正则表达式的语法，分别是：ECMASCRIPT、basic、extended、awk、grep和egrep。其中ECMASCRIPT是默认的...

例如,鉴于此表达式："[0-9]*\+[0-9]{3}\@[0-9]*\+[0-9]{3}"从这个字符串：“CSDT2_EXC_6 000 @ 6 035_JM_150323”我想得到：“6 000 @ 6 035”但我不知道如何做到这一点.我能得到的最近的是：Function getStations...

grep家族中的grep及egrep的相应的正则表达式和用法。1.grep家族是文本处理三大剑客之一。(grep,sed,awk)grep: (Global search REgular expression and Print out the line).其支持使用基本正则表达式.egrep：支持...

Java SE

62,614

社区成员

307,326

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章