求个正则表达式,万分感谢
在爬一些财经新闻时,碰到个问题是这样的:
从某个跟节点开始爬(http://news.hexun.com/), 每级爬下来有很多链接,新闻链接格式如下:
news.hexun.com/2014-10-16/1221323123.html;
stock.hexun.com/2014-10-16/8097823123.html;
xxx.hexun.com/yyyy-MM-dd/7797979123.html;
二级域名有很多(news、stock、roll、opinion、tv...) 在过滤url时, 我使用这个正则: http://[a-z]+.hexun.com.*
这样所有和讯网本身的链接都会继续请求(抓下一级), 对于所有满足上述条件的url 我再使用
http://[a-z]+.hexun.com/2014-10-16/[0-9]+.html 过滤出当天新闻页面保存到本地。
这两个正则基本可以满足要求, 但是后来发些问题, 页面上的js、css链接满足第一个正则也会去抓取一次, 显然没有必要。
再有有个栏目是tv,这个栏目里都是视频新闻,我也不要。
我怎么修改第一个正则使:
1 不抓取页面上的.js、.css链接
2. 不抓取tv.hexun.com/xxx 这样的链接。
修改这个 http://[a-z]+.hexun.com.* , [a-z]+ 改为非tv 还有不是以js、css结尾。
正则不懂,求帮助