求一个正则表达式,谢谢大家。
一块西瓜 2016-12-26 05:01:33 我想要做一个各大学校的简介知识库。就在http://gaokao.chsi.com.cn/sch/search--ss-on,option-qg,searchType-1.dhtml这里爬取数据。
所有的学校只想爬取简介那一页的正文数据。
比如:北大的http://gaokao.chsi.com.cn/sch/schoolInfo--schId-1,categoryId-26172,mindex-1.dhtml
爬取链接的形式是
http://gaokao.chsi.com.cn/sch/schoolInfo--schId-1,categoryId-26172,mindex-1.dhtml
http://gaokao.chsi.com.cn/sch/schoolInfo--schId-2,categoryId-12111,mindex-1.dhtml
归纳一下也就是说http://gaokao.chsi.com.cn/sch/schoolInfo--schId-[0-9],categoryId-[0-9],mindex-1.dhtml
我用的是WebCollector 。添加正则表达式的函数是addRegex(String urlRegex,String url)。
求各位帮我想一下正则式,万分感谢