求一个正则表达式,谢谢大家。

一块西瓜 2016-12-26 05:01:33
我想要做一个各大学校的简介知识库。就在http://gaokao.chsi.com.cn/sch/search--ss-on,option-qg,searchType-1.dhtml这里爬取数据。
所有的学校只想爬取简介那一页的正文数据。
比如:北大的http://gaokao.chsi.com.cn/sch/schoolInfo--schId-1,categoryId-26172,mindex-1.dhtml
爬取链接的形式是
http://gaokao.chsi.com.cn/sch/schoolInfo--schId-1,categoryId-26172,mindex-1.dhtml
http://gaokao.chsi.com.cn/sch/schoolInfo--schId-2,categoryId-12111,mindex-1.dhtml
归纳一下也就是说http://gaokao.chsi.com.cn/sch/schoolInfo--schId-[0-9],categoryId-[0-9],mindex-1.dhtml


我用的是WebCollector 。添加正则表达式的函数是addRegex(String urlRegex,String url)。

求各位帮我想一下正则式,万分感谢
...全文
880 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
一块西瓜 2017-10-25
  • 打赏
  • 举报
回复
引用 8 楼 xiaoshang168 的回复:
引用 7 楼 yishichangan1 的回复:
自己结贴,已经解决,还是感谢各位
你怎么解决的?
就是跟楼上说的一样,自己一个一个试过去的
活在风浪里 2017-02-13
  • 打赏
  • 举报
回复
引用 7 楼 yishichangan1 的回复:
自己结贴,已经解决,还是感谢各位
你怎么解决的?
一块西瓜 2017-02-10
  • 打赏
  • 举报
回复
自己结贴,已经解决,还是感谢各位
arryhao 2017-01-13
  • 打赏
  • 举报
回复
感觉可以用一下jsoup抓取。 自动转成document对象,然后通过html标签来抓取
迷途难返 2017-01-05
  • 打赏
  • 举报
回复
没太明白你的意图,要匹配目标是什么?
  • 打赏
  • 举报
回复
一个学校一个网址,而且你只需一个页面,感觉也不用正则,直接拿需要的网址就可以了
ryuugu_rena 2016-12-27
  • 打赏
  • 举报
回复
根据正则规则自己慢慢拼呗 这有什么难的?
爱睡觉的阿狸 2016-12-27
  • 打赏
  • 举报
回复
爱莫能助。。
  • 打赏
  • 举报
回复
这个得先看一下所有学校的网站的特点,我觉得应该都不一样

62,614

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧