求一个正则表达式，谢谢大家。

一块西瓜 2016-12-26 05:01:33

我想要做一个各大学校的简介知识库。就在http://gaokao.chsi.com.cn/sch/search--ss-on,option-qg,searchType-1.dhtml这里爬取数据。
所有的学校只想爬取简介那一页的正文数据。
比如：北大的http://gaokao.chsi.com.cn/sch/schoolInfo--schId-1,categoryId-26172,mindex-1.dhtml
爬取链接的形式是
http://gaokao.chsi.com.cn/sch/schoolInfo--schId-1,categoryId-26172,mindex-1.dhtml
http://gaokao.chsi.com.cn/sch/schoolInfo--schId-2,categoryId-12111,mindex-1.dhtml
归纳一下也就是说http://gaokao.chsi.com.cn/sch/schoolInfo--schId-[0-9],categoryId-[0-9],mindex-1.dhtml

我用的是WebCollector 。添加正则表达式的函数是addRegex（String urlRegex，String url）。

求各位帮我想一下正则式，万分感谢

...全文

880 9 打赏收藏转发到动态举报

写回复

9 条回复

切换为时间正序

请发表友善的回复…

发表回复

一块西瓜 2017-10-25

打赏
举报

回复

引用 8 楼 xiaoshang168 的回复:

引用 7 楼 yishichangan1 的回复:
自己结贴，已经解决，还是感谢各位
你怎么解决的?

就是跟楼上说的一样，自己一个一个试过去的

活在风浪里 2017-02-13

打赏
举报

回复

引用 7 楼 yishichangan1 的回复:

自己结贴，已经解决，还是感谢各位

你怎么解决的?

一块西瓜 2017-02-10

打赏
举报

回复

自己结贴，已经解决，还是感谢各位

arryhao 2017-01-13

打赏
举报

回复

感觉可以用一下jsoup抓取。自动转成document对象,然后通过html标签来抓取

迷途难返 2017-01-05

打赏
举报

回复

没太明白你的意图，要匹配目标是什么？

老鼠拧刀满街找猫 2016-12-27

打赏
举报

回复

一个学校一个网址，而且你只需一个页面，感觉也不用正则，直接拿需要的网址就可以了

ryuugu_rena 2016-12-27

打赏
举报

回复

根据正则规则自己慢慢拼呗

这有什么难的？

爱睡觉的阿狸 2016-12-27

打赏
举报

回复

爱莫能助。。

老鼠拧刀满街找猫 2016-12-27

打赏
举报

回复

这个得先看一下所有学校的网站的特点，我觉得应该都不一样

正因如此，正则表达式现在是作为程序员七种基本技能之一*，因此学习和使用它在工作中都能达到很高的效率。 正则表达式应用于程序设计语言中，首次是出现在 Perl 语言，这也让 Perl 奠定了正则表达式旗手的地位。现在...

我写了很多的笔记，其中j2ee上册已经上传，现在这个正则表达式供大家学习。谢谢。

正则表达式常用的验证格式非常好的的验证格式希望大家可以看看啊，谢谢楼主支持啊。。。。

正则表达式系统教程（各种编程语言都有），相信不用我多说大家都知道是干什么的，开发者都知道，辛苦整理的这个资源，希望大家喜欢，希望对大家有帮助，谢谢大家，请给个五星好评，谢谢啦！

正则表达式系统教程（新手入门必备精品，值50分）,相信不用我多说大家都知道是干什么的，开发者都知道，辛苦整理的这个资源，希望大家喜欢，希望对大家有帮助，谢谢大家，请给个五星好评，谢谢啦！

62,614

社区成员

307,327

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章