如何实现获取一个网站中所有的链接地址（a标签的href属性）

qq_25084099 2016-12-03 03:07:46

就是一个web网站中所有页面的url地址都要获取到。
比如说给定一所学校的主页，通过主页获取这个学校所有网页的url？注意不是一个网页。
主要用什么方法？今天用java写的（用的是递归）频频报错/

...全文

817 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

Inhibitory 2016-12-03

打赏
举报

回复

jsoup 解析 hmtl

a标签主要用来做链接的跳转，注意herf中属性值的灵活变化，主要搞清几个不跳转的值的区别。

//获取a标签中href的属性值 var href=$("a").attr("href"); //修改a标签中href的属性值 $("a").attr("href","www.baidu.com");

url = re.compile(r'<h2.*?><a\b[^>]+\bhref=\\"([^"]*)"[^>]*>.+?</a></h2>').findall(li) <h2.?> #表示在h2标签内 <a\b #匹配a标签的开始 [^>]+ #匹配a标签中href之前的内容 \bhref="([^"])" ...

请用 python+selenium 爬取 XXX 网站上的所有a链接的 href属性并访问，输出访问地址和状态码

for(i=0;i<=document.getElementsByTagName("a").length;i++){ console.log(document.getElementsByTagName("a")[i].href); //输出该页面的所有链接。 } 获取文本内容 var text = $('.content').text();consol...

23,404

社区成员

70,593

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章