【提问】【急】python中web编程的第三方库(主要用于网络爬虫)

Harry_hoo 2013-10-23 02:14:04
python中有没有这样的第三方库,就是比如一个html标签是这样的:<a href = "FileList.asp?FileCategory=游戏">
想要提取href内的链接,但是它是一个相对路径,我想要的是一个绝对路径,有没有这样的第三方库,能够帮你将相对路径转换为绝对路径呢。
...全文
480 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
crifan 2013-10-28
  • 打赏
  • 举报
回复
引用 3 楼 slxfwswswws 的回复:
[quote=引用 2 楼 crifan 的回复:]
urlparse.urljoin(base, url[, allow_fragments]) 
你的文章我都学习了 但还是遇到模拟登录结果得不到结果的情况 http://bbs.csdn.net/topics/390625878 能帮我看看吗[/quote] 已回复。
slxfwswswws 2013-10-28
  • 打赏
  • 举报
回复
引用 2 楼 crifan 的回复:
urlparse.urljoin(base, url[, allow_fragments]) 
你的文章我都学习了 但还是遇到模拟登录结果得不到结果的情况 http://bbs.csdn.net/topics/390625878 能帮我看看吗
crifan 2013-10-23
  • 打赏
  • 举报
回复
urlparse.urljoin(base, url[, allow_fragments]) 
ImN1 2013-10-23
  • 打赏
  • 举报
回复
from urllib.parse import urljoin
newurl = urljoin(baseurl, href)
这个是py3的,如果用的是py2,你要查查py2手册,应该也有的,但模块应该不同,urllib.parse是py3统一后的模块 我记得这个函数有个小小问题,就是遇到带父级相对路径超出根路径会有点问题,要稍微留意处理一下 状况现在说不清,你遇到就知道了

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧