Python 爬虫正则路径文件

James-CDD 2014-10-20 06:10:21

想获取网站文档，查看文档存放路径为相对路径，如href=../img/123.jpg,但是这样的话截取后是不能获得图片的，如何才能获得它的绝对路径，变成href=‘http://www.xxii.com/img/123.jpg’

...全文

200 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

James-CDD 2014-11-06

打赏
举报

回复

问题自己解决：这个应该是新手会遇到的问题，使用urlparse模块分解URL，再使用join 进行组合，生成完整路径。可以先了解一下这两个模块的用法。

The_Third_Wave 2014-10-20

打赏
举报

回复

一般都是你访问的网页加上href

本文是一篇入门级别的网络爬虫教程，使用Python进行数据抓取。主要内容包括获取系统路径、设定字符编码、正则表达式处理换行符，并将抓取的豆瓣同城北京地区活动信息保存到txt文件中。

该博客详细介绍了如何使用Python的requests和re库进行网页数据的抓取。首先导入所需库，设置随机User-Agent防止被网站屏蔽，然后通过get方法获取网页文本。利用正则表达式匹配到需要的链接，并对每个链接发起新的get请求，将下载的文件保存到指定路径。此示例展示了基础的网络爬虫流程。

本文介绍了如何使用Python进行网络爬虫，包括引入BeautifulSoup、re正则包和urllib，以及爬取、解析和保存网页信息。接着，文章讲述了如何进行文本处理，如读取文本、分词过滤和统计词频，最后详细阐述了如何制作词云，包括设置文件路径、词频统计和使用WordCloud生成词云。

作者下班后兴起写Python爬虫，学习基础语法后参照例子编写。介绍爬虫抓取的数据可保存在文件或数据库，文件形式更简单。给出代码示例，将知乎页面图片保存到本地指定路径，还提到正则匹配花时间及Python 3和2的区别。

这是一个使用Python的urllib2、re和threading库实现的批量下载网页中图片的脚本。脚本首先从配置的URL路径中获取HTML内容，然后通过正则表达式提取图片链接，并使用多线程进行下载。每个图片文件名根据其在列表中的位置和原始文件名进行重命名。整个过程展示了Python在网络爬虫和多线程下载方面的应用。

37,738

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章