Python3爬虫爬取文章标题和发布时间

螺丝鸽安全 2019-03-18 04:03:39

准备: Windows7,pycharm,python3.6 #coding:utf-8 #爬取 www.daqianduan.com网页的前10页内容,并以CSV文件格式保存在磁盘 import requests from lxml import etree import csv import time #爬取前10页网页文章标题和时间的方法 def spider(url): response = requests.get(url) time.sleep(2) selector = etree.HTML(response.text) for i in range(1,11): wen = selector.xpath('/html/body/section/div[1]/div/article[{}]'.format(i))[0] title = wen.xpath('header/h2/a/text()')[0] pub_time = wen.xpath('p[1]/time/text()')[0] item = [title,pub_time] #创建一个列表，将标题和时间作为该列表的元素 csv_write(item) #将爬取的标题和时间以csv格式保存在本地磁盘 def csv_write(item): with open('csv_spider','a',newline='') as f: csvwriter = csv.writer(f) csvwriter.writerow(item) print('正在下载:',item[0]) #拼接成前10页的网页 for n in range(1,11): url = 'http://www.daqianduan.com/page/' + str(n) spider(url) #调用spider()方法

...全文

591 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

本文介绍用Python爬取中国散文网青年散文专栏文章的项目。先分析网站结构与分页机制，设计模拟浏览器加HTML解析的爬虫架构，阐述Selenium WebDriver、BeautifulSoup等核心技术原理，说明主要步骤，还给出性能优化策略、异常处理等，最后总结并展望爬虫应用。

本文介绍了如何使用Python爬虫技术，结合re和xpath，从指定网站抓取新闻的标题、发布时间、链接、阅读次数和来源，并将数据存储到CSV文件中。爬虫过程中注意了反反爬策略，如设置User-Agent和休眠时间，最后展示了数据存储后的结果。

本文介绍了一个使用requests和BeautifulSoup进行网页爬取的实战案例，详细解析了如何从指定博客网站抓取文章标题、内容、作者、分类及发布时间，并将数据保存至TXT文件。此外，还提供了翻页处理和代码优化的技巧。

本文介绍了一个具体的爬虫项目实践案例，目标是从济南市政务网抓取“滚动预警”栏目下的文章标题、正文及发布时间，并保存为txt文件。文章详细分析了网站的加载模式、数据抓取方法、内容解析过程以及如何实现自动翻页等功能。

本博客介绍了一个简单的Python博客爬虫项目，旨在爬取指定网站的文章标题、发布时间等内容，并保存至Word文档。项目采用Python语言，利用requests库获取网页，BeautifulSoup进行解析。

37,739

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章