哪位大神帮帮忙，看一看python爬虫小白的问题？？？

L2244662131 2023-02-05 20:15:31

哪位大神帮帮忙，看一看python爬虫小白的问题？？？

从这样的HTML文档中抓取电影名字

使用lmxl库时，匹配以下格式：

result = text.xpath('//div/a/@title')

结果是抓取不到数据

更改抓取格式，如下：

result = text.xpath('//div//a/@title')

就可以成功抓取

这是怎么一回事！！！！

a不是div的子节点吗？

为什么要用子孙节点才能抓取？？？

为什么要用子孙节点才能抓取？？？

为什么要用子孙节点才能抓取？？？

...全文

392 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

盐湖城 2023-02-09

打赏
举报

回复

首先你要定位到需要的a标签的父级标签，比如那个p标签（//p[@class="name"]/a/@title）

又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫可以根据指定的规则，从互联网上下载网页、图片、视频等内容，并抽取其中的有用信息进行处理。网络爬虫的工作流程包括获取网页源代码、解析网页内容、存储数据等步骤。根据其目的和工作方式的不同，网络爬虫可以分为多种类型。常见的网络爬虫包括通用爬虫、聚焦爬虫、增量式爬虫等。

网络爬虫又称网络蜘蛛、网络机器人，它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页，并将所需要的数据抓取下来。通过对抓取的数据进行处理，从而提取出有价值的信息。

网络爬虫（Web Spider）又称网络蜘蛛或网络机器人，是一段用来实现自动采集网站数据的程序。网络爬虫不仅能够为搜索引擎采集网络信息，而且还可以作为定向信息采集器，定向采集某些网站中的特定信息。对于定向信息的爬取，网络爬虫主要采取数据抓取、数据解析、数据入库的操作流程。（1）数据抓取：发送构造的HTTP请求，获得包含所需数据的HTTP响应；（2）数据解析：对HTTP响应的原始数据进行分析、清洗，以提取出所需要的数据；（3）数据入库：将数据进一步保存到数据库（或文本文件）中，用于构建知识库。

摘要：Python网络爬虫的详尽解释。导读：网络爬虫也叫做网络机器人，可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代，信息的采集是一项重要的工作，如果...

但不管怎样，爬虫技术是无罪的，还是值得我们开发人员去学习了解一下的。在学习之前，我们还是要先了解一下相关概念。什么是爬虫网络爬虫：又被称为网页蜘蛛，网络机器人，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。大数据时代，要进行数据分析，首先要有数据源，可数据源从哪里来，花钱买，没预算，只能从其它网站就行抓取。细分下来，业内分为两类：爬虫和反爬虫。反爬虫：顾名思义，就是防止你来我网站或APP上做爬虫的。爬虫工程师和反爬虫工程师是一对相爱相杀的小伙伴，经常因为对方要加班写代码，

Python学习社区

37,975

社区成员

427

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章