爬虫解析网页问题

hanghangz 2019-07-10 02:27:02

最近在玩爬虫,好多年前做过这个事情.忘记得差不多了哦.

如图中红框所示.
查看html源码,不能看到文本信息. 只能在它上一级(.NET技术)看到一个onmouseover事件.

onmouseover="cateShow(108698)"

请问红框列表怎么获取?

...全文

130 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

JasonShih 2019-07-10

打赏
举报

回复

Hover的内容存放在Id为"cate_content_block_"+n的div中，其中n是当前条目的id，比如你提到的108698.通过Id获取该元素，即可抓取其中的内容。

听雨停了 2019-07-10

打赏
举报

回复

这个列表在html源码中是有的，onmouseover只是添加了一个class上去。怎么获取我就不知道了

主要介绍了python爬虫如何爬取网页数据并解析数据，帮助大家更好的利用爬虫分析网页，感兴趣的朋友可以了解下

Python爬虫是一种自动化程序，可以模拟人类用户访问网页，获取网页中的内容。爬虫在信息采集、数据分析和网络监测等领域有着广泛的应用。在爬虫过程中，解析网页内容是非常重要的一步。Python提供了许多强大的库和工具，用于解析网页内容。其中，BeautifulSoup库是一个流行的库，可以帮助我们方便地解析HTML和XML文档。在本文中，我们将介绍如何使用Python和BeautifulSoup库来解析网页内容，并提取我们所需的信息。

一般来说当我们爬取网页的整个源代码后,是需要对网页进行解析的。 Python网页解析正则匹配解析：BeautifulSoup解析项目实战正常的解析方法有三种 ①：正则匹配解析 ②：BeatuifulSoup解析 ③：lxml解析正则匹配解析：在之前的学习中,我们学习过爬虫的基本用法，比如/s,/d,/w,*,+,?等用法，但是在对爬取到的网页进行解析的时候，仅仅会这些基础的用法,是不够用的，因此我们需要了解Python中正则匹配的经典函数。 re.match runoob解释：re.match尝试从字

用Python写爬虫工具在现在是一种司空见惯的事情，每个人都希望能够写一段程序去互联网上扒一点资料下来，用于数据分析或者干点别的事情。我们知道，爬虫的原理无非是把目标网址的内容下载下来存储到内存中，这个时候它的内容其实是一堆HTML，然后再对这些HTML内容进行解析，按照自己的想法提取出想要的数据，所以今天我们主要来讲四种在Python中解析网页HTML内容的方法，各有千秋，适合在不同的场...

python爬虫爬取网页数据

110,534

社区成员

642,576

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧

+ 用AI写文章