Python 抓取网页后解析

Citron__ 2017-09-15 08:23:13

使用python抓取网页后，想要解析这个网页。



<td class="">1</td>

<td class="">v2.4.2.15</td>

<td class>

v2.4.2.15代表版本，想通过re.findall(r"<td class="">1</td>\n<td class="">v2.4.2.15</td>\n<td class>",html,re.S)
来获取这个版本，但是一直返回的是[]，想问问这是什么情况，是因为还有空格没有匹配么？但是并不知道空格有多少个。
想过用html.replace(' ','') 来清除所有空格后在匹配。但是好像并没有什么效果。(csdn没有python板块？？)

...全文

279 7 打赏收藏转发到动态举报

写回复

用AI写文章

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

Citron__ 2017-09-18

打赏
举报

引用 2 楼 chuifengde 的回复:

import re 

x="""<td class="">1</td>
<td class="">v2.4.2.15</td>
<td class>
"""
y=re.findall(r'(?<=">)([^1-9][1-9].*?)</td>',x,re.DOTALL)
print(y)

感谢回答，不过这个只是网页的一部分，下面还有v1.2.3.4等等，所以只想要获取上面那个<td class="">1</td>

混沌鳄鱼 2017-09-18

打赏
举报

比较省事儿的办法就是直接用解析HTML的包，lxml, bs4什么的挺多的。简单举个栗子



import lxml.etree

html_text ="""
<td class="">1</td>
<td class="">v2.4.2.15</td>
<td class>
"""

page = lxml.etree.HTML(html_text)

tds = page.xpath("//td")
for td in tds:
    print(td.text)

1
v2.4.2.15

张强1990 2017-09-18

打赏
举报

for i in root.xpath("//td[@class='']/text()"):
    print(i)
    
1
v2.4.2.15

cjws555 2017-09-18

打赏
举报

引用 2楼chuifengde 的回复:

import re 

x="""<td class="">1</td>
<td class="">v2.4.2.15</td>
<td class>
"""
y=re.findall(r'(?<=">)([^1-9][1-9].*?)</td>',x,re.DOTALL)
print(y)

不错受教了23333

cjws555 2017-09-18

打赏
举报

看看哈哈哈23333

chuifengde 2017-09-17

打赏
举报

import re 

x="""<td class="">1</td>
<td class="">v2.4.2.15</td>
<td class>
"""
y=re.findall(r'(?<=">)([^1-9][1-9].*?)</td>',x,re.DOTALL)
print(y)

xuzuning 2017-09-16

打赏
举报

http://bbs.csdn.net/forums/OL_Script

本文通过实例展示了如何使用Python进行网页抓取及解析，重点介绍了抓取百度和问答网站内容的方法。分享了完整的代码实现，并对关键部分进行了说明。

本文介绍了Python中用于网页抓取和解析的流行库BeautifulSoup。涵盖其版本特性、解析器选择、Soup对象等核心概念和功能，还阐述了Tag等对象的作用、搜索和修改文档的方法，最后给出在网页爬虫、数据提取、自动化测试等实际项目中的应用案例。

在数据分析和科研中，获取网页数据很重要。本文介绍用 Python 的两个库抓取和解析网页内容，包括库的简介与安装，展示了用它们实现网页抓取的代码及解析，还提及处理错误和调试的方法，为网络爬虫开发和数据采集打下基础。

本文是Python爬虫进阶指南，介绍了合法使用爬虫的注意事项。讲解了更高效的解析工具lxml和XPath，以及应对JavaScript生成内容的动态网页抓取方法，如用Selenium和网络分析抓取API接口数据。还提及数据存储方式，如保存为Excel或存入数据库。

脚本语言

37,738

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章