【Python】使用bs4的

优质创作者: 编程框架技术领域

领域专家: 后端开发技术领域

2023-02-24 13:10:14

1、安装两个插件

pip install bs4

2、简单读取和解析html

#!/usr/bin/python3
# -*- coding: utf-8 -*-
# 2023-02-23

import requests
from bs4 import BeautifulSoup

# 获取C占首页【热点】资讯
url = 'https://www.csdn.net/?spm=1001.2100.3001.4476'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50'
}
 
response = requests.get(url, headers=headers)
html = response.text
 
# 解析HTML代码
soup = BeautifulSoup(html, 'html.parser')
 
# 找到标题区域
article_tags = soup.select('.headswiper-item')
    
# 提取每篇文章的标题和链接
results = []
for tag in article_tags:
    title_tags = tag.select('.headswiper-item > a')
    if title_tags:
        title = title_tags[0].get_text().strip()
        link = title_tags[0]['href']
        results.append((title, link))

for item in results:
    print(f'{list(item)[0]}、{list(item)[1]}')

...全文

142 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

python 使用bs4 解析html页面前言前几天要复制一整个html页面的内容到excel表格里，我觉得复制太麻烦所以写一个爬虫自动爬数据简单快捷，页面爬下来以后想获取html标签中的数据结果没有找到比较好的办法所以我就自己研究并整理发上来页面是这个样子的，我们可以看到这个页面大体分为四个部分，而我想要页面上的所有数据，所以我也根据他这四个部分一点点的解析接下来看一下页面的源代码从这个图我们可以看出整个页面分为两部分上面（1）部分为导航栏在<nav>标签中，（2）部分为详情，包括

BS4是Python中一个用于从HTML或XML文件中提取数据的库，它提供了一种方便的方法来解析、遍历、搜索、修改文档的树形结构。

Python利用bs4批量抓取网页图片并下载保存使用bs4抓取网页图片，bs4解析比较简单，需要预先了解一些html知识，bs4的逻辑简单，编写难度较低。本例以抓取某壁纸网站中的壁纸为例。(bs4为第三方库，使用前需要要自行安装) 步骤拿到页面源代码，提取子页面的链接地址——>href 通过href拿到子页面的内容，再从子页面中找到图片的下载地址 img——>src 下载图片首先导入必要的包 import requests from bs4 import Beautiful

bs4(Beautifulsoup)是html的解析器，主要的功能是解析和提取数据。缺点是：效率不是很高。优点是：接口设计人性化，使用方便。

这篇文章我们来讲讲如何在python使用bs4模块返回值中正确使用find和find_all来取值。我们先来看看find函数在两种场景使用：一、 find在字符串(str)时可以查找使用。在字符串(str)是怎么来使用find函数，find函数就是找到的意思。我们来看看下面案例#---------案例1-----------a="0123456789"#因为我们电脑中的字节都是从0开始算第一个位...

基础知识小馆

574

社区成员

90

社区内容

发帖

与我相关

我的任务

javac#c语言个人社区广东省·广州市

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章