爬虫爬下来的网址有个括号

新人咸鱼 2020-11-24 03:54:03

from bs4 import BeautifulSoup
import re
import urllib.request, urllib.error
# import sqlite3

def main():
baseurl = "http://www.prnasia.com/m/mediafeed/rss?id=2303&t=240"
datalist = getData(baseurl)
savepath = ".\\wenjian"
saveData(savepath)

findLink = re.compile('<a href="(.*?)" target="_blank">')

def getData(baseurl):
datalist = []
# html= askUrl("http://www.prnasia.com/m/mediafeed/rss?id=2303&t=240")
# for i in range(0,1):
url = baseurl
html = askUrl(url)
soup = BeautifulSoup(html, "html.parser")
for presscolumn in soup.find_all('div', class_="presscolumn"):
# data = []
item = str(presscolumn)
link = re.findall(findLink, item)
print(link)
# print()

return datalist

def askUrl(url):
head = {
"User-Agent": "Mozilla/5.0(Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}
request = urllib.request.Request(url, headers=head)
html = ""
try:
response = urllib.request.urlopen(request)
html = response.read().decode("utf-8")
# print(html)
except urllib.error.URLError as e:
if hasattr(e, "code"):
print(e.code)
if hasattr(e, "reason"):
print(e.reason)
return html

def saveData(savepath):
print("save....")

if __name__ == "__main__":
main()

...全文

583 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

新人咸鱼 2020-11-24

打赏
举报

回复

引用 2 楼陈年椰子的回复:

re.findall 返回时列表，不喜欢 [] 那就改为 print(link[0]) 比较保险的方法就是
if len(link)>0:
    print(link[0])

谢谢嗷，我试试，主要是这个爬下来的网址我还要外面再套一层爬这些网址里的内容，有个括号我怕用不了

陈年椰子 2020-11-24

打赏
举报

回复

re.findall 返回时列表，不喜欢 [] 那就改为 print(link[0]) 比较保险的方法就是

if len(link)>0:
    print(link[0])

新人咸鱼 2020-11-24

打赏
举报

回复

怎么能让这个括号去掉啊

大家好，我是霖hero 除了钱，大家还比较喜欢什么？当然是全能、万能和通用的人或事物啦，例如：全能、什么都会的员工、万能钥匙、通用爬虫等等。今天我们学习Scrapy通用爬虫，利用Scrapy通用爬虫来获取美食杰网站。 Scrapy通用爬虫创建Scrapy项目 Scrapy爬虫和Scrapy通用爬虫都是通过以下执行命令来创建Scrapy项目，没什么不同，命令如下所示： Scrapy startproject Scrapy项目名 Spider爬虫模板在创建spider爬虫前，我们先看看有什么

大家好，我是辣条。上次整理的爬虫教程反响不错，但是还是有小伙伴表示不够细致，今天带了升级版，全文很长，建议先收藏下来。一、爬虫基础爬虫概述知识点：了解爬虫的概念了解爬虫的作用了解爬虫的分类掌握爬虫的流程 1. 爬虫的概念模拟浏览器，发送请求，获取响应网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端(主要指浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。原则上,只要是客户端(浏

什么是爬虫：使用编程语言所编写的一个用于爬取Web或Appd数据的应用程序。爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。爬虫的基本流程： 1、导入两个库，一个requests用于请求，..

目标读者：已经配置好Python环境，熟悉或了解Python基本语法，没有接触过爬虫的新手本文旨在科普，用最简单明了的语言引导初学者接触爬虫，不求严谨。看到不懂的或者不想懂的专有名词不要纠结，只要代码没问题就继续下去，等爬取成功了再回头抠细节。我将以虎扑火箭专区为例，爬取火区前一百页的标题。（实在不喜欢火箭的可以用其它球队哈）最先要说明的是，Python爬虫非常简单！（当然是指入门）Python的...

1.作业内容：①未安装requests包的安装包，谷歌浏览器安装②爬虫知识学习什么是url，header请求头，网页源代码，简单了解html标签③requests包的使用get方法返回网页源代码④打印输出首页的源代码2.作业解答2.1安装requests包2.1.1cmd终端安装pip install requests2.1.2pycharm安装Pycharm>Settings>Pr...

37,743

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章