• 全部
  • 互动交流
  • 文章分享

爬虫爬下来的网址有个括号

新人咸鱼 2020-11-24 03:54:03

from bs4 import BeautifulSoup
import re
import urllib.request, urllib.error
# import sqlite3


def main():
baseurl = "http://www.prnasia.com/m/mediafeed/rss?id=2303&t=240"
datalist = getData(baseurl)
savepath = ".\\wenjian"
saveData(savepath)


findLink = re.compile('<a href="(.*?)" target="_blank">')


def getData(baseurl):
datalist = []
# html= askUrl("http://www.prnasia.com/m/mediafeed/rss?id=2303&t=240")
# for i in range(0,1):
url = baseurl
html = askUrl(url)
soup = BeautifulSoup(html, "html.parser")
for presscolumn in soup.find_all('div', class_="presscolumn"):
# data = []
item = str(presscolumn)
link = re.findall(findLink, item)
print(link)
# print()



return datalist


def askUrl(url):
head = {
"User-Agent": "Mozilla/5.0(Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}
request = urllib.request.Request(url, headers=head)
html = ""
try:
response = urllib.request.urlopen(request)
html = response.read().decode("utf-8")
# print(html)
except urllib.error.URLError as e:
if hasattr(e, "code"):
print(e.code)
if hasattr(e, "reason"):
print(e.reason)
return html


def saveData(savepath):
print("save....")


if __name__ == "__main__":
main()
...全文
122 点赞 收藏 3
写回复
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
新人咸鱼 2020-11-24
引用 2 楼 陈年椰子的回复:
re.findall 返回时列表, 不喜欢 [] 那就 改为 print(link[0]) 比较保险的方法就是
if len(link)>0:
    print(link[0])
谢谢嗷,我试试,主要是这个爬下来的网址我还要外面再套一层爬这些网址里的内容,有个括号我怕用不了
回复
陈年椰子 2020-11-24
re.findall 返回时列表, 不喜欢 [] 那就 改为 print(link[0]) 比较保险的方法就是
if len(link)>0:
    print(link[0])
回复
新人咸鱼 2020-11-24
怎么能让这个括号去掉啊
回复
发帖
脚本语言
创建于2007-08-27

3.7w+

社区成员

JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
申请成为版主
帖子事件
创建了帖子
2020-11-24 03:54
社区公告

CSDN 脚本语言社区接受专栏投稿(专栏会在顶部创建专属你的栏目),投稿需满足以下要求:

  • 脚本语言技术相关;
  • 文章持续更新,保持活跃;
  • 内容清晰明了,干货为主;
  • 文章排版有序,有条有理。

本社区开通招聘专栏,发布招聘信息请联系版主,发布者需要保证招聘信息真实有效,CSDN 平台和版主不对招聘内容负责!

联系方式:私聊版主、发送邮件、QQ联系等均可: