爬虫爬取中国最好大学这个网页得出中国最好大学的排名，初入python，谢谢大佬

charmingzhong 2017-07-22 10:28:37

import requests
from bs4 import BeautifulSoup
import bs4

def getHTmlText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""

def fillUnivList(ulist, html):
soup = BeautifulSoup(html, "html.parser")
for tr in soup.find('tbody').children:
if isinstance(tr, bs4.element.Tag):
tds = tr('td')
ulist.append([tds[0].string, tds[1].string, tds[2].string])

def printUnivList(ulist, num):
tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"
print(tplt.format("排名","学校名称","总分",chr(12288)))
for i in range(num):
u = ulist[i]
print(tplt.format(u[0],u[1],u[2],chr[12288]))

def main():
uinfo = []
url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html'
html = getHTmlText(url)
fillUnivList(uinfo,html)
printUnivList(uinfo,20)
main()

以下是error（共三处）：
Traceback (most recent call last):
File "G:/Python练习/untitled1/爬虫中国大学排名.py", line 38, in <module>
main()
File "G:/Python练习/untitled1/爬虫中国大学排名.py", line 37, in main
printUnivList(uinfo,20)
File "G:/Python练习/untitled1/爬虫中国大学排名.py", line 29, in printUnivList
print(tplt.format(u[0],u[1],u[2],chr[12288]))
TypeError: 'builtin_function_or_method' object is not subscriptable
排名　　　学校名称　　　总分

Process finished with exit code 1

番外：请大佬指教，初入python，谢谢

...全文

994 10 打赏收藏转发到动态举报

写回复

用AI写文章

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

zhangyigg316 2018-03-28

打赏
举报

引用 9 楼 a_hua_er 的回复:

看到网上有人说是网址改了，然后我也试着去改了网址，可是错误依然存在

同在看视频，这个错误应该是说没有内容，就是爬取失败。函数里：except: return"1" main里：直接print(html)，结果为1，估计网页做了限制。我也不会解决。

enol-stark 2018-03-07

打赏
举报

看到网上有人说是网址改了，然后我也试着去改了网址，可是错误依然存在

enol-stark 2018-03-07

打赏
举报

同样的代码，我的错误是这样的，大佬能教教么跟着嵩天老师打的 Traceback (most recent call last): File "E:/无聊写python/untitled/最好大学排名——爬虫课堂.py", line 32, in <module> main() File "E:/无聊写python/untitled/最好大学排名——爬虫课堂.py", line 30, in main fillUnivList(unifo,html) File "E:/无聊写python/untitled/最好大学排名——爬虫课堂.py", line 14, in fillUnivList for tr in soup.find('tbody').children: #for循环遍历方法 AttributeError: 'NoneType' object has no attribute 'children' Process finished with exit code 1

chuifengde 2017-07-25

打赏
举报

我看了一下，排名那里是网页的源文件问题，你右键点击网页，查看源文件，可以看到排名数字只有前面有个<td>后面少了一个</td>关闭标记，但是你用chrome的ctrl+shift+I时，排名后的</td>又被它补齐了。要取排名，我看要用正则吧

charmingzhong 2017-07-25

打赏
举报

引用 2 楼 chuifengde 的回复:

print(tplt.format(u[0],u[1],u[2],chr[12288]))
这一行改成
print(tplt.format(u[0] or '',u[1],u[2],chr(12288)))

但是排名哪里没有信息出来

charmingzhong 2017-07-25

打赏
举报

引用 6 楼 chuifengde 的回复:

你用的是bs4哪是正则

记错了，哈哈哈，

chuifengde 2017-07-25

打赏
举报

你用的是bs4哪是正则

charmingzhong 2017-07-25

打赏
举报

引用 4 楼 chuifengde 的回复:

我看了一下，排名那里是网页的源文件问题，你右键点击网页，查看源文件，可以看到排名数字只有前面有个<td>后面少了一个</td>关闭标记，但是你用chrome的ctrl+shift+I时，排名后的</td>又被它补齐了。要取排名，我看要用正则吧

我看也是差一个<td>,但是我不会弄，尴尬，我就是用的正则啊

chuifengde 2017-07-23

打赏
举报

print(tplt.format(u[0],u[1],u[2],chr[12288]))
这一行改成
print(tplt.format(u[0] or '',u[1],u[2],chr(12288)))

charmingzhong 2017-07-22

打赏
举报

大佬

等你们多时不差这一会愿春风把你送万里的地方送来

从 Godsteal 和唯一丶写的帖子分析，抓包得到每张壁纸的实际地址，https://www.52pojie.cn/thread-787730-1-1.html，为了方便大家能够快速、一键获取所有壁纸，现在两位大佬的基础上，编写了一个小小的爬虫，达到一键获取所有壁纸的目的。一、获取每张笔直的真是地址从唯一丶给的地址 http://joyoncloud.com/wallpaper/img_detail/jtix/big/，进去后，查看网页源代码，分析每张图片的规律，通过正则表达式，构造壁纸的地址。其地址为http://joyoncloud.com/wallpaper/img_detail/jtix/big/+xxx.jpg 二、启用 Python 进行编写代码首先要到 http://joyoncloud.com/wallpaper/img_detail/jtix/big / 获取图片 xxx.jpg 列表，用 requests 库中的 get 请求进行请求，然后对返回的数据进行正则匹配，得出 xxx.jpg，构造出实际地址。三、图片保存我这里用的是 urllib.request.urlretrieve（）对壁纸进行保存的。

各位同学们，好久没写原创技术文章了，最近有些忙，所以进度很慢。警告：本教程仅用作学习交流，请勿用作商业盈利，违者后果自负！如本文有侵犯任何组织集团公司的隐私或利益，请告知联系猪哥删除！！！一、淘宝登录复习前面我们已经介绍过了如何使用requests库登录淘宝，收到了很多同学的反馈和提问，猪哥感到很欣慰，同时对那些没有及时回复的同学说声抱歉！顺便再提一下这个登录功能，代码是完全没有问题。...

一个例子搞懂：python如何从爬取到的字符串中提取信息呢？——重在思路分享

萌新爬虫系列01——爬取模型网站作品这是萌新的第一个爬虫，也是萌新发布的第一篇文章。首先声明一下本萌新在过去一个月内短程突击学习了Python网络爬虫，在此提前一并对倾囊相授，传道授业解惑的各位大神大佬们表示真挚的感谢和崇高的敬意！！！萌新的第一个爬虫准备对某小众模型网站进行试验：静态模型爱好者网站链接：http://www.moxingfans.com，又有谁能想到咱也是个胶佬呢？点击作品，本次要爬取的是网站作品栏目下的作品名录： 1.导入模块 #使用正则表达式爬取静态模型爱好者作品 impo

在前面几篇文章中，我们了解了Python爬虫技术的三个基础环节：下载网页、提取数据以及保存数据。这一篇文章，我们通过实际操作来将三个环节串联起来，以国产电视剧为例，构建我们的电视剧评分数据集。

脚本语言

37,719

社区成员

34,238

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章