网址解析出来,显示不正常

qqblack 2017-01-20 11:30:13
为啥新浪的网址,这段代码,显示的是正常的,换一个网址结果就好像是乱码呀?
# -*- coding:utf-8 -*-
##从新浪网爬取新闻
import requests
from bs4 import BeautifulSoup
newsurl='http://news.sina.com.cn/china/'
# newsurl='http://www.city-data.com/city/Honolulu-Hawaii.html' #这个为啥不行,结果是乱码的
res = requests.get(newsurl)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html5lib')
print(res.text)



上面是新浪网的显示结果,是被解析了的
换成http://www.city-data.com/city/Honolulu-Hawaii.html这个网址,解析结果就是乱码的(全是css代码一样的东西)
这样有个什么问题呢?
-----在页面上出现的文字,你在这个解析结果中是搜不到的

这是为什么呀?

我通过开发者工具观察了一下
新浪网的响应(对应chrome中的network-preview)

而另外一个网址是这样的(全是css代码一样的东西)



...全文
215 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
qqblack 2017-01-21
  • 打赏
  • 举报
回复
好吧,其实是我自己大意了,仔细往下翻,还是有源代码的(网页上出现的东西,可以在源代码中搜到)
只不过,没有把具体某个东西提取出来,导致太多,看起来很乱

37,720

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧