使用Python的爬取新浪新闻有问题??

weixin_38051859 2014-10-28 08:52:53
page=urlopen('http://www.sina.com.cn/') soup=BeatifulSoup(page) 显示 WARNING:root:Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER. 使用 page.read() 发现里面是乱码? 这是怎么会是,是新浪不允许爬取吗? ps:不是编码的问题,同样的GB2312编码的百度新闻就可以
...全文
300 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复

433

社区成员

发帖
与我相关
我的任务
社区描述
其他技术讨论专区
其他 技术论坛(原bbs)
社区管理员
  • 其他技术讨论专区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧