使用Python的爬取新浪新闻有问题？？

weixin_38051859 2014-10-28 08:52:53

page=urlopen('http://www.sina.com.cn/') soup=BeatifulSoup(page) 显示 WARNING:root:Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER. 使用 page.read() 发现里面是乱码？这是怎么会是，是新浪不允许爬取吗？ ps:不是编码的问题，同样的GB2312编码的百度新闻就可以

...全文

300 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

python爬取新浪新闻demo，学习并整理后实现了爬新闻的功能

python网络爬虫，抓取新浪新闻信息，包括新闻标题、时间、来源、正文等

从零开始敲代码，手把手带领大家感受从无到有的全过程。讲师是以企业里Python程序员的角度出发，换位思考以非常有效、高效的方式对接工作中可能涉及到各类角色，比如产品经理和运营人员等。主要包含：http请求、正则...

基于python爬取新浪微博爬虫以及生成词云源码.zip基于python爬取新浪微博爬虫以及生成词云源码.zip基于python爬取新浪微博爬虫以及生成词云源码.zip基于python爬取新浪微博爬虫以及生成词云源码.zip基于python爬取...

通过python语言和scrapy框架爬取新浪网新闻资讯的数据进行分类存储

其他技术讨论专区

433

社区成员

791,270

社区内容

发帖

与我相关

我的任务

其他技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章