使用Python的爬取新浪新闻有问题??
page=urlopen('http://www.sina.com.cn/')
soup=BeatifulSoup(page)
显示
WARNING:root:Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.
使用
page.read()
发现里面是乱码?
这是怎么会是,是新浪不允许爬取吗?
ps:不是编码的问题,同样的GB2312编码的百度新闻就可以