python 爬数据

shwwxw 2012-02-25 01:38:19

我现在要爬某个网页的数据，先登陆，登陆后戴上cookie去爬
self.br.setCookie(cookie)
page = self.br.open(url).read()
soup = BeautifulSoup(page)
此处，page 中文显示正常，但是编码格式是ISO8859-2,然后soup 中文就全部变成乱码了 soup.originalEncoding = windows-1252，截取 soup 一部分如下
<p class="W_textb W_linkd_a">
æ ‡ç¾ï¼š<a href="&tag=%25E6%25B8%25B8%25E4%25BA%25BA%25E5%25AD%25A6%25E7%258C%25A9%25E7%258C%25A9&Refer=SUer_tag" onclick="GB_SUDA._S_uaTrack('tblog_search_v4','user_feed_tag_2');">æ¸¸äººå¦çŒ©çŒ©</a> <a href="&tag=%25E8%2589%25BA%25E4%25BA%25BA%25E5%25BD%2593%25E6%2598%258E%25E6%2598%259F&Refer=SUer_tag" onclick="GB_SUDA._S_uaTrack('tblog_search_v4','user_feed_tag_2');">è‰ºäººå½“æ˜Žæ˜Ÿ</a> </p>
<p class="W_textb W_linkd_a">
æ•™è‚²ä¿¡æ ¯ï¼š<a href="&school=%25E4%25B8%258A%25E6%25B5%25B7%25E6%2588%258F%25E5%2589%25A7%25E5%25AD%25A6%25E9%2599%25A2&Refer=SUer_school" onclick="GB_SUDA._S_uaTrack('tblog_search_v4','user_feed_sch_2');">ä¸Šæµ·æˆ?å‰§å¦é™¢</a> </p>
当不加cookie时，爬取下来完全正常page的编码格式是utf-8
有没有办法能使之正常显示中文
ps:加cookie爬取这个网站的其他页面是没有问题的

...全文

223 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

shwwxw 2012-02-27

打赏
举报

回复

已经知道原因，page的编码格式显示错误，并不是ISO8859-2，依然是utf-8
只要decode('utf-8','ignore').encode('utf-8')就可以了

Gloveing 2012-02-26

打赏
举报

回复

把得到的数据decode

Python爬虫数据导入数据库详细代码教程

大学期间，也进行了一番深入学习，毕业后也曾试图把python作为自己的职业方向，虽然没有如愿成为一名python工程师，但掌握了python，也让我现如今的工作开展和职业发展更加得心应手。这篇文章主要与大家分享一下自己...

请点击输入图片描述然后在python的编辑器中输入import选项，提供这两个库的服务请点击输入图片描述urllib主要负责抓取网页的数据，单纯的抓取网页数据其实很简单，输入如图所示的命令，后面带链接即可。模拟浏览器，...

Python爬虫——matplotlib和pandas库数据可视化导入需要的第三方库 import matplotlib.pyplot as plt import seaborn as sns import pandas as pd import requests import urllib3 import matplotlib as mpl ...

爬数据的意思是：通过网络爬虫程序来获取需要的网站上的内容信息，比如文字、视频、图片等数据。网络爬虫（网页蜘蛛）是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。学习一些爬数据的知识有什么用呢？...

37,721

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章