python 爬虫在xpath中的乱码问题

k826416971 2015-12-26 01:21:54

最近在学python 在学习多线程爬虫xpath的时候，发现xpath的乱码问题，去百度很很多解决乱码的方法，但是都不行。请各位大牛帮我看看

#-*-coding:utf8-*-

import requests

import sys

from lxml import etree

reload(sys)

sys.setdefaultencoding('gbk')

url='http://www.jikexueyuan.com/course/902_2.html?ss=1'

html =requests.get(url)

selector = etree.HTML(html.content)

#提取文本

content = selector.xpath('//*[@id="pager"]/div[3]/div[2]/div[2]/ul/li[1]/div/h2/a/text()')

print content

for each in content:

    print each

...全文

2192 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

胖胖的飞象 2018-02-23

打赏
举报

乱码一般是编码的问题，同前面，setdefault可以去掉，一般网站都是utf-8编码，可以用r.encoding =r.apparentencoding，r.content没用过，建议用r.text，如果还有问题试试setdefault改为utf-8，还有问题的话看看py2编解码的问题，看不懂的话转py3吧大兄弟

k826416971 2015-12-27

打赏
举报

引用 1 楼 pcboyxhy 的回复:

把这两行删掉，在Linux下运行一切OK
reload(sys)
sys.setdefaultencoding('gbk')
不要再调用setdefaultencoding了，python3里面取消了这个功能

我用的是python2.7.10 win8操作系统

k826416971 2015-12-27

打赏
举报

我用的是python2.7.10 win8操作系统

pcboyxhy 2015-12-26

打赏
举报

把这两行删掉，在Linux下运行一切OK

reload(sys)
sys.setdefaultencoding('gbk')

不要再调用setdefaultencoding了，python3里面取消了这个功能

这篇文章主要介绍了Python爬虫XPath解析出乱码的问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教。网上有用python2流传下来的HTMLParser的，还有用python3的html包的，效果都不好。网上相关的“Python字符中出现&#的解决办法”又没有很好的解决，自己继续冲浪，费了一番功夫解决了。爬网页又遇到一个坑，老是出现a乱码，查看html出现的是&#数字;这算是又加深了一下我对这些iso、Unicode编码的理解。不用说自然是编码的问题。

爬虫入坑一段时间了，准备搞点事，嘿嘿注意：阅读本文要有一定的python基础，了解Requests和Xpath相关语法，以及正则表达式 1.关于Requests和Xpath Requests Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库如果你看过文章关于urllib库的使用，你会发现，其实urllib还是非常...

import os import requests from lxml import etree if __name__ == '__main__': # UA伪装 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.70 Safari/537.36' } # 指.

针对网站：http://pic.netbian.com/等单个页面有多个照片的页面废话不多说直接上码下载的照片均在同一文件夹下的meinv文件夹里 import requests from lxml import etree import os print("请输入您当前网页地址") # http://pic.netbian.com/ url = input("") # 头文件 header = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win6

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2020/12/10 15:37 # @Author : huni # @File : aitu吧多线程.py # @Software: PyCharm import requests from lxml import etree import os from queue import Queue from threading import Thread class CrawlI

脚本语言

37,739

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章