python 网页编码问题还是?

ashang1988 2018-05-28 05:56:32

 

#!/usr/bin/python

# -*- coding: utf-8 -*-



'''



'''

import urllib.request, sys

import re



file_path = sys.path[0] + "\\wea.txt"

'''

代表名单

'''

def get_congress(num_value, type):

	url = "http://www.npc.gov.cn/delegate/dbmd.action?id=" + num_value

	request=urllib.request.Request(url)

	#url = "http://www.npc.gov.cn/delegate/dbmd.action?id=4028819f6178f1fb0162b7fcf0700001"

		#获取页面信息  

	html = urllib.request.urlopen(request)  

	res = html.read().decode(type)  

	

	#正则表达式信息  

	pattern = '"tit1">(.+)</div>'  

	Title = re.search(pattern,res).group(1)

	#代表编号

	pattern = 'dbid=(\d*)'

	number = re.findall(pattern, res)

	#代表姓名

	pattern = '"_blank">(.+)</a>'

	names = re.findall(pattern, res)

	

	length = len(number)

	#print(length)

	print ("\n%35.30s\n"%Title)

	text_str = Title + '\r\n'

	for i in range (0,length):  

		print ('%25.20s'%number[i], '\t%s'%names[i])

		text_str += " " + number[i] + ' \t' + names[i] + '\r\n'

	return text_str 



#使用代理获取local 名单	

def proxy_get_congress(num_value, type):

	#访问网址

	url = "http://www.npc.gov.cn/delegate/dbmd.action?id=" + num_value

	#这是代理IP

	proxy = {'http':'106.46.136.112:808'}

	#创建ProxyHandler

	proxy_support = urllib.request.ProxyHandler(proxy)

	#创建Opener

	opener = urllib.request.build_opener(proxy_support)

	#添加User Angent

	opener.addheaders = [('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36')]

	#安装OPener

	#urllib.request.install_opener(opener)

	#使用自己安装好的Opener

	#response = urllib.request.urlopen(url)



	response = urllib.request.urlopen(url)

	#读取相应信息并解码

	res = response.read().decode(type)  

	

	#正则表达式信息  

	pattern = '"tit1">(.+)</div>'  

	Title = re.search(pattern,res).group(1)

	#代表编号

	pattern = 'dbid=(\d*)'

	number = re.findall(pattern, res)

	#代表姓名

	pattern = '"_blank">(.+)</a>'

	names = re.findall(pattern, res)

	

	length = len(number)

	#print(length)

	print ("\n%35.30s\n"%Title)

	text_str = Title + '\r\n'

	for i in range (0,length):  

		print ('%25.20s'%number[i], '\t%s'%names[i])

		text_str += " " + number[i] + ' \t' + names[i] + '\r\n'

	return text_str 

if __name__=="__main__":



	#c4 是重庆 我人在重庆 无法获取

	proxy_get_congress("c4", 'gbk')

	#get_congress("c4", 'gbk')

其他省份的获取正常. 看网页源码编码格式是utf-8 但解析需要gbk,不知道为什么?

获取我所在地省份重庆时,其他省份获取正常的方法就不行了,报错:
UnicodeDecodeError:'gbk' code can not decode byte 0xaa in position 2066:illegal mutibyte sequence

utf-8 其他省份解码也是失败.

我使用代理也是同样的错误
window7 python3.6.5-32bit

谁知道怎么弄

...全文

303 3 打赏收藏转发到动态举报

写回复

用AI写文章

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

ashang1988 2018-05-28

打赏
举报

谢谢楼上,试了下可以了

oyljerry 2018-05-28

打赏
举报

它网页编码有点问题，有些字符可能不是符合规范，是GBK编码，可以忽略错误

res = html.read().decode(type, 'ignore')

ashang1988 2018-05-28

打赏
举报

不在重庆的兄弟试一下运行正常不, 会报错不?

【摘要】爬虫作为python众多功能中的其中一种，有着不可或缺的地位，那么用python如何爬取网页文字？这样的代码就能轻松搞定，这些内容也许对python学习有帮助，毕竟实践出真知，所以你要知道用python如何爬取网页文字？这样的代码就能轻松搞定。用Python爬行网页文本的代码：#!/usr/bin/python# -*- coding: UTF-8 -*-import requestsim...

编码不匹配：网页使用了一种编码方式，而在抓取过程中未正确指定相同的编码方式，导致乱码。例如，网页使用UTF-8编码，但是Python默认使用的是ASCII编码。在Python中抓取网页内容时，有时会遇到网页乱码的问题，即所获取的文本显示为乱码或无法正确解析。通过以上方法，可以有效解决Python中抓取网页乱码的问题。根据具体情况选择合适的方法，可以使得抓取的网页内容能够正确解析并显示。字符集错误：网页中包含特殊字符或非标准字符集，而解析时未能正确处理这些字符。

python网页编码是utf-8返回的是乱码怎么办？今天遇到一个问题搜索了很久才发现问题，所以这里发一个处理的过程工具/原料电脑 win 7 64位pytharm方法/步骤1首先我在浏览器的开发者上面查看了源代码发现是utf-82也用了console里面的document.charset确认了一下3python运行之后返回的还是一些看不懂的符号4其实是utf-8是没错的，只是我们需要给他明确一下原...

Python抓取网页乱码的原因及解决方法本篇文章给大家带来的内容是关于Python抓取网页乱码的原因及解决方法，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。在用 python2 抓取网页的时候，经常会遇到抓下来的内容显示出来是乱码。发生这种情况的最大可能性就是编码问题：运行环境的字符编码和网页的字符编码不一致。比如，在 windows 的控制台（gbk）里抓取了一个 utf-8...

已解决Python爬虫网页中文乱码问题

脚本语言

37,743

社区成员

34,212

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章

python 网页编码问题 还是?

python 网页编码问题还是?