python爬虫中，出现ValueError: can only parse strings该如何解决？

Alex-7c 2017-07-10 07:34:34

如题，本人用Python爬取内容时，出现了ValueError: can only parse strings这个错误，该如何解决？

源代码如下：
#-*-coding:utf8-*-

from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool
import requests
import json
import sys

reload(sys)

sys.setdefaultencoding('utf-8')

def towrite(contentdict):
f.writelines(u'回帖时间：' + str(contentdict['topic_reply_time'])+'\n')
f.writelines(u'回帖内容：' + unicode(contentdict['topic_reply_content'])+'\n')
f.writelines(u'回帖人：' + contentdict['user_name']+'\n\n')

def spider(url):
html=requests.get(url)
selector=etree.HTML(html)
content_field=selector.xpath('//div[@class="l_post j_l_post l_post_bright "]')
item={}
for each in content_field:
reply_info=json.load(each.xpath('@data-field')[0].replace('"',''))
author=reply_info['author']['user_name']
content=each.xpath('div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content clearfix"]/text()')[0]
reply_time=reply_info['content']['date']
print author
print content
print reply_time
item['user_name']=author
item['topic_reply_content']=content
item['topic_reply_time']=reply_time
towrite(item)

if __name__=='__main__':
pool=ThreadPool(4)
f=open('content.txt','a')
page=[]
for i in range(1,21):
newpage='http://tieba.baidu.com/p/3522395718?pn='+str(i)
page.append(newpage)

results=pool.map(spider, page)
pool.close()
pool.join()
f.close()

...全文

3232 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

yy19931231 2019-08-05

打赏
举报

回复

我也是这个报错

sanGuo_uu 2017-07-11

打赏
举报

回复

值错误：只能解析string 你是哪句报错？肯定是你某个方法传入了非string的参数，所以报错

Alex-7c 2017-07-11

打赏
举报

回复

引用 1 楼 u012536120 的回复:

值错误：只能解析string 你是哪句报错？肯定是你某个方法传入了非string的参数，所以报错

results=pool.map(spider, page) 这一句出现错误

Alex-7c 2017-07-11

打赏
举报

回复

results=pool.map(spider, page) 这一句出现错误

Python 使用xpath遇到问题 ValueError: can only parse strings

学习的时候调用 etree.HTML() 出现报错信息 xml = etree.HTML(content) # 报错信息 ValueError: can only parse strings 网上搜索了下，好几个回答都是etree.HTML(content.text) 在参数中调用属性，他们好像都行，但我这是不行，会提示没有这个属性 xml = etree.HTML(content.text) # 报错信息 AttributeError: 'HTTPResponse' object has no at

1、问题描述：学习Python操作word文件，使用render()方法时报错ValueError: can only parse strings。 2、相关代码 # _*_ encoding:utf-8 _*_ from docxtpl import DocxTemplate data_dic = { 't1':'燕子', 't2':'杨柳', 't3':'桃花', 't4':'针尖'...

今天用lxml模块,使用xpath时，出现了以下错误：刚开始一脸懵逼，不知道咋办，仔细一想错误提示： ValueError:can only parse strings 不能解析字符串，终于知道了，原来我前面请求得到的req里面不仅仅是字符串，还有许多html标签。我将这一位置代码的req 替换为 req.text ,只取文本内容就成功解析。 ...

从零开始入坑爬虫，记录一下遇到的问题源代码： import requests from bs4 import BeautifulSoup as bf from lxml import etree url = 'http://movie.douban.com/top250/' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chro

37,743

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章