爬虫 scrapy+selenium

KelinH 2019-03-12 04:07:18
伙伴们 再次来求助了
有没有知道这个错误怎么解决???
File "C:\MySpider\AddUrl\AddUrl\spiders\add.py", line 49, in GetComment
page_source = driver.page_source
File "E:\Anaconda\lib\site-packages\selenium\webdriver\remote\webdriver.py", line 679, in page_source
return self.execute(Command.GET_PAGE_SOURCE)['value']
File "E:\Anaconda\lib\site-packages\selenium\webdriver\remote\webdriver.py", line 321, in execute
self.error_handler.check_response(response)
File "E:\Anaconda\lib\site-packages\selenium\webdriver\remote\errorhandler.py", line 242, in check_response
raise exception_class(message, screen, stacktrace)
selenium.common.exceptions.InvalidArgumentException: Message: unexpected end of hex escape at line 1 column 2111274
...全文
378 12 打赏 收藏 转发到动态 举报
写回复
用AI写文章
12 条回复
切换为时间正序
请发表友善的回复…
发表回复
schdut 2019-09-04
  • 打赏
  • 举报
回复
引用 11 楼 W.Hao 的回复:
[quote=引用 9 楼 schdut的回复:][quote=引用 1 楼 yshuise 的回复:] html 里面有错误的代码
请问该怎么解决呢[/quote] 我换了一种方法 用soup库soup.find[/quote] 好的 谢谢
KelinH 2019-09-03
  • 打赏
  • 举报
回复
引用 9 楼 schdut的回复:
[quote=引用 1 楼 yshuise 的回复:] html 里面有错误的代码
请问该怎么解决呢[/quote] 我换了一种方法 用soup库soup.find
  • 打赏
  • 举报
回复
你给网址贴出来让他们试试就知道了。
schdut 2019-08-11
  • 打赏
  • 举报
回复
引用 1 楼 yshuise 的回复:
html 里面有错误的代码
请问该怎么解决呢
KelinH 2019-03-13
  • 打赏
  • 举报
回复
引用 7 楼 陈年椰子的回复:
打印 driver.title 正常吗?

我没用过 scrapy , 只用过 selenium

我觉得要先分析下你要爬取的网站, 按工作的url先手工刷一遍信息看看。 有没有可能是网站采取了反爬机制导致返回的数据有特殊字符。

如果网站正常, 从出错的地方往回看。 检查相关信息是否正常。
嗯嗯 好的 我试试 谢谢
陈年椰子 2019-03-13
  • 打赏
  • 举报
回复
打印 driver.title 正常吗?

我没用过 scrapy , 只用过 selenium

我觉得要先分析下你要爬取的网站, 按工作的url先手工刷一遍信息看看。 有没有可能是网站采取了反爬机制导致返回的数据有特殊字符。

如果网站正常, 从出错的地方往回看。 检查相关信息是否正常。

KelinH 2019-03-12
  • 打赏
  • 举报
回复
引用 5 楼 yshuise的回复:
html 里面有错误的代码
什么意思?你是谁爬取的page_source有错吗?
yshuise 2019-03-12
  • 打赏
  • 举报
回复
html 里面有错误的代码
KelinH 2019-03-12
  • 打赏
  • 举报
回复
引用 2 楼 陈年椰子 的回复:
看起来是 driver.page_source 异常
打印下 driver.title 看看是不是正常值
打印下 len(driver.page_source) 看返回是啥

是一样的错误
KelinH 2019-03-12
  • 打赏
  • 举报
回复
引用 2 楼 陈年椰子的回复:
看起来是 driver.page_source 异常
打印下 driver.title 看看是不是正常值
打印下 len(driver.page_source) 看返回是啥
大佬 别走 我刚从实验室回来 得等一会
陈年椰子 2019-03-12
  • 打赏
  • 举报
回复
看起来是 driver.page_source 异常
打印下 driver.title 看看是不是正常值
打印下 len(driver.page_source) 看返回是啥
KelinH 2019-03-12
  • 打赏
  • 举报
回复
这个异常疑似 page_source占据内存太大?少加载几次就不会出异常了。

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧