使用selenium获取不到response

overus 2018-05-09 12:23:25

在做scrapy+selenium+Phantomjs的爬虫时遇到一个问题，按照网上别人的爬虫自己做了一个，但是不能获取正确的
response，小白请大神帮忙看看哪出了问题？

输出的部分结果：
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
<200 http://yuehui.163.com/searchusers.do>
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

爬虫：
class YhSpider(scrapy.Spider):
name = 'yh'
allowed_domains = ['http://yuehui.163.com']
start_urls = ['http://yuehui.163.com/searchusers.do']
def parse(self, response):
print("++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++")
print(response)
print("++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++")

下载中间件:
class PageMiddleware(object):
def process_request(self, request, spider):
driver = webdriver.PhantomJS()
driver.get(request.url)
driver.find_element_by_xpath("//select[@name='province']/option[@value='2']").click()
driver.find_element_by_xpath("//div[@class='btnblock']/button[@id='commonsearchbtn']").click()
time.sleep(2)
content = driver.page_source.encode("utf-8")
driver.quit()
return HtmlResponse(request.url, encoding="utf-8",body=content, request=request)

...全文

1001 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

半吊子Py全栈工程师 2018-05-09

打赏
举报

回复

response.body

overus 2018-05-09

打赏
举报

回复

原来如此，多谢了！

在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url...

selenium并不支持获取响应的数据，我们可以使用selenium-wire库，selenium-wire扩展了 Selenium 的 Python 绑定，可以访问浏览器发出的底层请求。driver.requests返回的是一个列表，遍历每个url来获取想要的url响应...

”，这时候我们去看网络请求数据，结果状态码全部都是 200，没有其它信息，这压根没法定位不了问题。这就说明：网络出现异常的时候，仅靠状态码是不够的。我们最好能拿到 http 所有数据，包括：请求头、响应头、...

好消息好消息！！现在只用Selenium就可以完成 mitmproxy + Selenium 的组合才能完成的操作~~~Selenium获取Network，Selenium获取XHR数据，Selenium获取Network数据，很详细。

Selenium本身没有获取接口响应的api，但是可以通过第三方库seleniumwire获取接口响应数据。SeleniumWire扩展了Selenium的Python绑定，使您可以访问浏览器发出的底层请求。您以与Selenium相同的方式编写代码，但您...

37,720

社区成员

34,238

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章