获取网页中表格（其中表格不止一页）

qq_34621405 2017-09-07 01:43:47

网页表格不止一页，想要获取整个表格的内容，用webdriver定位到表格下一页的元素，模拟网页跳转到下一页爬取表格信息，循环表格页码数量，想要定位>，妹点一次>的位置就发生一次变化，而且不同表格不能通用。是否还有其他思路可用

...全文

740 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

qq_34621405 2017-09-07

打赏
举报

引用 3 楼 zhmwang2008 的回复:

网站是那个？
尝试一下能不能解析post

网站是天眼查，用户名：15160773967 密码： yy171827。爬取公司：淘宝（中国）软件有限公司。现在问题变成这样了，我爬取页面对底端的表格，绝对路径得到的元素可以做click操作，自动模拟翻到表格的下一页，但是相对路径就返回错误，但是这里不能使用绝对路径，随着模拟翻页，绝对路径地址会有变化。ＰＳ：我用的ｗｅｂｄｒｉｖｅｒ模拟登陆到这个页面的，现在我把模拟登陆到此页面的代码给你好了。

from selenium import webdriver

import time

import re



url = 'https://www.tianyancha.com/login'

driver = webdriver.Chrome()

driver.get(url)

username = '15160773967'

password = 'yy171827'

word = '淘宝'  # 此处可做一个循环

# 模拟登陆

driver.find_element_by_xpath(".//*[@id='web-content']/div/div/div/div[2]/div/div[2]/div[2]/div[2]/div[2]/input").send_keys(username)

driver.find_element_by_xpath(".//*[@id='web-content']/div/div/div/div[2]/div/div[2]/div[2]/div[2]/div[3]/input").send_keys(password)

driver.find_element_by_xpath(".//*[@id='web-content']/div/div/div/div[2]/div/div[2]/div[2]/div[2]/div[5]").click()

time.sleep(3)

driver.get('https://www.tianyancha.com/company/28723141')

张强1990 2017-09-07

打赏
举报

网站是那个？尝试一下能不能解析post

NG7711 2017-09-07

打赏
举报

我以前爬过一个网址，前端向后端请求表格是用的一个POST, 这个POST 的参数包括请求第第几页，每页包含多少行信息之类的。我的做法类似于这样，直接自己根据他的要求拼出相应的URL，然后分析这个URL返回的数据： url_template = "XXXXXXXXX?type=lsjz&code={0}&page=1&per={1}&sdate=&edate=&rt=0.7948167527257904" 这样就不需要模拟按键了。如果这些信息是使用ajax请求到的，同样的原理。找到那个ajax，直接去调用，而不是通过模拟网页的按键来发这个ajax

qq_34621405 2017-09-07