获取网页中表格(其中表格不止一页)

qq_34621405 2017-09-07 01:43:47
网页表格不止一页,想要获取整个表格的内容,用webdriver定位到表格下一页的元素,模拟网页跳转到下一页爬取表格信息,循环表格页码数量,想要定位>,妹点一次>的位置就发生一次变化,而且不同表格不能通用。是否还有其他思路可用
...全文
679 4 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
qq_34621405 2017-09-07
  • 打赏
  • 举报
回复
引用 3 楼 zhmwang2008 的回复:
网站是那个?
尝试一下能不能解析post
网站是天眼查,用户名:15160773967 密码: yy171827。爬取公司:淘宝(中国)软件有限公司。现在问题变成这样了,我爬取页面对底端的表格,绝对路径得到的元素可以做click操作,自动模拟翻到表格的下一页,但是相对路径就返回错误,但是这里不能使用绝对路径,随着模拟翻页,绝对路径地址会有变化。PS:我用的webdriver模拟登陆到这个页面的,现在我把模拟登陆到此页面的代码给你好了。
from selenium import webdriver
import time
import re

url = 'https://www.tianyancha.com/login'
driver = webdriver.Chrome()
driver.get(url)
username = '15160773967'
password = 'yy171827'
word = '淘宝' # 此处可做一个循环
# 模拟登陆
driver.find_element_by_xpath(".//*[@id='web-content']/div/div/div/div[2]/div/div[2]/div[2]/div[2]/div[2]/input").send_keys(username)
driver.find_element_by_xpath(".//*[@id='web-content']/div/div/div/div[2]/div/div[2]/div[2]/div[2]/div[3]/input").send_keys(password)
driver.find_element_by_xpath(".//*[@id='web-content']/div/div/div/div[2]/div/div[2]/div[2]/div[2]/div[5]").click()
time.sleep(3)
driver.get('https://www.tianyancha.com/company/28723141')
张强1990 2017-09-07
  • 打赏
  • 举报
回复
网站是那个? 尝试一下能不能解析post
NG7711 2017-09-07
  • 打赏
  • 举报
回复
我以前爬过一个网址,前端向后端请求表格是用的一个POST, 这个POST 的参数包括请求第第几页,每页包含多少行信息之类的。 我的做法类似于这样,直接自己根据他的要求拼出相应的URL,然后分析这个URL返回的数据: url_template = "XXXXXXXXX?type=lsjz&code={0}&page=1&per={1}&sdate=&edate=&rt=0.7948167527257904" 这样就不需要模拟按键了。 如果这些信息是使用ajax请求到的,同样的原理。找到那个ajax,直接去调用,而不是通过模拟网页的按键来发这个ajax
qq_34621405 2017-09-07
  • 打赏
  • 举报
回复
已经定位到<元素,cc=dr.find_element_by_link_text('<'),但是cc.click() f返回错误,说cc元素没有点击属性

37,743

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • WuKongSecurity@BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧