可视化获取xpath

falcon_fei 2012-03-26 03:21:56

想问下如何实现像“火车头采集软件”中，可视化获取xpath的功能呀。描述：输入url地址，然后在一个类似webbrowser的控件中加载该网页，讲鼠标移到该网页中的任意块时，获取到该块的xpath。

...全文

380 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

www395698087 2013-05-30

打赏
举报

回复

我也遇到这个问题高手指点一下

emmar 2012-08-01

打赏
举报

回复

这个后来解决了没？

keven1006 2012-05-07

打赏
举报

回复

我会弄，你要的给我发qq，392011121

falcon_fei 2012-03-26

打赏
举报

回复

反编译不了，提示“索引超出了数组界限”，而且就算不报这个错估计也是会加壳的，因为这是个商业软件。我手上的是免费版的，需要我发一份给您看下吗。

wy811007 2012-03-26

打赏
举报

回复

你这个软件在神马地方有啊是c# 开发的? 用反编译查看下好了

主要实现了以下功能，实现了以下功能：爬取数据：代码使用requests库发送HTTP请求，获取美食网站的页面内容。每次获取一页的内容，通过循环可以获取多页的数据。数据处理：代码使用lxml库对HTML内容进行解析，使用XPath表达式提取美食的名称、人气、评论、发布者和图片等信息。同时，对评论和人气数据进行处理，使用正则表达式匹配并提取出数字内容。存储到CSV文件：代码在每次循环中，通过csv库将美食数据存储到CSV文件中。以追加写入的方式打开CSV文件，使用csv.writer写入每一行的数据，确保数据的完整性和格式正确。数据可视化：代码使用pandas库读取CSV文件中的数据，并通过sort_values方法对数据按照人气进行降序排序。然后，通过matplotlib库绘制水平柱状图，展示人气排名前10的菜品。设置中文显示，调整字体，添加标签和标题，最后显示图像。通过以上功能，这段代码实现了从美食网站爬取数据，并进行数据处理、存储到CSV文件和可视化数据的功能。用户可以通过这段代码快速获取美食网站的数据，进行数据分析和可视化显示人气排名前10的菜品。

一个很实用的chrome插件，可以快速获取页面元素的xpath, 并且全程可视化，能知道自己是否成功获取到自己想要的数据。使用说明：CTRL+shift+X打开,打开后持续按住CTRL+shift可用鼠标快速获取页面任意元素的xpath

通过selenium自的标题，作者，发布时间动化使用Xpath爬取新闻，网址，评论数，点赞最多评论等。用通过pandas，numpy对数据进行进一步处理，计算共爬取了多少条新闻，以及点赞最多评论的新闻。最后通过seaborn，matplotlib简单的可视化出来。data_get.py文件通过Xpath定位获取新闻的标题等，data_process.py对数据进行简单的分析，data_analysis.py对数据进行可视化操作。制作饼状图和条形图。

ReviewsFlask Graduation project. 基于Scrapy+Flask+ECharts+Jieba的亚马逊平台商品评价获取分析系统数据库文件 reviews.sql 系统的整体功能分为三个模块：其中数据采集模块主要是基于Scrapy框架按照Xpath规则对指定URL地址爬取需求信息，包括评价标题，用户名称，评价时间，评价内容，评分和下一页的URL地址，当其不为空时重复按照上述规则进行数据采集，并结合MySQL存储实现数据持久化。数据分析模块主要是利用Jieba分词对评价详情内容进行词频分析，使用经过LSTM训练得到的模型进行情感分析。展示模块是对分析模块进行可视化的图表展示，包括使用词云展示词汇，词汇字体越大表示词频越高，使用户可以更直观的看到商品的特点和受众群体定位。针对反爬虫系统的应对措施：事先在Scrapy的Setting.py中维护一个包含各种浏览器的UserAgent的库，面对每一个Request请求，都随机从中选取一个填充到该请求的字段中，这样远程服务器就无法使用该反爬虫策略限制爬虫了。

垂直搜索引擎爬虫系统的主要作用是根据用户的需求抽取目标字段值。针对垂直搜索引擎数据定向抽取的特点,爬虫系统首先将一张范例网页“清洗”成符合W3C标准的文档,然后利用可视化XPath生成器解析该页面,获取目标字段对应的XPath路径,利用XPath路径进行数据抽取,最终获得目标字段值。经检测,该系统具有较高的抽取效率,其稳定性和安全性都符合实际应用需求。

110,538

社区成员

642,577

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧

+ 用AI写文章