社区
Java EE
帖子详情
【求助】统计网页上的信息
orclich
2011-03-03 04:59:33
在我本地客户端,想抓到网页上的数据做统计,有什么好办法么?
当然,这个网页不是我自己的,我也拿不到他的后台数据,只能看到网页上显示出来的数字,例如下图:
我想统计一下百度某贴吧点击量的总数,也就是把图中红框圈起来的一个一个累加在一起,当然实际上数量很大不可能拿计算器手动一个个去加,所以想请教有没有什么好的办法实现我这个需求,多谢诸位啦!
...全文
162
11
打赏
收藏
【求助】统计网页上的信息
在我本地客户端,想抓到网页上的数据做统计,有什么好办法么? 当然,这个网页不是我自己的,我也拿不到他的后台数据,只能看到网页上显示出来的数字,例如下图: 我想统计一下百度某贴吧点击量的总数,也就是把图中红框圈起来的一个一个累加在一起,当然实际上数量很大不可能拿计算器手动一个个去加,所以想请教有没有什么好的办法实现我这个需求,多谢诸位啦!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
11 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
orclich
2011-03-07
打赏
举报
回复
我用htmlparser做了,普通页面都是可以的,要的值都能拿到,可是我要搞的这个页面是lotus notes开发的。。。暂时没办法了,还是谢谢诸位,我去结贴~
ilrxx
2011-03-03
打赏
举报
回复
htmlparser,nekohtml都可以做,你先把这列数据抓下来,然后放到集合中去累加嘛
ruilongshun
2011-03-03
打赏
举报
回复
使用网络爬虫 网络爬虫,又被称为网页蜘蛛、网络机器人,也经常有称为网页追逐者,还有一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本; 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。传统爬虫是从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件,而信元爬虫技术并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。 从事网站运营的企业或站长,往往需要很大的人力和财力,从众多网站上查找网页信息、图片、附件、资源等,进行手工整理后,再发布到需要运营的网站或网络上,这样无形中增加了人工的成本,在信息的质量、完整性、数量上无法满足用户的需求;
使用信元网络爬虫技术,就解决了以上问题,它可以根据用户的业务需求,量身定做的网站网页追踪、复制拷贝,进行搜索和整理工作,无所不能的为您提供所需要的最新信息,从而为您方便的提供信息整合和资源整合,丰富用户网站的信息量,实时提供信息更新、信息维护;
提供可管理的蜘蛛入口,抓取策略设置及抓取文章过滤;自动过滤重复文章;智能分析页面类型,入口页面或目录型页面可定时重复抓取;针对抓取结果自动进行中文分词、词频统计及简要分类。
orclich
2011-03-03
打赏
举报
回复
5楼所说的 抓取网页内容,和6楼所说的 返回结果 ,我知道是一个意思,但是怎么抓取到网页内容的呢?怎么拿到返回结果的呢?这个地方不太懂。。。
orclich
2011-03-03
打赏
举报
回复
就是说,大体思路还是:
搞到返回页面的代码,然后解析这篇代码,找到要统计数据的标签,取出这些数据,转成int,做累加运算,是吧?
李鸿远
2011-03-03
打赏
举报
回复
看看api的URL类,遍历返回的结果应该不是什么难事吧,呵呵。。。
zn85600301
2011-03-03
打赏
举报
回复
先抓取网页内容
然后提取该列的数据
楼主可以看下jsoup 提取HTML标签内容
orclich
2011-03-03
打赏
举报
回复
这次一定成!!
orclich
2011-03-03
打赏
举报
回复
好吧,又挂了。。。
orclich
2011-03-03
打赏
举报
回复
发个图好麻烦。。。再试试~
cfd406635982
2011-03-03
打赏
举报
回复
http协议 然后分析返回的结果
还有楼主你的图片看不见
基于ssm+mysql的互助养老系统(含LW+PPT+源码+系统演示视频+安装说明).zip
养老机构工作人员可以查看用户预约记录并进行审核反馈,管理用户
求助
信息
,添加互助匹配人员
信息
,查看养老机构用户
信息
及
统计
;系统管理员可以管理首页
信息
、养老机构
信息
、产业
信息
以及用户
信息
。 摘要:随着人口...
基于ssm+mysql在线捐赠系统源码数据库论文.docx
1. 系统开发背景与目标 在网络技术飞速发展的...综上所述,该在线捐赠系统结合了现代
信息
技术,为医药捐赠领域带来了创新,其设计和实现充分体现了Java、JSP和MySQL等技术的综合应用,以及在解决实际问题中的价值。
基于ssm+mysql在线捐赠系统设计与实现.docx
系统的主要功能包括系统用户管理、注册用户管理、
信息
发布管理、医疗物品分类管理、项目
信息
管理、捐赠项目管理、志愿者申请管理、个人
求助
管理、个人捐赠
统计
、系统管理等。 技术架构 本系统采用SSM(Spring+...
基于python的社区养老管理系统.zip
在系统设计方面,基于Python的社区养老管理系统通常会采用模块化的设计思路,包括但不限于以下几个核心模块:用户管理模块、
信息
录入模块、健康监测模块、服务调度模块、紧急
求助
处理模块以及数据
统计
分析模块。...
大漠插件中文版
1. **
网页
元素定位**:大漠插件支持XPath和CSS选择器等多种方式来定位
网页
上的特定元素,这对于获取动态加载或者复杂结构的
网页
内容尤为关键。XPath是一种在XML文档中查找
信息
的语言,而CSS选择器则常用于HTML文档的...
Java EE
67,538
社区成员
225,852
社区内容
发帖
与我相关
我的任务
Java EE
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
复制链接
扫一扫
分享
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章