【求助】统计网页上的信息

orclich 2011-03-03 04:59:33
在我本地客户端,想抓到网页上的数据做统计,有什么好办法么?
当然,这个网页不是我自己的,我也拿不到他的后台数据,只能看到网页上显示出来的数字,例如下图:
我想统计一下百度某贴吧点击量的总数,也就是把图中红框圈起来的一个一个累加在一起,当然实际上数量很大不可能拿计算器手动一个个去加,所以想请教有没有什么好的办法实现我这个需求,多谢诸位啦!
...全文
162 11 打赏 收藏 转发到动态 举报
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
orclich 2011-03-07
  • 打赏
  • 举报
回复
我用htmlparser做了,普通页面都是可以的,要的值都能拿到,可是我要搞的这个页面是lotus notes开发的。。。暂时没办法了,还是谢谢诸位,我去结贴~
ilrxx 2011-03-03
  • 打赏
  • 举报
回复
htmlparser,nekohtml都可以做,你先把这列数据抓下来,然后放到集合中去累加嘛
ruilongshun 2011-03-03
  • 打赏
  • 举报
回复
使用网络爬虫 网络爬虫,又被称为网页蜘蛛、网络机器人,也经常有称为网页追逐者,还有一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本; 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。传统爬虫是从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件,而信元爬虫技术并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。 从事网站运营的企业或站长,往往需要很大的人力和财力,从众多网站上查找网页信息、图片、附件、资源等,进行手工整理后,再发布到需要运营的网站或网络上,这样无形中增加了人工的成本,在信息的质量、完整性、数量上无法满足用户的需求;

使用信元网络爬虫技术,就解决了以上问题,它可以根据用户的业务需求,量身定做的网站网页追踪、复制拷贝,进行搜索和整理工作,无所不能的为您提供所需要的最新信息,从而为您方便的提供信息整合和资源整合,丰富用户网站的信息量,实时提供信息更新、信息维护;

提供可管理的蜘蛛入口,抓取策略设置及抓取文章过滤;自动过滤重复文章;智能分析页面类型,入口页面或目录型页面可定时重复抓取;针对抓取结果自动进行中文分词、词频统计及简要分类。
orclich 2011-03-03
  • 打赏
  • 举报
回复

5楼所说的 抓取网页内容,和6楼所说的 返回结果 ,我知道是一个意思,但是怎么抓取到网页内容的呢?怎么拿到返回结果的呢?这个地方不太懂。。。
orclich 2011-03-03
  • 打赏
  • 举报
回复
就是说,大体思路还是:
搞到返回页面的代码,然后解析这篇代码,找到要统计数据的标签,取出这些数据,转成int,做累加运算,是吧?
李鸿远 2011-03-03
  • 打赏
  • 举报
回复
看看api的URL类,遍历返回的结果应该不是什么难事吧,呵呵。。。
zn85600301 2011-03-03
  • 打赏
  • 举报
回复
先抓取网页内容
然后提取该列的数据
楼主可以看下jsoup 提取HTML标签内容
orclich 2011-03-03
  • 打赏
  • 举报
回复

这次一定成!!
orclich 2011-03-03
  • 打赏
  • 举报
回复
好吧,又挂了。。。
orclich 2011-03-03
  • 打赏
  • 举报
回复

发个图好麻烦。。。再试试~
cfd406635982 2011-03-03
  • 打赏
  • 举报
回复
http协议 然后分析返回的结果
还有楼主你的图片看不见

67,538

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧