【求助】统计网页上的信息

orclich 2011-03-03 04:59:33

在我本地客户端，想抓到网页上的数据做统计，有什么好办法么？
当然，这个网页不是我自己的，我也拿不到他的后台数据，只能看到网页上显示出来的数字，例如下图：
我想统计一下百度某贴吧点击量的总数，也就是把图中红框圈起来的一个一个累加在一起，当然实际上数量很大不可能拿计算器手动一个个去加，所以想请教有没有什么好的办法实现我这个需求，多谢诸位啦！

...全文

162 11 打赏收藏转发到动态举报

写回复

用AI写文章

11 条回复

切换为时间正序

请发表友善的回复…

发表回复

orclich 2011-03-07

打赏
举报

我用htmlparser做了，普通页面都是可以的，要的值都能拿到，可是我要搞的这个页面是lotus notes开发的。。。暂时没办法了，还是谢谢诸位，我去结贴~

ilrxx 2011-03-03

打赏
举报

htmlparser,nekohtml都可以做，你先把这列数据抓下来，然后放到集合中去累加嘛

ruilongshun 2011-03-03

打赏
举报

使用网络爬虫网络爬虫，又被称为网页蜘蛛、网络机器人，也经常有称为网页追逐者，还有一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本；网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成部分。传统爬虫是从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件，而信元爬虫技术并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。从事网站运营的企业或站长，往往需要很大的人力和财力，从众多网站上查找网页信息、图片、附件、资源等，进行手工整理后，再发布到需要运营的网站或网络上，这样无形中增加了人工的成本，在信息的质量、完整性、数量上无法满足用户的需求；

使用信元网络爬虫技术，就解决了以上问题，它可以根据用户的业务需求，量身定做的网站网页追踪、复制拷贝，进行搜索和整理工作，无所不能的为您提供所需要的最新信息，从而为您方便的提供信息整合和资源整合，丰富用户网站的信息量，实时提供信息更新、信息维护；

提供可管理的蜘蛛入口，抓取策略设置及抓取文章过滤；自动过滤重复文章；智能分析页面类型，入口页面或目录型页面可定时重复抓取；针对抓取结果自动进行中文分词、词频统计及简要分类。

orclich 2011-03-03