社区
Java SE
帖子详情
抓网页问题,如何判断网页是否已经更新过?
jk3278jk
2006-06-13 10:28:04
做一个抓网页程序,要每隔30分钟抓取某网页一次,但前提是此网页内容已经更新,才抓取网页内容,这样能明显减少服务器的负担和流量。
不知道怎么样判断网页是否已经更新过?搜索到了一几个文章说是判断状态码304,也没看太懂。
哪位朋友做过这方面的程序,指点一下。谢谢。
...全文
567
18
打赏
收藏
抓网页问题,如何判断网页是否已经更新过?
做一个抓网页程序,要每隔30分钟抓取某网页一次,但前提是此网页内容已经更新,才抓取网页内容,这样能明显减少服务器的负担和流量。 不知道怎么样判断网页是否已经更新过?搜索到了一几个文章说是判断状态码304,也没看太懂。 哪位朋友做过这方面的程序,指点一下。谢谢。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
18 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
sammyjeep
2006-06-24
打赏
举报
回复
思路和楼上的差不多吧,反正是有时间戳的,取来比较一下:)
phpxer
2006-06-24
打赏
举报
回复
你可以打开网页取得头部信息,然后断开连接。
如果“last modified”符合你的要求,就下载,否则,查看下一个网页。
具体不是特别清楚,一个思路。应该是可以的,你看看吧。
jk3278jk
2006-06-23
打赏
举报
回复
楼上说什么呢?开口就骂人?不解决问题?
xiaoyan0413
2006-06-22
打赏
举报
回复
LZRP有问题,不具备做人的基本素质,SB一个
我还来接分,呵呵
mingyun310
2006-06-22
打赏
举报
回复
顶.学习一下.
jk3278jk
2006-06-19
打赏
举报
回复
怎么弄?
wdmzjsxx
2006-06-18
打赏
举报
回复
没做过,帮你UP下
sammyjeep
2006-06-18
打赏
举报
回复
时间戳
jk3278jk
2006-06-17
打赏
举报
回复
up
jk3278jk
2006-06-16
打赏
举报
回复
up
jk3278jk
2006-06-14
打赏
举报
回复
up
boydream
2006-06-14
打赏
举报
回复
关注一下
jk3278jk
2006-06-13
打赏
举报
回复
又搜索到一篇文章,不过是php。
http://www.woodpecker.org.cn/obp/diveintopython/zh-cn/dist/html/http_web_services/etags.html
csdn到底有没有解决问题?估计都是光说不练的主!!!
jk3278jk
2006-06-13
打赏
举报
回复
又搜索了几篇文章好像是判断 header 的 "Last-modified"
再搜索吧。一下!还来csdn是摆设,还得靠自己啊。
jk3278jk
2006-06-13
打赏
举报
回复
还在的。请能者解决,谢谢
ttaallkk1
2006-06-13
打赏
举报
回复
楼主还在吗?
jk3278jk
2006-06-13
打赏
举报
回复
csdn有一点不太好,如果问题自己搞懂了,没靠别人帮助,是不是也得给分啊。哈哈。。
liujiwe79
2006-06-13
打赏
举报
回复
内容更新必须你重新打开网页或者你刷新了网页,不然,网页怎么更新呢,更新的时候你可以做个标记
爬虫:如何
判断
一个
网页
已经
更新
?
爬虫开发中,
判断
网页
是否
更新
是常见
问题
。本文介绍四种思路:定期
抓
取,简单但浪费资源;RSS订阅,部分网站无RSS源;If-Modified-Since状态码,适用于静态
网页
;
网页
内容相似度比较,可通过
网页
指纹+海明距离算法。需依项目和网站情况选合适方法。
如何
判断
一个
网页
是否
更新
本文介绍两种
判断
网页
是否
更新
的方法:一是通过HTTP头部信息中的Last-Modified字段获取
网页
最后修改时间;二是采用Simhash算法生成
网页
内容的哈希值,通过比较哈希值的变化评估
网页
更新
的程度。
如何
判断
网页
是否
更新
??
本文详细介绍了HTTP 304状态码的工作原理,用于
判断
网页
是否
更新
。304状态码表示客户端缓存的资源未修改,避免了不必要的数据传输。动态页面可以通过设置Last Modified和ETag来支持缓存,提高网站性能。同时,文章还讨论了条件请求、避免缓存的方法以及常见HTTP状态码的用途。
网络爬虫
判断
页面
是否
更新
本文介绍了搜索引擎
判断
网页
是否
更新
的几种方法。包括利用304页面http状态码,通过对比文件修改时间
判断
;参考Last - Modified文件最后修改时间,但对动态
网页
不太适用;比对文件大小,常与页面链接变化配合;使用MD5数字签名,可提升系统性能。
爬虫中怎么
判断
一个
网页
是否
包含ajax请求
本文介绍了在爬虫中遇到AJAX动态加载数据的情况,解释了AJAX的工作原理,以及如何通过观察
网页
源码和URL变化来
判断
是否
存在AJAX请求。以MTerminal为例,展示了动态请求的特征:源码差异和不变的URL。
Java SE
62,622
社区成员
307,257
社区内容
发帖
与我相关
我的任务
Java SE
Java 2 Standard Edition
复制链接
扫一扫
分享
社区描述
Java 2 Standard Edition
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章