抓网页问题,如何判断网页是否已经更新过?

jk3278jk 2006-06-13 10:28:04
做一个抓网页程序,要每隔30分钟抓取某网页一次,但前提是此网页内容已经更新,才抓取网页内容,这样能明显减少服务器的负担和流量。

不知道怎么样判断网页是否已经更新过?搜索到了一几个文章说是判断状态码304,也没看太懂。

哪位朋友做过这方面的程序,指点一下。谢谢。





...全文
506 18 打赏 收藏 转发到动态 举报
写回复
用AI写文章
18 条回复
切换为时间正序
请发表友善的回复…
发表回复
sammyjeep 2006-06-24
  • 打赏
  • 举报
回复
思路和楼上的差不多吧,反正是有时间戳的,取来比较一下:)
phpxer 2006-06-24
  • 打赏
  • 举报
回复
你可以打开网页取得头部信息,然后断开连接。
如果“last modified”符合你的要求,就下载,否则,查看下一个网页。

具体不是特别清楚,一个思路。应该是可以的,你看看吧。
jk3278jk 2006-06-23
  • 打赏
  • 举报
回复
楼上说什么呢?开口就骂人?不解决问题?
xiaoyan0413 2006-06-22
  • 打赏
  • 举报
回复
LZRP有问题,不具备做人的基本素质,SB一个
我还来接分,呵呵
mingyun310 2006-06-22
  • 打赏
  • 举报
回复
顶.学习一下.
jk3278jk 2006-06-19
  • 打赏
  • 举报
回复
怎么弄?
wdmzjsxx 2006-06-18
  • 打赏
  • 举报
回复
没做过,帮你UP下
sammyjeep 2006-06-18
  • 打赏
  • 举报
回复
时间戳
jk3278jk 2006-06-17
  • 打赏
  • 举报
回复
up
jk3278jk 2006-06-16
  • 打赏
  • 举报
回复
up
jk3278jk 2006-06-14
  • 打赏
  • 举报
回复
up
boydream 2006-06-14
  • 打赏
  • 举报
回复
关注一下
jk3278jk 2006-06-13
  • 打赏
  • 举报
回复
又搜索到一篇文章,不过是php。

http://www.woodpecker.org.cn/obp/diveintopython/zh-cn/dist/html/http_web_services/etags.html


csdn到底有没有解决问题?估计都是光说不练的主!!!
jk3278jk 2006-06-13
  • 打赏
  • 举报
回复
又搜索了几篇文章好像是判断 header 的 "Last-modified"

再搜索吧。一下!还来csdn是摆设,还得靠自己啊。
jk3278jk 2006-06-13
  • 打赏
  • 举报
回复
还在的。请能者解决,谢谢
ttaallkk1 2006-06-13
  • 打赏
  • 举报
回复
楼主还在吗?
jk3278jk 2006-06-13
  • 打赏
  • 举报
回复
csdn有一点不太好,如果问题自己搞懂了,没靠别人帮助,是不是也得给分啊。哈哈。。

liujiwe79 2006-06-13
  • 打赏
  • 举报
回复
内容更新必须你重新打开网页或者你刷新了网页,不然,网页怎么更新呢,更新的时候你可以做个标记

62,614

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧