apache+tomcat搭建的网站，如何查看百度等蜘蛛的抓取日志?

play100 2011-03-14 10:03:12

有几年没来了，有问题还是想到这。。。
如题

...全文

293 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

xf_taoran 2011-03-15

打赏
举报

回复

在拦截器中写一个获取请求地址的郁闷打印出来就可以了

play100 2011-03-15

打赏
举报

回复

没人理、自己顶下

网络爬虫（也称为网络蜘蛛）是一种自动化程序，用于浏览网络并收集信息。在本JavaWeb项目中，网络爬虫被实现为一个基于servlet技术、JSP页面、MySQL数据库和Tomcat服务器的Web应用。 Servlet是一种运行在服务器端的...

### Nutch配置与安装知识点详解 #### 一、Nutch简介 Nutch是一款开源的Web爬虫项目，基于Apache Hadoop构建，能够抓取、处理和索引...这对于需要定期收集特定网站数据的场景非常有用，例如网站监控、内容分析等。

【Nutch 安装与配置】Nutch 是一个开源的搜索引擎项目，主要负责网页抓取、索引和搜索。在Windows环境下，为了运行Nutch，我们需要先安装Cygwin，这是一个提供Unix-like环境的工具，使得Windows用户可以执行类似于...

1. **下载并安装Nutch** - 从Apache官方网站下载最新版本的Nutch，解压缩到你选择的目录，例如 `D:\Nutch-1.0.2`。 2. **配置工作目录** - 使用Cygwin进入Nutch的安装目录，例如 `cd /cygdrive/d/nutch-1.0`。 3. **...

当服务器用的是tomcat时，有时需要查看百度蜘蛛抓取日志，默认情况下是没有记录的只需要在server..xml文件项目配置标签中添加如下内容即可 <Valve className="org.apache.catalina.valves.AccessLogValve" ...

81,114

社区成员

341,728

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章