怎么样在后台判断是否爬虫？

flashtong 2010-12-28 05:06:22

我站的浏览很多事爬虫光顾的，其中有搜索引擎的，也有其他的扒皮的。
我怎么是后台用c# 判断出是否爬虫？

setCookie("temp_temp", "tmp");

if (getCookie("temp_temp") != "tmp") //这样是不行的

如果是爬虫，我就不显示数据，以免给服务器带来压力。

当然，可以跟uaseragent来放行搜索引擎蜘蛛，现在关键是，怎么判断是佛爬虫？不是浏览器正常浏览。

...全文

468 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

phil999 2010-12-28

打赏
举报

回复

一个ip短时间过来的请求太多，就是采集，你可以定一个标准，比如最近5分钟内看了30篇资料，user-agnet 之类的可以伪装

flashtong 2010-12-28

打赏
举报

回复

正常的爬虫我是不在乎的，现在是很多同行，来爬，并发数很大，数据库cpu瞬间达到20%以上
我就是想从后台判断出，不是浏览器的访问，然后通过useragent对正常的爬虫放行。

一克代码 2010-12-28

打赏
举报

回复

弄成静态的随便别人爬，

赚流量！

一克代码 2010-12-28

打赏
举报

回复

爬虫浪费你服务器资源？

什么服务器啊？

那么垃圾！

买服务器就是要用的，不要怕，爬虫占资源！

那么多大的网站，你见谁不让别人爬了？！

crackpot2007 2010-12-28

打赏
举报

回复

过滤IP段。

之前爬美团外卖后台的时候出现的问题，各种方式拖动验证码都无法成功，包括直接控制拉动，模拟人工轨迹的随机拖动都失败了，最后发现只要用chrome driver打开页面，哪怕手动登录也不可以，猜测driver肯定是直接被识别出来了。一开始尝试了改user agent等方式，仍然不行，由于其他项目就搁置了。今天爬淘宝生意参谋又出现这个问题，经百度才知道原来chrome driver的变量有一个特征码，网站可以直接根据特征码判断，经百度发现有4种方法可以解决，记录一下自己做的尝试。 1、mitproxy拦截请求 √ 本质上就是在响应中利用mitproxy将包含的webdriver的JS中的关键字替换成

此次更新以优化为主，更新内容不多，主要是因为大多数精力都在进行论坛系统的开发，在这里也就提前预告一下，论坛系统将会在下一版发布，主题的论坛系统仍保持漂亮的UI设计，同时功能强大，可以完美的实现圈子、问答、社区等功能，大家尽请期待！新功能新增分类、专题自动多级筛选功能（自动显示存在的子分类）新增管理员登录后会在前台显示未审核的评论，并支持前台审核或修改该评论新增评论按照最新、最热的方式排序功能新增评论列表 AJAX 自动加载功能及选项新增站内消息数字翻页功能及选项新增图片懒加载选项：其它图片选项（方便全局关闭此功能）优化内容优化图片懒加载逻辑，自动判断如果是搜索引擎爬虫，则直接输出图像优化全局loading动画，自动判断如果是搜索引擎爬虫，则不显示动画优化列表数字翻页显示样式以及后台设置优化打赏模态框显示效果，同时减少6次SQL查询优化小工具模块配置的函数逻辑，添加缓存逻辑，提高速度一倍以上修复私信上传图片后内容会跳到评论框的的 bug 修复极少情况下可能会出现小工具页面不能打开的 bug 修复极少情况下发送私信可能会失败的 bug 修复文章收藏的计数可能会清零的bug

【为什么学爬虫？】 1、爬虫入手容易，但是深入较难，如何写出高效率的爬虫，如何写出灵活性高可扩展的爬虫都是一项技术活。另外在爬虫过程中，经常容易遇到被反爬虫，比如字体反爬、IP识别、验证码等，如何层层攻克难点拿到想要的数据，这门课程，你都能学到！ 2、如果是作为一个其他行业的开发者，比如app开发，web开发，学习爬虫能让你加强对技术的认知，能够开发出更加安全的软件和网站【课程设计】一个完整的爬虫程序，无论大小，总体来说可以分成三个步骤，分别是：网络请求：模拟浏览器的行为从网上抓取数据。数据解析：将请求下来的数据进行过滤，提取我们想要的数据。数据存储：将提取到的数据存储到硬盘或者内存中。比如用mysql数据库或者redis等。那么本课程也是按照这几个步骤循序渐进的进行讲解，带领学生完整的掌握每个步骤的技术。另外，因为爬虫的多样性，在爬取的过程中可能会发生被反爬、效率低下等。因此我们又增加了两个章节用来提高爬虫程序的灵活性，分别是：爬虫进阶：包括IP代理，多线程爬虫，图形验证码识别、JS加密解密、动态网页爬虫、字体反爬识别等。Scrapy和分布式爬虫：Scrapy框架、Scrapy-redis组件、分布式爬虫等。通过爬虫进阶的知识点我们能应付大量的反爬网站，而Scrapy框架作为一个专业的爬虫框架，使用他可以快速提高我们编写爬虫程序的效率和速度。另外如果一台机器不能满足你的需求，我们可以用分布式爬虫让多台机器帮助你快速爬取数据。从基础爬虫到商业化应用爬虫，本套课程满足您的所有需求！【课程服务】专属付费社群+定期答疑

threaten_jq 简介：爬取外部威胁漏洞情报数据做展示并做微信推送，可自己加爬威胁漏洞情报源，前端使用原生jq，后台使用py3-flask flask威胁情报前端使用html，jquery和css原生，使用jinja2模板放在temlates中后台使用python3的flask框架，非常袖珍好用目前威胁情报源只有CNNVD，腾讯云，阿里云，绿盟，可自行添加爬取的漏洞情报源，处理主流程不变简介 /manager.py 运行文件，主逻辑未剥离，判断是否增量爬取，推送 /type_difinite.py 对爬取的内容进行分类处理 /fullAmount_oneexecute 全量爬取威胁情报并写入excel /increment 增量爬取类 /templates 前端模版运行 1/按照manage的26行建立mysql数据库，并在21行重设数据库密码 2/需要先执行fullAou

crack_wordpress 1.参数化操作 2.内置两种暴力破解方式，通过wp-login模拟发包登录或者采用xmlrpc.php post数据包均可。 3.内置自动获取用户名功能。/?author=1 还有rss 两种方式获取。由于wp主题众多，匹配正则太少，所以会不准。配合百度爬虫试了一下效果，准确率70%。使用方法：新建pass.txt并且添加测试密码。 -u 后面接wp的url 记得带上http:// -a 后面跟用户名默认是admin -g 自动判断管理员用户名，准确率较低。获取用户名后自动退出。 -w 用 /wp-login.php 模拟后台网页登录 -x 用 /xmlrpc.php接口 POST登录

62,074

社区成员

669,028

社区内容

发帖

与我相关

我的任务

javascript云原生企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见，支持健康理性的辩论和互动，反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧

+ 用AI写文章