求推荐一个网站爬取工具，爬取整个网站的

t13643210368 2012-06-08 09:38:29

RT

...全文

445 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

CSharpProgrammer 2012-06-08

打赏
举报

回复

http://www.locoy.com/ 火车采集器你去搜一下就知道了，做得很不错的。

填写相关地址爬取整站内容，包括js、css、图片等，使用简单、方便，可快速使用，获取到自己想获取的内容

前言本文主要介绍的是利用python爬取京东商城的方法，文中介绍的非常详细，下面话不多说了，来看看详细的介绍吧。主要工具 scrapy BeautifulSoup requests 分析步骤 1、打开京东首页，输入裤子将会看到页面跳转到了这里，这就是我们要分析的起点 2、我们可以看到这个页面并不是完全的，当我们往下拉的时候将会看到图片在不停的加载，这就是ajax,但是当我们下拉到底的时候就会看到整个页面加载了60条裤子的信息，我们打开chrome的调试工具，查找页面元素时可以看到每条裤子的信息都在

这个标签中，如下图：

本课程主要给大家分享基于Python语言的网络爬虫各种工具的使用和实战案例，涉及的知识点requests爬虫库，Python正则表达式，xpath的使用，selenium的使用，进程线程协程，scrapy框架的使用。本课程还有超多的实战，百度,微博,今日头条，网易，boss直聘，豆瓣等网站的爬取，以及用scrapy框架爬取全网数据本教程是由IT兄弟连知名讲师姚青林老师讲解，姚老师讲课非常由代入感，很容易听懂，深受学员的喜爱！这些实战教程肯定会对你的面试加分，让你在面试中脱颖而出！

检查网页无效链接前言自动化技术可以帮助我们做自动化测试，同样也可以帮助我们完成别的事情，比如今天我们要做的检查网站404无效链接。原理实现这样的功能，大致分为以下步骤： 1.打开官网首页，获取页面上所有的链接。 2.添加规则对这些链接过滤，把外链去掉。 3.遍历访问这些链接，打开打开其中的每一个链接，检查是否为404，如果是距离下来。 4.重复执行1，2，3。直到把整个网站所有的链接都遍历完。准备 CukeTest 一款可以专业的编辑自动化脚本的工具。cuketest.com/ puppeteer 一个非常流行自动化库。https://github.com/GoogleChro

jdPhone说明文档介绍 jdPhone是一个基于Scrapy-Selenium的爬取京东手机信息的爬虫。代码说明运行环境 Windows 10 专业版 Python 3.5/Scrapy 1.5.0/MongoDB 3.4.7 依赖包 Requests Pymongo Selenium 3.11.0 Faker(随机切换User-Agent) 其它由于京东的防爬限制，这里采用了模拟浏览器的工具Selenium结合Scrapy框架爬取京东。Selenium采用了headless mode无头模式和无图片模式提升了爬取速度。但是在获取AJAX动态加载的页面信息和全部网页时，依然受限于电脑性能和网页响应速度，还是设置了等待页面渲染时间，以定位需要的页面元素。整个爬虫的爬取的速度不快，而且京东也限制了整个搜索页面最大100页，总共5890条信息，但相对于手机信息，应该也够用了。最后由于

110,534

社区成员

642,576

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧

+ 用AI写文章