无法完成新建scrapy项目

八十度黑 2019-09-05 08:18:56

如何解决用命令行创建新scrapy项目后界面一闪而过的情况我已经在环境变量中加入了python的路径

...全文

74 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

其实关于scrapy的很多用法都没有使用过,需要多多巩固和学习 1.首先新建scrapy项目 scrapy startproject 项目名称然后进入创建好的项目文件夹中创建爬虫 (这里我用的是CrawlSpider) scrapy genspider -t crawl 爬虫名称域名 2.然后打开pycharm打开scrapy项目记得要选正确项目包的路径要包含scrapy.cfg 要不然在后面会导致导入包错误以及无法运行爬虫 3.编写Item,确定你要爬取的目标 import scrapy class CosplayItem(scrapy.Item): """ 标题 co

网络爬虫，是在网上进行数据抓取的程序，使用它能够抓取特定网页的HTML数据。虽然我们利用一些库开发一个爬虫程序，但是使用框架可以大大提高效率，缩短开发时间。Scrapy是一个使用Python编写的，轻量级的，简单轻巧，并且使用起来非常的方便。使用Scrapy可以很方便的完成网上数据的采集工作，它为我们完成了大量的工作，而不需要自己费大力气去开发。首先先要回答一个问题。问：把网站装进爬虫里，总共分几步？答案很简单，四步：新建项目 (Project)：新建一个新的爬虫项目明确目标（Items）：明确你想要抓取的目标制作爬虫（Spider）：制作爬虫开始爬取网页存储内容（Pipelin

首先一定要知道 Scrapy爬虫框架对新手非常的不友好，或者从某些视频网站上跟着视频学或者说从培训机构里学几天技能掌握的，主要原因有以下两个方面。框架模块内容太多，虽然只是实现了一个简单的爬虫工作，但是实际上完成一个页面的抓取在框架里最少要走8个以上的步骤，但是这些步骤都是基本都是依靠配置文件完成的，没有丰富的爬虫经验，这些模块很多都不知道是做什么的，也不知道怎么配置。基于框架内进行数据抓取仅限于那些通用的网站抓取，你就简单理解为一个完成重复工作的机器人就行了。但是如果是那种反爬比较厉害的网站那就是另外一种情况了，完全是爬虫工程师和网站开发者的一个博弈了，所以这种情况不适合任何一种爬虫框架。对于那些想在工作中摸鱼的Python工程师来说就一定要使用爬虫框架，你会发现省不少力气而且效率真心非常高，不过一切都是在对框架熟练掌握的基础上、和对业务的深刻理解来说来说。但凡说 Scrapy 无用的基本上没有认真阅读过 Scrapy 的源码，对于 Scrapy框架中的众多功能在搭建爬虫系统的时候能想到用几个？而且是基本是没有做过大型的爬虫系统项目的。咱们倒着推这个事，你就知道为什么要用Scrapy框架了。我之前的单位是国家互联网的新闻中心，做的项目中的有一项是复现863课题舆情监控系统中的内容，使用的方法是 Scrapy爬虫框架结合 Django Web 搭建的数据采集系统，抓取的目标对象包括新闻、博客、论坛等等，其中每天目标检测网站成千上万，如果不用框架去做这种数据采集得累死。1.抓取的数据存哪里？单纯Scrapy爬虫脚本写好了执行抓取任务时数据保存到哪里？ES、Mongodb、MySQL？如果做过开发的人都知道存 Mongodb 中，那些说把数据存到 MySQL 的人基本上99%是从培训机构里出来的，因为大多数培训机构爬虫是不讲 Mongodb 的。通过业务计算逻辑把数据传输到生产 ES 环境中。2.几千、几万个爬虫脚本应该怎么管理？很多刚入行的人都觉得爬虫脚本难写，其实并不是这样。最难的是如何管理密密麻麻数不清的爬虫脚本，这里介绍Python如何处理这个事情。管理方式无非集中，Web管理环境、GUI管理环境、手动管理环境，不管是哪一种都需要一定的开发基础和管理思路。比较省事的用别人写好的Scrapy管理框架，比如Gerapy爬虫管理框架。如同这样web直接一键管理爬虫脚本，更多内容看上面的文章，这里就不重复了。3.Scrapy如何面对反爬的？跟大多数单线抓取某个网站解决其反爬一样，只要把反爬的逻辑设置好，比如最简单的更换代理IP，更换header，解析JS生成cookie访问等等，都可以在框架中设置配置文件。4.如何提高代码编写效率以及数据爬取效率？一定要阅读源码，一定要阅读源码，一定要阅读源码你才能知道这个框架里到底有什么内容可以用。5.基于Python各种框架开发的爬虫定制化项目。

1.项目代码功能经验证ok，确保稳定可靠运行。欢迎下载使用！ 2.主要针对各个计算机相关专业，包括计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师或企业员工使用。 3.项目具有丰富的拓展空间，不仅可作为入门进阶，也可直接作为毕设、课程设计、大作业、初期项目立项演示等用途。 4.当然也鼓励大家基于此进行二次开发。在使用过程中，如有问题或建议，请及时私信沟通。 5.期待你能在项目中找到乐趣和灵感，也欢迎你的分享和反馈！【资源说明】基于python机器学习的金融新闻数据挖掘分析系统源码+项目说明+数据.zip 本项目致力于完成金融相关的数据抓取、NLP算法分析、量化策略、回测框架等的系统搭建工作，系统包括如下几个主要的部分；项目结构 . ├── algorithm(算法模型框架) ├── analyze(具体策略) ├── crawler(scrapy爬虫) │ └── crawler │ └── spiders(爬虫具体抓取代码) ├── database(数据库操作) ├── preprocess(数据预处理) │ └── pre_data(预处理存放目录) ├── strategy(回测接口) ├── tonglian(通联数据获取接口) ├── tools(通联数据获取接口) ├── utils(通用处理类) └── data(存放数据的目录) 注意事项 1. 修改PYTHONPATH 把项目所在目录添加到PYTHONPATH中。建议方法：通过PYTHONPATH 中的任何 .pth 文件来添加pythonpath。比如添加/home/aa这个路径到pythonpath里，可以这样做： 1) 新建一个文件，名字随便，但后缀名须是.pth，比如aa.pth； 2) 文件内容直接输入"/home/aa"(没有引号)，如果有多个路径可以多行输入，但每行保证只有一个路径； 3) 然后文件保存到sys.path列表中的任一文件夹下，一般来说我们保存到/usr/local/lib/python*/dist-packages，需要特别指出的是在不同版本中dist-packages可能被改成site-packages，最后重启python就可以了。

scrapy之创建scrapy项目

37,719

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章