最近在开发一款开源云端爬虫采集框架工具(基于 C+PHP 实现)遇到的难坑,求填补!
目前已完成 70%,等到下面几个问题解决后将开源。目前存在的几个主要问题是: 1 、云端执行的代理 IP 问题:(自己爬过滤 or 其它工具或 api or asdl ,哪个好?) 2 、大量数据 excel/csv 导出问题:(如果一次性从 mysql 类型数据库导出 100w+数据,怎么解决?内存处理,直接 dump 出来一般都卡死) 3 、自定义脚本沙盒怎么处理?(单独的一个 html 处理容器,让用户自己写脚本处理。目前用的 python ,服务器用 php 实现。有没有开源方案开源参考?主要是安全问题)
参考产品:火车头采集器、发源地采集引擎、 import.io 。 基础功能主要参考火车头 www.locay.com ,功能不错很全,但是单机的,,。 import.io 是国外的产品,自动化方式采集 web ,网站 www.import.io 经常墙,找灵感的。发源地是上面说是国内首款云采集工具,用了两周很不错。确实是我想要学习的。 www.finndy.com 。做了个采集 V2EX 邮箱的示例: http://www.finndy.com/?robot-7535 各位有好的云采集的产品希望分享,一起研究。
功能基本以火车头为主即可。云菜鸡以发源地的为主,特别是想做个规则市场,类似发源地那种。要是能够实现不写规则自动化智能识别采集最好。这是未来的方向。总结下来就是:火车头+发源地的模式。
求牛逼解决方案,优先开放 github 地址。