最近在开发一款开源云端爬虫采集框架工具（基于 C+PHP 实现）遇到的难坑，求填补！

midysky 2016-07-20 12:57:07

目前已完成 70%，等到下面几个问题解决后将开源。目前存在的几个主要问题是： 1 、云端执行的代理 IP 问题：（自己爬过滤 or 其它工具或 api or asdl ，哪个好？） 2 、大量数据 excel/csv 导出问题：（如果一次性从 mysql 类型数据库导出 100w+数据，怎么解决？内存处理，直接 dump 出来一般都卡死） 3 、自定义脚本沙盒怎么处理？（单独的一个 html 处理容器，让用户自己写脚本处理。目前用的 python ，服务器用 php 实现。有没有开源方案开源参考？主要是安全问题）
参考产品：火车头采集器、发源地采集引擎、 import.io 。基础功能主要参考火车头 www.locay.com ，功能不错很全，但是单机的，，。 import.io 是国外的产品，自动化方式采集 web ，网站 www.import.io 经常墙，找灵感的。发源地是上面说是国内首款云采集工具，用了两周很不错。确实是我想要学习的。 www.finndy.com 。做了个采集 V2EX 邮箱的示例： http://www.finndy.com/?robot-7535 各位有好的云采集的产品希望分享，一起研究。
功能基本以火车头为主即可。云菜鸡以发源地的为主，特别是想做个规则市场，类似发源地那种。要是能够实现不写规则自动化智能识别采集最好。这是未来的方向。总结下来就是：火车头+发源地的模式。
求牛逼解决方案，优先开放 github 地址。

...全文

356 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

飞了流星 2019-10-05

打赏
举报

回复

3年过去了，楼主还在吗

midysky 2016-07-20

打赏
举报

回复

引用 1 楼 xuzuning 的回复:

按你的描述，你基本上什么都没做！

都说了差不多70%。其实是百分百。只是上面三个问题做的不够好。希望能够完善方案。

xuzuning 2016-07-20

打赏
举报

回复

按你的描述，你基本上什么都没做！

软件工程需求分析.pdf

本文对比分析列出的11个**智能体框架**项目，包括它们的运行原理、架构设计、核心功能、优势亮点以及社区反馈。各项目在多智能体协作、工具集成、任务规划等方面各有特色，下面分述每个项目的关键点。

EasySpider是一款开源的跨平台无代码可视化网络爬虫工具，通过图形化界面让非技术用户也能轻松设计复杂爬虫任务。核心功能包括可视化工作流设计、支持动态JavaScript执行、循环与条件判断等高级操作，并能通过命令行集成到其他系统。该项目在GitHub上获得4.2万星标，论文被ACM Web Conference收录，展现了强大的社区支持和技术创新。适用于市场研究、内容聚合、学术数据收集等多种场景。虽然存在法律合规性限制和复杂任务的学习曲线，但其易用性、功能强大和开源免费的特点使其成为数据采集领域的优秀

在信息时代，数据是宝贵的资源。Web爬虫（也称网络蜘蛛、网络机器人）是自动化访问互联网以获取信息的程序。随着Python语言的简洁性和强大的库支持，它已成为开发Web爬虫的理想选择。基于内容的推荐系统是一种根据用户历史行为数据和物品属性特征的推荐方法。通过分析用户以往的喜好，系统能够推荐与之相似的新项目。本章将介绍如何构建一个基于内容的电影推荐系统，并通过使用Spark进行高效计算，利用其强大的数据处理能力，来处理和分析电影内容特征，最终实现个性化推荐。

目录网页框架 Django Flask Tornado 其他网页框架用户图形接口相关网络相关数据库相关游戏相关开源框架大数据相关网络爬虫测试破解脚本图表及图像相关运维相关树莓派第三方平台 IDE 其他博客与播客及书籍文档他人总结网页框架 Django Django - Django。 Channels - Cha...

20,396

社区成员

19,657

社区内容

发帖

与我相关

我的任务

phpphpstorm 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章