社区
Java EE
帖子详情
seimiagent快速开始失败
知爷在CSND
2016-10-25 09:52:07
最近使用seimicrawler,需要配合seimiagent使用时遇到了困难。由于自身是windows系统,便用cygwin安装了linux,但是下载压缩包加压后进入bin目录执行命令的时候没有反应,也开不了端口
我的压缩包解压后bin目录下只有一个seimiagent文件,不知道有没有错
我是按照文档首页的动画教程执行的
备注:我没有linux操作的经验,第一次用
...全文
121
回复
打赏
收藏
seimiagent快速开始失败
最近使用seimicrawler,需要配合seimiagent使用时遇到了困难。由于自身是windows系统,便用cygwin安装了linux,但是下载压缩包加压后进入bin目录执行命令的时候没有反应,也开不了端口 我的压缩包解压后bin目录下只有一个seimiagent文件,不知道有没有错 我是按照文档首页的动画教程执行的 备注:我没有linux操作的经验,第一次用
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
网址渲染服务
Seimi
Agent
.zip
Seimi
Agent
Seimi
Agent
是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务,可以通过
Seimi
Agent
提供的http接口向
Seimi
Agent
发送一个load请求(需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等参数),通过
Seimi
Agent
去加载并渲染想要处理的动态页面,然后将渲染好的页面直接返给调用方进行后续处理。
Seimi
Agent
的加载渲染环境都是通用浏览器级的,所以不用担心他对动态页面的处理能力。目前
Seimi
Agent
只支持返回渲染好的HTML文档,后续会增加图像快照已经PDF的支持,方便更为多样化的使用需求。 下载 目前暂时只支持下面这两个平台的二进制版本的维护更新,其他平台暂时需要自行编译构建 Centos6 x64 ubuntu x64 window7 x64体验包
快速
开始 cd /dir/of/
seimi
Agent
./
Seimi
Agent
-p 8000 执行命令后,
Seimi
Agent
会起一个http服务并监听你所指定的端口,如例子中的8000端口,然后你就可以通过任何一种你熟悉的语言像
Seimi
Agent
发送一个页面的加载渲染请求,并得到
Seimi
Agent
渲染好的HTML文档进行后续处理。 示例 支持的http参数 仅支持post请求,请求地址/doload url 目标请求地址,必填项 renderTime 在所有资源都加载好了以后留给
Seimi
Agent
去渲染处理的时间,如果是很复杂的动态页面这个时间可能就需要长一些,具体根据使用情况进行调整。非必填,单位为毫秒 proxy 告诉
Seimi
Agent
使用什么代理,非必填,格式:http|https|socket://user:passwd@host:port postParam 这个参数只接受Json格式的值,值的形式为key-value对,告诉
Seimi
Agent
此次请求为post并使用你给定的参数。 useCookie 是否使用cookie,如果设置为1则为使用cookie 如何构建 这个过程会花费很长时间如果你觉着很有必要的话,一般情况下更推荐使用发布好的二进制可执行文件 依赖 ubuntu上 sudo apt-get install build-essential g flex bison gperf ruby perl libsqlite3-dev libfontconfig1-dev libicu-dev libfreetype6 libssl-dev libpng-dev libjpeg-dev python libx11-dev libxext-dev centos上 yum -y install gcc gcc-c make flex bison gperf ruby openssl-devel freetype-devel fontconfig-devel libicu-devel sqlite-devel libpng-devel libjpeg-devel 执行 python build.py 接下来就等吧,国内网络不好可能还要重来(因为需要先从github上下载qtbase和qtwebkit这两个依赖,后续如果有时间会把qtbase和qtwebkit拷到国内仓库一份),4核I5大概半个小时以上,单核云主机一般2个小时左右,16核以上服务器编译一般在十分钟以内 More 更多文档还在准备中,感谢大家支持
Seimi
家族(
Seimi
Crawler,
Seimi
Agent
) 标签:
Seimi
Agent
cpp-
Seimi
Agent
Seimi
Agent
是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务
Seimi
Agent
Seimi
Agent
是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务,可以通过
Seimi
Agent
提供的http接口向
Seimi
Agent
发送一个load请求(需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等参数)
gperf for eudev.zip
安装eudev缺少的文件。 使用gperf工具是由于要裁剪字符转换库libiconv,libiconv库中就使用到了gperf这个工具。
Seimi
Crawler
Seimi
Crawler An agile,powerful,standalone,distributed crawler framework.
Seimi
Crawler的目标是成为Java里最实用的爬虫框架,大家一起加油。 简介
Seimi
Crawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在
Seimi
Crawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的
Seimi
帮你搞定。设计思想上
Seimi
Crawler受Python的爬虫框架Scrapy启发,同时融合了Java语言本身特点与Spring的特性,并希望在国内更方便且普遍的使用更有效率的XPath解析HTML,所以
Seimi
Crawler默认的HTML解析器是JsoupXpath(独立扩展项目,非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成(当然,数据处理亦可以自行选择其他解析器)。并结合
Seimi
Agent
彻底完美解决复杂动态页面渲染抓取问题。 号外 2016.04.14 用于实现浏览器级动态页面渲染以及抓取的
Seimi
Agent
已经发布。
Seimi
Agent
基于Qtwebkit开发,主流浏览器内核(chrome,safari等),可在服务器端后台运行,并通过http协议发布对外调用API,支持任何语言或框架从
Seimi
Agent
获取服务,彻底的解决动态页面渲染抓取等问题。具体可以参考
Seimi
Agent
主页。
Seimi
Crawler已经在v0.3.0中内置支持
Seimi
Agent
的使用并添加了demo,具体请查看demo或是官方文档。 2016.01.05 专门为
Seimi
Crawler工程打包部署的maven-
seimi
crawler-plugin已经发布可用,详细请继续参阅maven-
seimi
crawler-plugin或是下文工程化打包部署章节。
Seimi
Crawler文档离线版
•
Seimi
Crawler一个敏捷强大的Java爬虫框架 •1.简介 •2.需要 •3.
快速
开始 ◦3.1.maven依赖 ◦3.2.在SpringBoot中 ◦3.3.常规用法 •4.原理 ◦4.1.基本原理 ◦4.2.集群原理 •5.如何开发 ◦5.1.约定 ◦5.2.第一个爬虫规则类-crawler ◾5.2.1.注解@Crawler ◾5.2.2.实现startUrls() ◾5.2.3.实现start(Response response) ◾5.2.4.Response数据提取 ◾5.2.4.1.内部属性一览 ◾5.2.5.回调函数 ◾5.2.6.Request内部一览 ◾5.2.7.自定义User
Agent
(可选) ◾5.2.8.启用cookies(可选) ◾5.2.9.启用proxy(可选) ◾5.2.10.设置delay(可选)* ◾5.2.11.设置请求URL白名单匹配规则 ◾5.2.12.设置请求URL黑名单匹配规则 ◾5.2.13.设置动态代理 ◾5.2.14.是否开启系统去重 ◾5.2.15.关于自动跳转 ◾5.2.16.异常请求处理 ◾5.2.17.
Seimi
Agent
支持 ◾5.2.17.1.基本配置 ◾5.2.17.1.1.直接运行 ◾5.2.17.1.2.SpringBoot项目 ◾5.2.17.2.使用 ◾5.2.18.启动爬虫系统 ◾5.2.18.1.SpringBoot(推荐) ◾5.2.18.2.直接运行,独立启动 ◦5.3.工程化打包部署 ◾5.3.1.SpringBoot(推荐) ◾5.3.2.独立直接运行 ◦5.4.定时调度 ◦5.5.自动解析Bean ◾5.5.1.注解@Xpath ◾5.5.2.使用 ◦5.6.拦截器 ◾5.6.1.注解@Interceptor ◾5.6.2.接口
Seimi
Interceptor ◾5.6.3.拦截器样例 ◦5.7.关于
Seimi
Queue ◾5.7.1.配置使用DefaultRedisQueue ◾5.7.1.1.SpringBoot项目 ◾5.7.1.2.直接运行(非SpringBoot) ◾5.7.2.自行实现
Seimi
Queue ◾5.7.3.
Seimi
Queue样例 ◦5.8.集成主流数据持久化 ◾5.8.1.准备工作 ◾5.8.2.写一个DAO ◾5.8.3.开始使用DAO ◦5.9.分布式 ◦5.10.通过http服务接口操作 ◾5.10.1.Request必填参数 ◾5.10.2.SpringBoot(推荐) ◾5.10.3.直接运行 ◾5.10.3.1.发送抓取请求 ◾5.10.3.2.接口描述 ◾5.10.3.3.查看抓取状态 •6.常见问题汇总 ◦6.1.如何设置网络代理 ◦6.2.如何开启cookie ◦6.3.如何启用分布式模式 ◾6.3.1.参考 ◾6.3.2.特别注意 ◦6.4.如何设置复杂的起始请求 •7.社区讨论 •8.项目源码
Java EE
67,512
社区成员
225,880
社区内容
发帖
与我相关
我的任务
Java EE
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
复制链接
扫一扫
分享
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章