有什么办法可以收集(采集)大量的wordperss z-blog网站?

wumachangxi7 2015-10-11 02:37:28
带宽足够,电脑足够,怎么收集大量的wordpress z-blog网站效率高?
怎样找到源头,开始所谓的第一步呢?
...全文
393 13 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
13 条回复
切换为时间正序
请发表友善的回复…
发表回复
李睿_Lee 2016-01-19
  • 打赏
  • 举报
回复
引用 12 楼 wumachangxi7 的回复:
[quote=引用 11 楼 unregret123456 的回复:] 自己设置目标站点进行单个站点抓取,同类型的比如WordPress之类的博客结构一样的,可以用相同的处理逻辑,不同的博客站点不可能通用逻辑,哪有万能的逻辑可以自动过滤的
初始源数据从哪里抓取好?[/quote] 我觉得可以找个友情链接稍微多点的博客做起点,然后从友情链接开始爬。
wumachangxi7 2016-01-17
  • 打赏
  • 举报
回复
引用 11 楼 unregret123456 的回复:
自己设置目标站点进行单个站点抓取,同类型的比如WordPress之类的博客结构一样的,可以用相同的处理逻辑,不同的博客站点不可能通用逻辑,哪有万能的逻辑可以自动过滤的
初始源数据从哪里抓取好?
丢雷老谋 2015-11-05
  • 打赏
  • 举报
回复
自己设置目标站点进行单个站点抓取,同类型的比如WordPress之类的博客结构一样的,可以用相同的处理逻辑,不同的博客站点不可能通用逻辑,哪有万能的逻辑可以自动过滤的
李睿_Lee 2015-10-23
  • 打赏
  • 举报
回复
引用 3 楼 wumachangxi7 的回复:
[quote=引用 1 楼 Novolee 的回复:] 收集wordperss z-blog网站什么意思?
这么说吧:收集使用wordpres或者z-blog这些用开源程序搭建的网站[/quote] 还是没讲清楚啊。是你要收集这些网站的域名(首页网址)呢?还是采集这些网站里的所有文章内容呢?
wumachangxi7 2015-10-23
  • 打赏
  • 举报
回复
引用 9 楼 Novolee 的回复:
[quote=引用 3 楼 wumachangxi7 的回复:] [quote=引用 1 楼 Novolee 的回复:] 收集wordperss z-blog网站什么意思?
这么说吧:收集使用wordpres或者z-blog这些用开源程序搭建的网站[/quote] 还是没讲清楚啊。是你要收集这些网站的域名(首页网址)呢?还是采集这些网站里的所有文章内容呢?[/quote] 这么说吧,不采集这些网站的内容,只是程序判断这些网站的程序是wordpress或者z-blog搭建的,就把这个网站(可以是首页也可以是一个详细页)记录下来
wumachangxi7 2015-10-22
  • 打赏
  • 举报
回复
精神常在,继续探讨啊
wumachangxi7 2015-10-20
  • 打赏
  • 举报
回复
引用 6 楼 fdipzone 的回复:
采集吗? 百度搜寻blog关键字,在返回的结果中进入网站,判断网站源码是否带wordpress标识别。如是则进行采集。
如果要采集超过10w的博客,这个关键词的数量也是很大啊。
傲雪星枫 2015-10-19
  • 打赏
  • 举报
回复
采集吗? 百度搜寻blog关键字,在返回的结果中进入网站,判断网站源码是否带wordpress标识别。如是则进行采集。
wumachangxi7 2015-10-18
  • 打赏
  • 举报
回复
继续征求解决方案呢
wumachangxi7 2015-10-14
  • 打赏
  • 举报
回复
引用 2 楼 zerolone 的回复:
把搜索引擎的都爬下来
这样太粗暴了,效率低,而且还要二次处理,搜索引擎数据太多,硬盘也不够存储数据啊
wumachangxi7 2015-10-14
  • 打赏
  • 举报
回复
引用 1 楼 Novolee 的回复:
收集wordperss z-blog网站什么意思?
这么说吧:收集使用wordpres或者z-blog这些用开源程序搭建的网站
Zerolone 2015-10-13
  • 打赏
  • 举报
回复
把搜索引擎的都爬下来
李睿_Lee 2015-10-11
  • 打赏
  • 举报
回复
收集wordperss z-blog网站什么意思?

20,398

社区成员

发帖
与我相关
我的任务
社区描述
“超文本预处理器”,是在服务器端执行的脚本语言,尤其适用于Web开发并可嵌入HTML中。PHP语法利用了C、Java和Perl,该语言的主要目标是允许web开发人员快速编写动态网页。
phpphpstorm 技术论坛(原bbs)
社区管理员
  • 开源资源社区
  • phpstory
  • xuzuning
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧