有什么办法可以收集(采集)大量的wordperss z-blog网站?

wumachangxi7 2015-10-11 02:37:28
带宽足够,电脑足够,怎么收集大量的wordpress z-blog网站效率高?
怎样找到源头,开始所谓的第一步呢?
...全文
306 13 点赞 打赏 收藏 举报
写回复
13 条回复
切换为时间正序
当前发帖距今超过3年,不再开放新的回复
发表回复
李睿_Lee 2016-01-19
引用 12 楼 wumachangxi7 的回复:
[quote=引用 11 楼 unregret123456 的回复:] 自己设置目标站点进行单个站点抓取,同类型的比如WordPress之类的博客结构一样的,可以用相同的处理逻辑,不同的博客站点不可能通用逻辑,哪有万能的逻辑可以自动过滤的
初始源数据从哪里抓取好?[/quote] 我觉得可以找个友情链接稍微多点的博客做起点,然后从友情链接开始爬。
  • 打赏
  • 举报
回复
wumachangxi7 2016-01-17
引用 11 楼 unregret123456 的回复:
自己设置目标站点进行单个站点抓取,同类型的比如WordPress之类的博客结构一样的,可以用相同的处理逻辑,不同的博客站点不可能通用逻辑,哪有万能的逻辑可以自动过滤的
初始源数据从哪里抓取好?
  • 打赏
  • 举报
回复
丢雷老谋 2015-11-05
自己设置目标站点进行单个站点抓取,同类型的比如WordPress之类的博客结构一样的,可以用相同的处理逻辑,不同的博客站点不可能通用逻辑,哪有万能的逻辑可以自动过滤的
  • 打赏
  • 举报
回复
李睿_Lee 2015-10-23
引用 3 楼 wumachangxi7 的回复:
[quote=引用 1 楼 Novolee 的回复:] 收集wordperss z-blog网站什么意思?
这么说吧:收集使用wordpres或者z-blog这些用开源程序搭建的网站[/quote] 还是没讲清楚啊。是你要收集这些网站的域名(首页网址)呢?还是采集这些网站里的所有文章内容呢?
  • 打赏
  • 举报
回复
wumachangxi7 2015-10-23
引用 9 楼 Novolee 的回复:
[quote=引用 3 楼 wumachangxi7 的回复:] [quote=引用 1 楼 Novolee 的回复:] 收集wordperss z-blog网站什么意思?
这么说吧:收集使用wordpres或者z-blog这些用开源程序搭建的网站[/quote] 还是没讲清楚啊。是你要收集这些网站的域名(首页网址)呢?还是采集这些网站里的所有文章内容呢?[/quote] 这么说吧,不采集这些网站的内容,只是程序判断这些网站的程序是wordpress或者z-blog搭建的,就把这个网站(可以是首页也可以是一个详细页)记录下来
  • 打赏
  • 举报
回复
wumachangxi7 2015-10-22
精神常在,继续探讨啊
  • 打赏
  • 举报
回复
wumachangxi7 2015-10-20
引用 6 楼 fdipzone 的回复:
采集吗? 百度搜寻blog关键字,在返回的结果中进入网站,判断网站源码是否带wordpress标识别。如是则进行采集。
如果要采集超过10w的博客,这个关键词的数量也是很大啊。
  • 打赏
  • 举报
回复
傲雪星枫 2015-10-19
采集吗? 百度搜寻blog关键字,在返回的结果中进入网站,判断网站源码是否带wordpress标识别。如是则进行采集。
  • 打赏
  • 举报
回复
wumachangxi7 2015-10-18
继续征求解决方案呢
  • 打赏
  • 举报
回复
wumachangxi7 2015-10-14
引用 2 楼 zerolone 的回复:
把搜索引擎的都爬下来
这样太粗暴了,效率低,而且还要二次处理,搜索引擎数据太多,硬盘也不够存储数据啊
  • 打赏
  • 举报
回复
wumachangxi7 2015-10-14
引用 1 楼 Novolee 的回复:
收集wordperss z-blog网站什么意思?
这么说吧:收集使用wordpres或者z-blog这些用开源程序搭建的网站
  • 打赏
  • 举报
回复
Zerolone 2015-10-13
把搜索引擎的都爬下来
  • 打赏
  • 举报
回复
李睿_Lee 2015-10-11
收集wordperss z-blog网站什么意思?
  • 打赏
  • 举报
回复
相关推荐
发帖
PHP
创建于2008-08-27

1.9w+

社区成员

“超文本预处理器”,是在服务器端执行的脚本语言,尤其适用于Web开发并可嵌入HTML中。PHP语法利用了C、Java和Perl,该语言的主要目标是允许web开发人员快速编写动态网页。
申请成为版主
帖子事件
创建了帖子
2015-10-11 02:37
社区公告
暂无公告