大神们看过来:本应用是否可以采用Hadoop/MapReduce技术路线?如何做数据挖掘?

gxqcdit 2016-02-01 09:44:08
本单位为100人以内的研究所,主要从事科学试验卫星任务管理。试验卫星会有试验任务,在每次试验任务时有很多的文档产生,比如试验计划、总结等。卫星每天在天上转圈,每天会下传日常运行数据,有试验任务时会下传试验数据和图像,卫星所有的下传数据(包括数据和图像)均保存在同一存储服务器上。

如上描述可见:数据包括两类,第一类为局域网产生的文档、图片等,分散于单位内数十台电脑上,大约有几万个文档,几百个G;第二类为卫星下传数据,包括数据和图像,以网络数据包的形式存在,使用时需要根据格式解包,集中在一台存储服务器上,海量,PB或TB量级,且每天在不断增长。

需求1:针对已做过的每一次卫星试验,输入检索词,能够将其相关的文档、数据、图片、图像等智能的检索出来。
需求2:能够对卫星试验数据做数据分析与挖掘。

问题:该应用和需求是否适合采用Hadoop/MapReduce技术路线? 应该如何针对本应用作卫星数据的分析和挖掘?
...全文
230 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
夜无边CN 2016-02-04
  • 打赏
  • 举报
回复
需求1:根据你们的需求分析solr或es是不是能满足你们的需求 需求2:Hadoop/MapReduce是肯定可以使用的,但根据你们的数据特点是不是可以用hive,pig之类的,或者是spark(效率较高)。MapReduce开发成本是比较高的。 我们目前在使用MapReduce但考虑一部分功能转到spark了,主要是MapReduce跑一些算法太慢了。
pww71 2016-02-01
  • 打赏
  • 举报
回复
pwwMap is update Optimize the read cache, read file using small random buffer. more than one times increase the performance of diskmap . http://sourceforge.net/projects/pwwhashmap/files/stats/timeline

20,809

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧