大神们看过来:本应用是否可以采用Hadoop/MapReduce技术路线?如何做数据挖掘?
本单位为100人以内的研究所,主要从事科学试验卫星任务管理。试验卫星会有试验任务,在每次试验任务时有很多的文档产生,比如试验计划、总结等。卫星每天在天上转圈,每天会下传日常运行数据,有试验任务时会下传试验数据和图像,卫星所有的下传数据(包括数据和图像)均保存在同一存储服务器上。
如上描述可见:数据包括两类,第一类为局域网产生的文档、图片等,分散于单位内数十台电脑上,大约有几万个文档,几百个G;第二类为卫星下传数据,包括数据和图像,以网络数据包的形式存在,使用时需要根据格式解包,集中在一台存储服务器上,海量,PB或TB量级,且每天在不断增长。
需求1:针对已做过的每一次卫星试验,输入检索词,能够将其相关的文档、数据、图片、图像等智能的检索出来。
需求2:能够对卫星试验数据做数据分析与挖掘。
问题:该应用和需求是否适合采用Hadoop/MapReduce技术路线? 应该如何针对本应用作卫星数据的分析和挖掘?