大神们看过来：本应用是否可以采用Hadoop/MapReduce技术路线？如何做数据挖掘？

gxqcdit 2016-02-01 09:44:08

本单位为100人以内的研究所，主要从事科学试验卫星任务管理。试验卫星会有试验任务，在每次试验任务时有很多的文档产生，比如试验计划、总结等。卫星每天在天上转圈，每天会下传日常运行数据，有试验任务时会下传试验数据和图像，卫星所有的下传数据（包括数据和图像）均保存在同一存储服务器上。

如上描述可见：数据包括两类，第一类为局域网产生的文档、图片等，分散于单位内数十台电脑上，大约有几万个文档，几百个G；第二类为卫星下传数据，包括数据和图像，以网络数据包的形式存在，使用时需要根据格式解包，集中在一台存储服务器上，海量，PB或TB量级，且每天在不断增长。

需求1：针对已做过的每一次卫星试验，输入检索词，能够将其相关的文档、数据、图片、图像等智能的检索出来。
需求2：能够对卫星试验数据做数据分析与挖掘。

问题：该应用和需求是否适合采用Hadoop/MapReduce技术路线？应该如何针对本应用作卫星数据的分析和挖掘？

...全文

230 2 打赏收藏转发到动态举报

写回复

用AI写文章

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

夜无边CN 2016-02-04

打赏
举报

需求1：根据你们的需求分析solr或es是不是能满足你们的需求需求2：Hadoop/MapReduce是肯定可以使用的，但根据你们的数据特点是不是可以用hive，pig之类的，或者是spark（效率较高）。MapReduce开发成本是比较高的。我们目前在使用MapReduce但考虑一部分功能转到spark了，主要是MapReduce跑一些算法太慢了。

pww71 2016-02-01

打赏
举报

pwwMap is update Optimize the read cache, read file using small random buffer. more than one times increase the performance of diskmap . http://sourceforge.net/projects/pwwhashmap/files/stats/timeline