pww71 2016年03月21日
为什么说大数据的核心技术是map技术
大数据核心技术---Map技术

彭文伟
前言:
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。而以上这些关键技术都离不开底层的应用技术,键值对map的性能。

对于c++程序来说 map的使用无处不在。影响程序性能的瓶颈也往往是map的性能。尤其在大数据情况下,以及业务关联紧密而无法实现数据分发和并行处理的情况。map的性能就成了最关键的技术。

一、大数据采集技术

在电信行业和信息安全行业的工作经历,我是和底层大数据采集打交道,尤其信息安全行业数据最复杂,都离不开map。
比如:ip表、mac表,电话号码表、域名解析表、身份证号码表的查询、病毒木马的特征码的云查杀等等。
stl库的map采用二分查找,性能最差。Google的哈希map性能和内存目前是最优的,但是有重复碰撞的机率。现在大数据 基本上不用有碰撞几率的map。
当然,这些情况可以使用并发的形式来解决,但是对于网络数据包每秒高达2万以上的情况,以及业务关联紧密无法分发的情况,大数据就只能本地化处理。
比如电信信令的sccp层的组包流程,网络协议的tcp和ip层的组包流程。这些必须靠map本地化来完成。

二、大数据预处理技术

数据库的关联功能是性能超慢的,因此想要实现大数据分析的实时性,预处理是很关键的步骤,我在电信时,处理的是将一个通话流程完整的关联起来,实现电话通话过程的实时性关联,如果将上亿条数据放到数据库中做关联,客户的体验效果可想而知。
要保证每秒几万个信令数据包能全部处理完成,就必须使用高效的map技术,对相同业务id的信令数据进行插入,查询以及完成关联后从map表中删除。

三、大数据存储及管理技术

针对web2.0的频繁应用,key-value的数据库具有非常高效的读写性能,尤其在大数据情况下。Map型的数据库没有关系型数据库那么复杂的结构,性能优越。






介绍:

pwwMap是一种全新算法概念的map技术。它包含三种map。
memmap,hashmap适合用于大数据采集和预处理分析,diskmap适合做nosql数据库。

1、memmap 支持插入,修改,删除,查询等日常操作。适合任何场合下使用。采用独特的索引技术,性能和内存比stl库的map高百倍以上。性能和google的哈希map相差无几,且无碰撞机率。
2、hashmap 仅仅支持查询。适合高速查询的场合。性能比目前的google哈希算法快100倍。而且无碰撞机率。
3、diskmap 支持插入,修改,删除,查询等日常操作,类似nosql数据库的功能。其数据量高达百亿,查询性能依旧强劲。对比google的leveldb技术,优势明显。而且其采用模板形式支持各种数据类型,不仅仅是string类型的数据。


程序使用pwwMap 最直接的效益就是 原来需要十个服务器解决的方案 现在只需要一个服务器。
...全文
2748 点赞 收藏 1
写回复
1 条回复

还没有回复,快来抢沙发~

发动态
发帖子
高性能计算
创建于2008-07-01

1867

社区成员

1018

社区内容

高性能计算
社区公告
暂无公告