赶紧先买本Hadoop权威指南4中文版先看看吧,我也是刚买了书
大数据东西挺多,关键还看需求和目标。 大数据主要包含两类东西:分布式存储(如hdfs)和分布式计算(如mr、spark),计算里面细分为批处理计算(如mr)和流式计算(如storm)。 以hadoop技术栈为例,hdfs肯定要了解,其他的看需求。 计算框架可以看看spark,利用内存计算,减少落地次数,号称可以淘汰mr。 最近还有比较热门的海量日志处理,常见技术是flume、kafka、elk等,flume与hadoop技术栈兼容,kafka依赖zk,elk是集群化的lucene加采集和展现。 备用知识比较重要的,一是linux,一是网络基础,最好还要有一定开发经验。 大数据和小数据一样,核心就两样:数据的存储和运算,只是搞成了分布式而已,当然,分布式带来了许多新的问题和挑战。
来个人呀。帮帮忙喽。
20,808
社区成员
4,690
社区内容
加载中
试试用AI创作助手写篇文章吧