大数据基本概念浅析及技术简介

快来削我呀 2019-04-18 08:10:02
数据是可以获取和存储的信息。直观而言,表达某种客观事实的数值是最容易被人们识别的数据(因为那是“数”)。但实际上,人类的一切语言文字、图形图画、音像记录,所有感官可以察觉的事物,只要能被记下来,能够查询到,就都是数据(data)。 而大数据首先是数据,其次,它是具备了某些特征的数据。目前公认的特征有四个:Volumne,Velocity,Variety,和Value,简称4V.具体而言: 1.Volumne:大量。就目前技术而言,至少TB级别以下不能成大数据。 2.Velocity:高速。1TB的数据,十分钟处理完,叫大数据,一年处理完,就不能算“大”了。 3.Variety:多样。就内容而言,大数据已经远远不局限数值,文字、图片、语音、图像,一切在网络上可以传输显示的信息,都属于此列。从结构而言,和存储在数据库中的结构化数据不同,当前的大数据主要指半结构化和非结构化的信息,比如机器生成信息(各种日志)、自然语言等。 4. Value:价值。如果不能从中提取出价值,不能通过挖掘、分析,得到指导业务的insights,那这些数据也就没什么用。不过现在还有另外一种提法:只要是数据就都有用,能不能获得价值,是分析人员的能力问题。 大数据分析,顾名思义,就是将前述的数据可视化、数据分析、数据挖掘等方法作用到大数据之上。 数据可视化指通过图表将若干数字以直观的方式呈现给读者,非常常见的饼图、柱状图、走势图、热点图、K线等等,目前以二维展示为主,不过越来越多的三维图像和动态图也被用来展示数据。 大数据技术抽象而言,各种大数据技术无外乎分布式存储 + 并行计算。具体体现为各种分布式文件系统和建立在其上的并行运算框架。这些软件程序都部署在多个相互连通、统一管理的物理或虚拟运算节点之上,形成集群。因此不妨说,云计算是大数据的基础。我了解到的大数据技术有:Hadoop其原理:数据分布式存储,运算程序被发派到各个数据节点进行分别运算(Map),再将各个节点的运算结果进行合并归一(Reduce),生成最终结果;Storm,其不同于Hadoop一次性处理所有数据并得出统一结果的作业(job),Storm对源源导入的数据流进行持续不断的处理,随时得出增量结果;还有Spark;NoSQL 数据库… 大数据概念的兴起正在对我们的社会产生多方面的影响: 1.定量分析 因“大数据”而使得人们开始关注“数据”,可谓最首要的影响。尤其对于国内而言,越来越多的决策者开始重视数据的力量,会在决断同时参考各类统计、分析报表,而不再是凭直觉拍脑袋。 2.从必然到相关 相对于传统的小数据统计,大数据更关注与发现事物之间的相关性,而非因果关系。人类历经百万年基于数据贫乏的现状而形成的“因为……所以……”的思维习惯,在大数据时代,是否会向“……有关联……”转变? 3.信息安全 以今日的技术,一个人的个人信息、网页浏览记录、购物记录、对图书影片等内容的偏好,在浏览不同页面时的行为习惯,如此种种,都可以轻易被商家或某些机构获取。在大数据的笼罩之下,每个人都将无所遁形。那么,对于每个人本该拥有的隐私权,该如何保护? 新技术解决了许多之前无法解决的问题,然而,新生事物也带来了新的问题。像所有技术一样,大数据也是一把 “双刃剑”.能否用其利除其弊,有赖于全社会的共同努力。
...全文
427 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
baidu_27549073 2019-04-28
  • 打赏
  • 举报
回复
谢谢分享,6字
SQLtrainee 2019-04-25
  • 打赏
  • 举报
回复
讲的很明白 感谢分享!
leo_lesley 2019-04-19
  • 打赏
  • 举报
回复
吉普赛的歌 2019-04-18
  • 打赏
  • 举报
回复
感谢分享, 建议写成博客
目录: 网盘文件,永久连接 HCNP-Security-CISN 1_网络安全设备与组网_安全设备介绍-安全组网介绍 2_网络安全运维_安全设备管理-安全设备统一运维 3_防火墙智能选路_智能选路应用场景-智能选路故障排除 4.1_服务器负载均衡_服务器负载均衡概述 4.2_服务器负载均衡_服务器负载均衡实现原理 4.3_服务器负载均衡_服务器负载均衡配置部署 5.1_防火墙可靠性_IP-Link技术 5.2_防火墙可靠性_BFD技术 5.3_防火墙可靠性_双机热备技术 5.4_防火墙可靠性_Link-Group技术 5.5_防火墙可靠性_Eth-Trunk技术 6.1_IPSec VPN技术与应用_IPSec VPN原理 6.2_IPSec VPN技术与应用_IKE协议 6.3_IPSec VPN技术与应用_IKE协商过程 6.4_IPSec VPN技术与应用_IPSec VPN点到点应用场景 6.5_IPSec VPN技术与应用_IPSec VPN点到多点_L2TP over IPSec应用场景 6.6_IPSec VPN技术与应用_GRE Over IPSec_证书认证应用场景 6.7_IPSec VPN技术与应用_IPSec VPN故障排除 7.1_SSL VPN技术与应用_SSL VPN实现原理 7.2_SSL VPN技术与应用_证书在SSL VPN中的应用 7.3_SSL VPN技术与应用_SSL VPN应用场景分析 7.4_SSL VPN技术与应用_SSL VPN故障排除 8.1_网络带宽管理_防火墙带宽管理概述 8.2_网络带宽管理_防火墙带宽管理实现原理 8.3_网络带宽管理_防火墙带宽管理配置部署 8.4_网络带宽管理_防火墙带宽管理故障排除 9.1_虚拟系统-虚拟系统概述 9.2_虚拟系统_虚拟系统实现原理 9.3_虚拟系统_虚拟系统配置部署 9.4_虚拟系统-虚拟系统配置举例 9.5_虚拟系统-虚拟系统故障排除 HCNP-Security-CSSN 1_内容安全概述_信息安全基础-IAE检测引擎 2.1_内容安全过滤技术_内容安全过滤概述 2.2_内容安全过滤技术_文件过滤技术 2.3-4_内容安全过滤技术_内容过滤技术-邮件过滤技术 2.5-7_内容安全过滤技术_应用行为控制-内容安全故障处理 3.1_Web安全防护_Web安全概述 3.2_Web安全防护_Web基础概述 3.3_Web安全防护_Web攻击浅析 3.4_Web安全防护_URL过滤技术 3.5_Web安全防护_Web信誉体系 3.6_Web安全防护_Web应用系统防护技术 4_入侵检测与防御技术基础_网络入侵简介-入侵防御系统 5_入侵检测与防御技术应用_IPS应用场景-防火墙IPS特性 6.1_反病毒技术_计算机病毒基础概念 6.2_反病毒技术_反病毒技术 6.3_反病毒技术_网关反病毒配置 7_网络型攻击防范技术_网络攻击介绍-防火墙攻防特性 8.1_大数据与云安全_云时代的安全 8.2_大数据与云安全_沙箱技术 8.3_大数据与云安全_大数据智能检测平台与云安全解决方案 HCNP-Security-CTSS 1.1_终端安全概述_终端安全的背景 1.2_终端安全概述_终端安全方案设计思路 1.3_终端安全概述_终端安全系统介绍 1.4_终端安全概述_打造安全移动化平台 2.1_Agile Controller-Campus产品安装_安装规划及部署 2.2_Agile Controller-Campus产品安装_高可靠性部署及运行卸载 3_用户管理技术_用户管理概述-典型应用案例 4.1-2_802.1X认证技术和MAC认证技术_准入概述-认证原理 4.3_802.1X认证技术和MAC认证技术_配置部署 4.4_802.1X认证技术和MAC认证技术_故障处理 5.1_SACG认证技术_SACG原理 5.2_SACG认证技术_SACG配置部署 5.3_SACG认证技术_SACG故障处理 6.1_Portal认证技术_Portal技术原理 6.2.1_Portal认证技术_Portal配置部署1 6.2.2_Portal认证技术_Portal配置部署2 6.3_Portal认证技术_Portal故障处理 7.1_访客管理技术_访客管理功能及接入原理 7.2_访客管理技术_常用操作及典型案例分析 8.1_敏捷网络技术_敏捷网络原理介绍 8.2_敏捷网络技术_敏捷特性配置 9.1_终端安全管理_终端安全概述 9.2_终端安全管理_安全策略管理 9.3_终端安全管理_桌面管理 ........

11,849

社区成员

发帖
与我相关
我的任务
社区描述
MS-SQL Server 非技术版
社区管理员
  • 非技术版社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧