大数据 与 .NET 平台语言 真是不懂啊

biaoqi_computer 2015-05-29 06:07:05
最近感觉大数据很牛气啊~csdn上也有大量介绍大数据的,那么什么是大数据,百度上说:“是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资”。
那么.NET有没有对大应巨量数据的处理能力呢?从事ERP开发一年的我不仅感觉到疑惑,按照大数据的解释不正是ERP开发的目的,只不过erp面向的企业数据没有大数据来的多,在面对一家企业的数据肯定不能和互联网的信息比较。但我确常常为ERP中的数据量而感到无力,每次运行一次盘点功能,有可能就需要至少15分钟的时间(项目实施3个月左右),我们也在不断的优化,和改进,优化方向包括数据存储过程,代码优化,缓存,线程等方向。说实话如果让我处理互联网这样庞大的信息我可能就没有办法达到高效的目的了。.NET把数据读到DataSet中,这样造成内存增加,处理起来会很慢。至于多现程我不认同了,多线程实在cpu有空闲的时候有用,如果一个数据处理程序占完CPU资源其实就没用了,对于巨量的数据处理来说感觉.net不是很高效啊?
...全文
1883 13 打赏 收藏 转发到动态 举报
写回复
用AI写文章
13 条回复
切换为时间正序
请发表友善的回复…
发表回复
the_break 2017-06-22
  • 打赏
  • 举报
回复
引用 11 楼 cxzzwb 的回复:
[quote=引用 5 楼 sp1234 的回复:] 大数据跟编程语言没有直接关系。你把.net程序员说成是只会用DataSet,而不会进行分布式系统开发的,那就是以你们自己公司的那种程序员配置来看一个编程平台的水平了。实际上就你说的那种erp盘点来说,如果你们就是满脑子都是数据库读写、DataSet德,那么处理流程也就是只能那样设计。 而换成别人来设计系统,可能在实地盘点结束并且数据上传完毕后能够在“秒级”就能出盘赢盘亏的准确的汇总结果了。但是这肯定都是收费的。我只是告诉你,你在单机上所看到的那些,不是大数据。 大数据不是指你的一个数据库有几十G,也不是指要占用10几G内存。不是单指数据量,而是一个综合的系统。大数据的处理速度超乎了以前所有人的想象力(快得神奇),所以才被人称为大数据。
受教了,哥[/quote] 受教了, 哥 +1
大麦芽糖 2016-06-23
  • 打赏
  • 举报
回复
我认为大数据的关键不是高并发,而是全面。用于做分析,制定准备而精确的方案。
程序猿老曾 2015-05-31
  • 打赏
  • 举报
回复
引用 5 楼 sp1234 的回复:
大数据跟编程语言没有直接关系。你把.net程序员说成是只会用DataSet,而不会进行分布式系统开发的,那就是以你们自己公司的那种程序员配置来看一个编程平台的水平了。实际上就你说的那种erp盘点来说,如果你们就是满脑子都是数据库读写、DataSet德,那么处理流程也就是只能那样设计。 而换成别人来设计系统,可能在实地盘点结束并且数据上传完毕后能够在“秒级”就能出盘赢盘亏的准确的汇总结果了。但是这肯定都是收费的。我只是告诉你,你在单机上所看到的那些,不是大数据。 大数据不是指你的一个数据库有几十G,也不是指要占用10几G内存。不是单指数据量,而是一个综合的系统。大数据的处理速度超乎了以前所有人的想象力(快得神奇),所以才被人称为大数据。
受教了,哥
biaoqi_computer 2015-05-30
  • 打赏
  • 举报
回复
引用 4 楼 sp1234 的回复:
[quote=引用 楼主 biaoqi_computer 的回复:] 从事ERP开发一年的我不仅感觉到疑惑,按照大数据的解释不正是ERP开发的目的,只不过erp面向的企业数据没有大数据来的多,在面对一家企业的数据肯定不能和互联网的信息比较。但我确常常为ERP中的数据量而感到无力,每次运行一次盘点功能,有可能就需要至少15分钟的时间(项目实施3个月左右),我们也在不断的优化,和改进,优化方向包括数据存储过程,代码优化,缓存,线程等方向。说实话如果让我处理互联网这样庞大的信息我可能就没有办法达到高效的目的了。.NET把数据读到DataSet中,这样造成内存增加,处理起来会很慢。至于多现程我不认同了,多线程实在cpu有空闲的时候有用,如果一个数据处理程序占完CPU资源其实就没用了,对于巨量的数据处理来说感觉.net不是很高效啊?
你的这个问题实际上正好说明了大数据离你有多远(当然,这是好事)。大数据的处理方式,肯定是基于多线程并发计算的算法设计的,但是至少会用2台机器(至少是理论模型上是2台),而且可以随时水平扩展。如果2台机器可能反而会让并发多线程处理算法的效率变低(用时16分钟才处理完)的话,那么我把机器扩展到20台,我就会把目标设定为1分钟处理完你用15分钟才处理完的任务。 当你把数据都都丢到Dataset里边的时候,你的CPU在很长时间是指由很低很低的占用率的(读取和写出数据其实很慢)。但是你不敢并发处理,因为你的算法天生就不是并发的,就是只是单线程处理这一个DataSet的。你的算法不行,反而怪“没有并发处理的必要性”。 而实际上大数据,比如说google处理全世界的上百亿网页来进行排序,几个小时就计算完毕了。不是用一个很大的内存的,而是靠分布式算法。算法到位了,自然就找到了并发多线程(比如说在1万台机器上使用20万个线程来计算)的可执行力。[/quote] 也就是说如果我们要实现数据高效处理的话,可以以某种方式把网络中自己公司的客户端利用起来,采用分布式处理数据,也就是说我们给每台计算机安装一个数据处理软件(CPU空闲时自动分析)一但需要对数据处理全公司的电脑一起处理,这样来处理其实就能实现“大数据(高效的的处理数据)”
threenewbee 2015-05-29
  • 打赏
  • 举报
回复
大数据主要是指多种类、海量的数据和基于此的机器学习和数据挖掘技术
足球中国 2015-05-29
  • 打赏
  • 举报
回复
大数据,不是就很大的数据嘛 当你有几亿的每天的信息了。就有了大数据。
  • 打赏
  • 举报
回复
已关注该问题。。。 平时看的相关内容,包括书店里啥大数据的书,我感觉基本都是java的,然后跑在linux上的。。。
  • 打赏
  • 举报
回复
大数据跟编程语言没有直接关系。你把.net程序员说成是只会用DataSet,而不会进行分布式系统开发的,那就是以你们自己公司的那种程序员配置来看一个编程平台的水平了。实际上就你说的那种erp盘点来说,如果你们就是满脑子都是数据库读写、DataSet德,那么处理流程也就是只能那样设计。 而换成别人来设计系统,可能在实地盘点结束并且数据上传完毕后能够在“秒级”就能出盘赢盘亏的准确的汇总结果了。但是这肯定都是收费的。我只是告诉你,你在单机上所看到的那些,不是大数据。 大数据不是指你的一个数据库有几十G,也不是指要占用10几G内存。不是单指数据量,而是一个综合的系统。大数据的处理速度超乎了以前所有人的想象力(快得神奇),所以才被人称为大数据。
  • 打赏
  • 举报
回复
引用 楼主 biaoqi_computer 的回复:
从事ERP开发一年的我不仅感觉到疑惑,按照大数据的解释不正是ERP开发的目的,只不过erp面向的企业数据没有大数据来的多,在面对一家企业的数据肯定不能和互联网的信息比较。但我确常常为ERP中的数据量而感到无力,每次运行一次盘点功能,有可能就需要至少15分钟的时间(项目实施3个月左右),我们也在不断的优化,和改进,优化方向包括数据存储过程,代码优化,缓存,线程等方向。说实话如果让我处理互联网这样庞大的信息我可能就没有办法达到高效的目的了。.NET把数据读到DataSet中,这样造成内存增加,处理起来会很慢。至于多现程我不认同了,多线程实在cpu有空闲的时候有用,如果一个数据处理程序占完CPU资源其实就没用了,对于巨量的数据处理来说感觉.net不是很高效啊?
你的这个问题实际上正好说明了大数据离你有多远(当然,这是好事)。大数据的处理方式,肯定是基于多线程并发计算的算法设计的,但是至少会用2台机器(至少是理论模型上是2台),而且可以随时水平扩展。如果2台机器可能反而会让并发多线程处理算法的效率变低(用时16分钟才处理完)的话,那么我把机器扩展到20台,我就会把目标设定为1分钟处理完你用15分钟才处理完的任务。 当你把数据都都丢到Dataset里边的时候,你的CPU在很长时间是指由很低很低的占用率的(读取和写出数据其实很慢)。但是你不敢并发处理,因为你的算法天生就不是并发的,就是只是单线程处理这一个DataSet的。你的算法不行,反而怪“没有并发处理的必要性”。 而实际上大数据,比如说google处理全世界的上百亿网页来进行排序,几个小时就计算完毕了。不是用一个很大的内存的,而是靠分布式算法。算法到位了,自然就找到了并发多线程(比如说在1万台机器上使用20万个线程来计算)的可执行力。
  • 打赏
  • 举报
回复
你这个问题问的很好。 大数据不是“大的数据库”。不是说你原本1T的数据库变成10T的(以至于因为一个pc主板连不了6块以上的硬盘所以无法管理),更不是像游戏人以为的“自己的100M的数据库变大到10G了所以需要分库分表了”。你给的例子很好,一些传统的计算应用,原来需要5个小时才能处理完的工作,现在用1分钟之内一定就能处理完毕;原来需要1个月处理完的工作,现在用2个小时一定可以处理完毕。原来用1台计算机处理的工作,现在用至少10台甚至几万台计算机处理。 实际上,分布式处理是大数据的基础,而且这种分布式处理是指抄过64台以上的、成白上千台处理机器也非常适合的算法。 有了大数据的api,让它符合最基本的分布式处理的特征,才好说大数据。光凭理论概念是完全不行的。
biaoqi_computer 2015-05-29
  • 打赏
  • 举报
回复
引用 1 楼 starfd 的回复:
哪个大数据能读到内存处理的……
大数据难道是一个数据库 那Hadoop不是一个程序吗,再说数据库处理还不是要用内存
  • 打赏
  • 举报
回复
哪个大数据能读到内存处理的……

17,740

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 .NET Framework
社区管理员
  • .NET Framework社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧