分布式处理架构，hadoop是否支持.NET开发？自己写架构难度多大？

秋的红果实 2017-11-01 09:45:27

应用场合：主要是处理大数据（如概率分析，预测）；使用多个普通实体PC搭建工作环境，而不是用互联网，不考虑类似A*zure等现成的收费产品

现有知识：对分布式只停留在理论了解阶段，只了解到如电商平台，接收客户端请求，付款，结算等都是由独立服务器去完成，各个服务器之间相互通讯，只停留在这个阶段。

最近探究：找到了hadoop这个框架（官网），了解了一点点，但很模糊，感觉很乱。

我的问题：
1、hadoop是不是支持.NET开发？
我的猜想是，Hadoop是用Java写的，运行在jre上，处理了分布式服务器间互相通讯、任务分配等问题，.NET开发的程序可以运行在其上面，不知道是不是这样？

2、不用Hadoop等框架，纯粹自己写分布式处理程序，难度多大，需要哪些知识。主要是考虑到自己的东西最灵活。

3、推荐下相关的权威书籍

4、无论是用hadoo还是自己写框架，环境中实体pc要用什么操作系统，win10这些行吗？

因为是开始探索，让弯路尽量少点，真诚求教，望不吝赐教。

...全文

1074 28 打赏收藏转发到动态举报

写回复

用AI写文章

28 条回复

切换为时间正序

请发表友善的回复…

发表回复

秋的红果实 2017-11-03

打赏
举报

感谢大家的回复！现在基本找到方向了。hadoop好像倒是有.NET 的api，见过不少国外资料，但我还是决定自己写。暂时不结帖，希望收集更多的资料。

娃都会打酱油了 2017-11-02

打赏
举报

看你这描述就是数据仓库，数据挖掘就行了……

娃都会打酱油了 2017-11-02

打赏
举报

https://www.nuget.org/packages/Hadoop.Client/ https://www.nuget.org/packages/Hive.Sharp.Lib/ 一个最后更新日期2013年，一个最后更新日期2011年，这多尴尬……

peng2739956 2017-11-02

打赏
举报

而且要实现高可用，并不一定非得用到hadoop. 而且 hadoop虽然强大，但是不能乱用，因为有些时候，你会发现hadoop 它并是你最完美的解决方案。经验之谈

john_QQ:2335298917 2017-11-02

打赏
举报

hadoop主要用于非实时大数据处理，spark用于大数据快速处理，spark可以使用hdaoop的HDFS存储数据，大规模的数据可以分散在各台PC上，关于如何存储，可以参考相关的书籍。hadoop和spark生产环境主要部署在 linux平台，windows还是不要想了。.net和hadoop的互操作没见过。hadoop和spark主要运行在java虚拟机上。所以你想想让.net和hadoop互操作的难度。如果要自己编写分布式运算也不是不可以，就是有点复杂，涉及到数据存储、工作分配、结果收集、容错等等方方面面，当然，如果肯投入，也不是不可行。

peng2739956 2017-11-02

打赏
举报

说白了就是一个大数据的持久化集群的策略，那么你可以去了解下 quartz.net 这个玩意。而且大数据一般现在除了用分布式的框架来编写之外，其他都是用硬件来解决了，比如服务器的负载啦，CDN啦，云存储服务啦，这些玩意，如果在不考虑程序是否有大并发的情况下。集群这个东西，我都觉得没必要加进去

秋的红果实 2017-11-02

打赏
举报

每个Worker要装相同的处理程序吗？大数据（如10T文本）要放到一个单独的服务器吗？

秋的红果实 2017-11-02

打赏
举报

引用 11 楼 sp1234 的回复:

[quote=引用楼主 From_TaiWan 的回复:] 2、不用Hadoop等框架，纯粹自己写分布式处理程序，难度多大，需要哪些知识。主要是考虑到自己的东西最灵活。

这就是普通的网络集群通讯软件，有点经验就能当作简单的“abc”程序设计。[/quote]大侠说仔细点好吗？主要是解决问题的思路

以专业开发人员为伍 2017-11-02

打赏
举报

简单来说一下基本功能吧，先不考虑“优化”问题，基于简单直接的策略来设计： 1. 首先要有一个 Master 服务器，用来作为所有其它主机（包括远程内网pc机）的服务器，管理所有 Worker 服务器的登入。 2. Worker 把一个任务（形式上可以使用 json 形式自定义信令内容格式）发给Master。Master 发给所有的 Worker，并且等待有哪一个 Worker 来“抢”任务。 3. 当某一个 Worker 首先来抢任务之后，Mater 最终确认由这个 Worker 处理这个任务。 4. 当 Worker 执行完毕任务之后，把结果发给 Master，Master 把结果转发给最初发起任务的 Worker。这里，因为所有的 Worker 都连到 Mater 作为中转，不需要相互之间点对点连接，所以可以把不同局域网里的各种主机联系起来。例如你在上海有10台主机、北京有20台、乌鲁木齐5台，公网上有10台，它们都能集成进一个分布式业务计算平台。你可以扩展一下基本的协议，用多台 Master 来应付单点的风险。

以专业开发人员为伍 2017-11-02

打赏
举报

引用楼主 From_TaiWan 的回复:

2、不用Hadoop等框架，纯粹自己写分布式处理程序，难度多大，需要哪些知识。主要是考虑到自己的东西最灵活。

这就是普通的网络集群通讯软件，有点经验就能当作简单的“abc”程序设计。

以专业开发人员为伍 2017-11-02

打赏
举报

又没有上万台服务器，自己写分布式调度程序（不超过200行c#代码）岂不是更好？

闭包客 2017-11-02

打赏
举报

引用 8 楼 From_TaiWan 的回复:

[quote=引用 6 楼 closurer 的回复:] 自己写框架的难度，要看你用这个框架来做什么。技术选型也是。 Hadoop 被很多人用在大数据项目，但并不是大数据就一定要用 Hadoop 要看你的需求——概率分析、预测，有什么要解决的具体问题，再决定技术的选型。

还有运算，统计等多方面，我需要一个“根本”的平台。这个和具体业务有关吗？那么就概率分析这块，需要从哪里入手[/quote] 概率分析好像是需要一些 BI 的产品啊。

秋的红果实 2017-11-02

打赏
举报

引用 6 楼 closurer 的回复:

自己写框架的难度，要看你用这个框架来做什么。技术选型也是。 Hadoop 被很多人用在大数据项目，但并不是大数据就一定要用 Hadoop 要看你的需求——概率分析、预测，有什么要解决的具体问题，再决定技术的选型。

还有运算，统计等多方面，我需要一个“根本”的平台。这个和具体业务有关吗？那么就概率分析这块，需要从哪里入手

4qw 2017-11-02

打赏
举报

尽量在Linux环境使用吧,因为所有相关配套的组件都适合Linux,是否适合Windows就不清楚了,比如hive,是否支持Windows,说不准... 如果非要在Windows环境,可以试着安装双系统,一个windodws,一个Linux,同时运行;或者在windows上安装虚拟机,虚拟机运行了Linux系统... 总之,windows不建议...

4qw 2017-11-02

打赏
举报

就是安装hive 时就会配置使用hadoop集群的数据,帮你在内部配置好了;安装完成后使用,只需要使用hive就可以了,就当没有hadoop,此时相当于一个黑盒...

4qw 2017-11-02

打赏
举报

引用 22 楼 From_TaiWan 的回复:

[quote=引用 21 楼 sunsj236688 的回复:] 而hive语句的调用可以在linux环境使用命令进行调用,只要.net能够远程访问Linux服务器,远程调用服务器命令,应该就可以了吧

这句不太懂，是不是可以这样理解： hadoop是运行在Linux服务器上的（必须吗？），通过hadoop自己的命令将hive语句提交给hadoo执行。是不是这么理解？ [/quote] hive命令是对Hadoop类似一种壳的包装,就是套了层外壳,使用hive自带命令就可以间接操作Hadoop的数据,不需要用hadoop的命令了,你查下相关内容就知道了; hadoop可以在Windows进行集群布置,不过都要安装cygwin;这是一个链接介绍:http://www.cnblogs.com/liudmblog/p/3922994.html; 不过尽量部署在Linux;windows环境部署生产环境毕竟不专业...

wanghui0380 2017-11-02

打赏
举报

这个可以这么看，你台装在linux下的oracle数据库，你认为你net程序员有没有办法对接上去，我们说当然可以对接上去 Hadoop For .NET SDK, HDInsight 这个比较坑，又是Azure，微软这个围绕着Azure的策略，跟当初围绕着什么域服务器的策略一样，自捆手脚啊

秋的红果实 2017-11-02

打赏
举报

引用 21 楼 sunsj236688 的回复:

而hive语句的调用可以在linux环境使用命令进行调用,只要.net能够远程访问Linux服务器,远程调用服务器命令,应该就可以了吧

这句不太懂，是不是可以这样理解： hadoop是运行在Linux服务器上的（必须吗？），通过hadoop自己的命令将hive语句提交给hadoo执行。是不是这么理解？

4qw 2017-11-02

打赏
举报

至于.net调用hadoop,直接调用好像是不行的,不过可以绕着走; 如果你说的概率分析等涉及到算法一类的功能可以用sql的方式处理数据,就可以使用hive,hive是一种类sql的组件,使用起来就像操作数据库一样, 数据存储在hadoop,依托于hadoop环境;即可以在hive平台上使用类SQL的语句来操作hadoo上的数据, 而hive语句的调用可以在linux环境使用命令进行调用,只要.net能够远程访问Linux服务器,远程调用服务器命令,应该就可以了吧

4qw 2017-11-02