嘿!兄弟,你是来唱戏的吗?

直播小助手2号 2018-11-16 12:26:30
1988年上海电视台和杭州电视台联合出品的《济公》续集里,有这么一个故事:

为破案,济公收了县令做三天徒弟,路上遇到一家人办丧事,济公进去哭丧,情真意切、声泪俱下,引得主人感动异常,当即施舍了一桌菜肴。

县令徒弟见济公此化缘方法甚是巧妙,于是效仿。另一家灵堂上,他趴在灵前涕泗横流,一边拍棺木一边照着济公的原话恸哭:“我与你友谊深厚,昔日曾同床共眠,如今你怎么就先我而去了呢……”

尽管徒弟哀哭动人,使见者伤心、闻者流泪,然而他非但没有成功化缘,反而被乱棒打了出来,只因济公哭灵对象是男的,而徒弟拜会那家去世的是一位老太!

这种别人怎么做他就怎么做的行为,生活中屡见不鲜,效仿他人做法、按照传统办事,固然出于“保险”考虑,不容易出错,可也会绕过最优处理,走了弯路。

系统建设也是如此。我们常常会遇到持有惯性思维的客户,他们的精力大半分配给应用业务创新,对于基础架构多数采用传统方案或参考别家模式,有的时候不仅增加了成本而且实操过程中也波折不断。对此Dell EMC要从实际出发,帮助客户探索最适合的方案。



这里讲述一个高校用户建设高性能计算系统的案例:针对客户传统建设项目出现的种种问题,我们逐一分析化解,为其量身打造了一套解决方案,从他们刚开始的不信任、不放心,到Dell EMC创新型解决方案的提出,客户最终对我们表现出极大的认同和支持。

二十一世纪以来,越来越多的科学研究和重大工程中的关键问题都必须依靠大规模、高性能的计算来完成。处于国内科研创新最前沿的高等院校,也承担了越来越重的科研任务,对高效处理复杂运算的需求越来越强,高性能计算势在必行。

高性能计算并非最近才有的技术,它已存在业界多年,总体分为计算、存储、网络、软件、机房环境、服务等方面,具体涉及的产品、方案,十分繁多,每个部分有许多选择,到底是机架式还是刀片式节点?共享式还是分布式存储?以太网还是IB网络?

面对多种选择时用户就会犯难,为“保险”起见,最终往往选择了最传统的方案。此处并非说传统方案不好,实际上,高性能计算经过这么多年的发展,有些方案或组合具有更好的Better Together特性,是可以作为首选的。

我们这个高校用户承担了多个国家级重大科研专项,同时负有培养超级计算机人才的任务,早在7、8年前就着手建设与科学研究和人才培养相匹配的大型计算机集群系统。随着研究课题的拓展,早期建设的计算集群已经满足不了任务要求,需要购建一套几千核以上、并且不少于几百TFlops计算能力的新集群。

根据一期项目痛点以及本次实际应用情况,并基于加速科研成果的考虑,计算集群需要满足以下要求:

高速低延迟计算网络

适应大规模集群满负载并行计算高效制冷环境

固定机房空间设备扩展性

多人多类型多任务作业

对此Dell EMC提出了领先适用的方案组合,很好地满足了用户科研、教学和人才培养需求。

高密度计算节点


C6420在一个2U机架中提供高容量存储和4台双路服务器,形成一个灵活的平台,为苛刻的高性能计算和横向扩展工作负载提供动力。C6420只是共用2U机箱、电源和风扇,其他都是独立的(包括独立的网络和管理口)。既符合高密度环境,又满足高性能计算有效组网的要求,可直接通过C6420外部网口上联计算网络交换机,减少网络层级,实现更低的数据传输延迟以及更稳定可靠的运行平台。

另外,由于一期建设的计算集群没法实现远程管理,用户每次开关机都要跑到机房现场去操作,十分麻烦,而C6420完美解决了这个问题,它可以通过独立IDRAC卡进行远程管理,且利用OME软件的集中部署、更新、监控和维护功能,可以有效提升用户的日常运维效率。

C6420更强一点在于,它可以直接配置带100Gb Omni-Path接口的Intel处理器(此处金级6148F CPU),让网络更靠近CPU,不需要PCIE总线即可全线速外联计算网络交换机。这是一种针对高性能计算部署优化的高速互联技术,在中大型集群中降低数据传输延迟,最大程度提升节点间通信性能。相比PCIE插卡方案,性价比更高。


更合适的Intel 100Gb Omni-path计算网络




Dell EMC跟Intel向来有广泛和紧密的合作,Dell Networking H9106-OPF和H9124-OPF导向器级交换机、 H1048-OPF 和H1024-OPF 边缘交换机,用的都是Intel, Omni-Path网络设备。为了能达到本项目Linpack值要求,经统计需要150多个节点,所以H9106-OPF(在7U机箱中最大可扩到192个100Gb口)是非常适合本项目的,它可以为小大中小型结构提供最佳性能,凭借超高的端口密度,减少交换机、电缆和机架的数量,允许配置大量端口,从而帮助组织简化网络拓扑。

用户可以先按照本次节点数量激活相应端口,并随着将来节点的增长以32个端口为增量平滑添加更多端口。这有助于削减电力和散热成本、减少设备无序蔓延,并且能在系统横向扩展的过程中避免出现过度订阅的情况。



最适用于高性能计算的MDC模块化机房



高性能计算系统,主要应用的是高功率密度或刀片服务器等高热密度设备。一期项目采用传统机房+国产计算设备,运行时会产生大量热量。尽管配置了精密空间+柜式空调,机柜内外部仍然处于高温“热岛区”,人一旦靠近就会感到非常不适,而且设备故障率也很高,导致运维人员疲于应对。

传统机房正面临着巨大挑战——服务器功耗呈几何级数增长,机房的单个机柜功耗不断提高,单位面积热量急剧上升,导致高热密度机房大量涌现。实践表明,当单个服务器机柜的热负荷超过5KW时,如果仍然采用传统方式的机房专用空调解决方案,很可能出现机房环境温度控制不理想的结果,产生局部热点。

另一方面,针对设备需要大循环风量带走高热的情况,采用传统机房空调系统不但会占用大片机房空间,而且上送风机组要配套大尺寸风管截面,下送风机组的地板架空高度也要大幅提高,同时机房专用机组必须加大风机功率保证送风量,因而导致整个制冷系统的效率大为降低。

Dell EMC有世界著名的企业级基础架构上的数据中心解决方案,早年就已着手开发针对机房环境超高热密度的新一代一体化解决方案。

整体解决方案具有智能设计、模块化设计特点,具备易建设、易管理、易维护、易扩容、易购买等价值,能够为IT客户带来美观、安全、可靠、高效的使用体验。此外,一站式获得的方式将有效降低用户的总体拥有成本。

高性能计算系统+MDC模块化机房绝对是Better Together!客户点头表示认同。





高性能计算集群中的云管系统



随着云计算技术的成熟和发展,采纳云和上云已成为常态,高性能计算上云并非遥不可及。Fit2Cloud可以纳管数据中心异构虚拟化平台和X86物理机,面对多用户、多应用的高性能计算场景, Fit2Cloud能发布CensOS、Redhat、Windows系统,发布裸金属机器,这些操作还可以直接在自助服务门户中完成。





数据存储+备份



Dell EMC Data Domain是业界在线消重专用备份存储中的佼佼者,对于大数据环境有着独到的处理能力。它扮演着备份存储和网络附加存储(NAS)的双重角色,任何写往Dell EMC Data Domain的数据均能实现边写入边消重。Data Domain还支持CloudTier云分层到公共云、私有云或混合云中,从而实现长期保留。数据经过 Data Domain重复消除步骤后,存放在云对象存储中。极高的重复数据消除率,可大幅减少存储占用空间,从而降低总体拥有成本。



系统建设就是具体问题具体分析的过程,这好比量体裁衣,只有量准了领口、袖长、肩宽、身形、腰围等尺寸,才能提出来最合适的解决方案。一味迷信传统,穿了件不合身的衣服上街,岂不要苦了自己、笑了别人。

...全文
531 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
beyondtc 2018-12-05
  • 打赏
  • 举报
回复
好,学习了!顶你!

4,358

社区成员

发帖
与我相关
我的任务
社区描述
通信技术相关讨论
社区管理员
  • 网络通信
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧