@ 2013.07.15 , 20:09
91

近距离看中国天河2号超级计算机

报道了一次天河2,但关于这部机器的细节还是一团迷雾,特别是升级了「ARCH」联网系统的内部细节,16,000个节点是怎么通过这个ARCH堆到一起的。但下面这些图片,稍能满足一下大家的好奇心,小编我文盲乱翻书,以飨诸位考据帝。

还有,不管怎么样,国家有天河2可以用,我还是很高兴的。

首先是天河2的主板,根据最早爆料者,Jack Dongarra的说法,国防科技大学做了一些「一体化改进」。

[-]
天河2号主板

在天河2里,两个ARCH网络接口和两枚Ivy Bridge-EP版的Xeon E5 节点(每个节点有两个CPU插座),被做在了一块板子上(虽然他们理论上,它们之间没有什么关系)。这样一个节点上,还有一枚 Xeon Phi 协处理器供左半边的节点共享,右侧有5枚Xeon Phi。左右两半电器上是分开的,完全可以分开维护。

所谓的 Arch-2 网络界面,通过PCI-Express 2.0接口,连接着搭载着Xeon E5的主板,可惜,PCIe 2.0的带宽只有 PCIe 3.0 版本的要少一半(也许Arch-3会升级到 PCIe 3.0界面,或者NUDT的实验室白板上已经有原型涂鸦了?)。每个节点上都有一个Arch-2网络界面;每节点上的3个Xeon Phi协处理器,通过PCIe 3.0界面和CPU通讯,嗯~没错Xeon Phi与CPU的谈话速度,要快过CPU之间的……我不确定,这种不平衡的设置对天河二君的性能有什么影响。

来来来,看一眼天河二君的霸气外露的网口背板。

[-]
天河2的网口交换背板

天河的Arch-2网络背板双面都有接口,而且有不同的速率。Arch-2可以跑10Gb/s,或者14Gb/s。其中一个闪亮的RSW交换口在主板的背面,连接机架上节点组互相之间的通讯。(小编不太明白这个RSW是啥意思……给诸君赔不是)

[-]

天河2的RSW交换模块

让人看不懂的是,有几组RSW交换界面是旋转90度插在一起的——不过,PDF上就是这么画的。

[-]

8个一组的RSW交换刀片连接着4个刀片机(一共8个ARCH-2接口),看起来其他的4个几口是用来连接576口的主干交换机的,实现与主干连接的硬件层叫做 LSW刀片机,看上去就是这个样子:

[-]
天河2的LSW交换机刀片

Arch-2由13个576口的怪兽交换机组成,看来有用到不少的LSW交换机。这些交换机用的是国防大学自己的开发的光纤技术和自有知识产权的传输协议。和所有的超级计算机一样,布线看上去整齐如麻,特别是你要把16,000个节点连起来的时候。

[-]

In China, presumably they call a tangle of cables noodles, not spaghetti(不是我不敬业,这句我吐槽不来……)

我真想改行卖光纤网线啊。

一些天河2的技术细节在此(PDF


补充侦查一侧,对于超算用户来讲,好像很实惠啊……
[-]

本文译自 theregister,由译者 Junius 基于创作共用协议(BY-NC)发布。


给这篇稿打赏,让译者更有动力
支付宝打赏 [x]
您的大名: 打赏金额:

0.0
赞一个 (4)

TOTAL COMMENTS: 91+1

[2] 1 »
  1. XXXXXXXXXXXXXXXXXX
    @4 years ago
    2093132

    用来挖矿~~~

  2. 傻到最后后悔的呆子
    @4 years ago
    2090002

    学了车辆工程毕业,
    妹子问说,你是做什么,
    ,造车的,
    妹子有问说,那你肯定会修车吧
    ,,,尼玛我连轮胎都没换过。。。

  3. 2089694

    申请用来挖比特币吧

  4. 2089352

    在中国,他们可能把那团叫做面条,不是意大利面。

  5. movemove
    @4 years ago
    2089344

    日,好便宜的收费标准!!!1000cpu的相当于才400元/小时,哥随便做个共聚焦激光扫描显微镜(CLSM),一小时就得500了!一套CLSM也就两三百万,一个天河2号的攒机成本不得好几千万啊!

  6. 2089114

    @Shalarhdon: 放屁,我们学校大把模拟项目排不上时间的,排队都到半年后去了,还闲置,现在超算资源紧缺得要死。

  7. 别傻了
    @4 years ago
    2089104

    游戏渲染不是一个简单的事情,当年雷神3出来的时候最好的评价就惊叹一声“哇,真的看到曲线了!”
    如果游戏公司肯花钱,当然可以排队使用超算了。

  8. 呵呵呵?
    @4 years ago
    2088894

    能用来打使命召唤吗?!是不是进游戏就自动通关了。

  9. sadpho
    @4 years ago
    2088828

    @Shalarhdon: 作为”政府部门“人士,你应该在抱怨三公消费,而不是对技术开发投资说三道四.

  10. 2088736

    @Shalarhdon: 别出来装思想独特了好不,网络装逼犯最容易被人耻笑

  11. 2088720

    @柚子: 看来我们这些海外五毛和网评员真的很过分啊,强烈要求发工资

  12. 王五
    @4 years ago
    2088682

    这东西总会有点用的,虽说用处有点杂(宣传搞面子+各类技术研究+….)
    要是说这东西没用那拿你家的玩玩天文预测吧?

  13. wallace
    @4 years ago
    2088678

    说超算无意义的,明显是为了喷而喷~
    明朝也有好多人觉得发展航海没用~

  14. yzhu33
    @4 years ago
    2088648

    @柚子: 不爱看别看没人把你眼睛掰开逼你看

  15. 柚子
    @4 years ago
    2088450

    自从网评员成建制并且成熟以来,再加上一些优越感爆棚的SB自干五,煎蛋、网易的评论都没法看了。

    [6] XX [11] 回复 [0]
  16. panxuan
    @4 years ago
    2088448

    74楼,ivy10年之后还有意义?那我的GTX260+显卡卖你好了……

  17. panxuan
    @4 years ago
    2088442

    楼上说企业财务管理分配…别笑死我了….

  18. thuscn
    @4 years ago
    2088392

    十年前没意义的东西十年后可能就有意义了,计算机行业谁也说不准,有些人太过固步自封了。

  19. 2088324

    老子就无语了,明明是对社会的巨大贡献,我要是在广州,妥妥的长期租。
    1024个运算单元也才410或者620。
    简直是整个城市的大脑,以后渲染动画,运算数学模型,企业财务管理分配。
    以后的云运算这个就是核心,迅雷360腾讯什么的若是连这个都看不到,就吃S去吧

  20. 数钱
    @4 years ago
    2088160

    嘿嘿~当年领导们开过会的,都知道没有啥用,但是谢学宁(就是现在被抓进去的那个)强力要求上马。

  21. samyasa
    @4 years ago
    2087824

    IT设备1.7万千瓦,总耗电3万千瓦,这个pue值1.76啦,有点高啊,照理这类耗电巨兽应该建在靠北方的寒冷地区,利用自然冷却的技术,可以降低不少pue啊

  22. 汤圆
    @4 years ago
    2087794

    GFW升级很快啊!唉,只能靠goagent,万一破了,连网都上不去肋

  23. 2087766

    龙芯,战斗力为5的渣,浪费的钱,不懂有多少亿了。

  24. 2087704

    闹了半天,还不是灯,等灯等灯~~

  25. 飞行音
    @4 years ago
    2087600

    不明觉厉!!

  26. 没什么
    @4 years ago
    2087578

    比起运算速度,更想要好网速,墙那边下东西好快的。。。

  27. CatfoOD
    @4 years ago
    2087556

    怎么回事, 中国的计算机技术, 为什么用英文写资料!

  28. 蛋疼
    @4 years ago
    2087550

    你特么说的都是什么

  29. 2087540

    @Shalarhdon:

    (1)如果您是吐槽市政府不应该投资建这个超算,因为肯定是赔本买卖,那您就老老实实地吐槽市政府就好了,不要不懂装懂地连带评论超算本身;
    (2)广州维护不起,不代表超算不值得维护;
    (3)广州没办法把它商业化,不代表超算中心没有商业化的可行性;电费本来就是超算运营成本的大头(之一),当初投资的时候怎么可能不知道……就像算买车的成本肯定要把油钱算一算。

    [15] XX [1] 回复 [0]
  30. 喷死你
    @4 years ago
    2087538

    我觉得还是挺看好中国的。要想想我们的高考77年才恢复,之前一直都各种战乱,没有好好的开展高等教育。高等教育系统持续了仅仅36年,就已经大概冲进综合科技尖端领域二线,某些领域一线了。对比欧美日等国上百年的稳定的高等教育系统,真的不错了。

    [11] XX [1] 回复 [0]
  31. oceanian
    @4 years ago
    2087528

    @Shalarhdon:

    “可惜必须用到超级计算机的行业,基本上一只手就数得过来,无非是基础物理、天体物理、大气环境、灾难预测之类的国家投入的基础科研,这些整个广东省甚至华南都基本没有;至于可能用超级计算机的行业,比如生物医药、机械、材料甚至电脑动画之类的,对他们来说用这货的性价比无比之低,用超算几乎不会在这些公司的考虑范围之内。”

    天河1号的计算任务的队列是排到半年多以后的。石油勘探,材料科学,流体力学,可以说整个现代工程行业都是建立在计算能力的基础上。中石油是如此需要大规模的计算能力,以至于他们早在天河一号立项之前,已经自己用Nvidia的GPU 自力更生搭了一套系统。你所谓的”基础研究” 只占超算任务里极小的份额。

    任务队列的排期动辄好几个月,这也是为什么不同优先级的任务,价格差别那么大的原因。

    你这种人估计也就是占了点HPC的边,就敢出来大放厥词。我当年实际参与过曙光5000的调试和测试。全世界只有美国的超算资源还算不紧缺,因为人家在TOP500里占了250多席。

    [31] XX [1] 回复 [0]
  32. 2087522

    @Shalarhdon:

    (1)“这也是为什么美日欧不搞这玩意的原因” :Top 500 前五名里面有三个是美国的,日本的机器排在第4,德国前十占了俩,啥叫美日欧不搞?

    (2)”无非是基础物理、天体物理、大气环境、灾难预测之类的国家投入的基础科研“:惯性约束核聚变用它模拟,隐形战机动力学设计用它模拟,每一项科技都是未来立国之本;再说了,为啥基础科研就不值得花钱呢?2012年三公消费是 9000 亿,不知道您有没有气不打一处来?

    (3)”至于给国外科研机构用嘛。。呵呵这可是国防科大建的计算机“:美国的泰坦(之前叫 Jaguar)中国人在用,为啥天河2外国人就不能用呢?里面又不会存放机密文件。

    (4)”于是最大的可能是在年内组装完毕,取得世界记录后就分拆成低级别的计算中心,降低成本和维护费用“:斯坦福直线加速器中心SLAC的最新一代x射线光源花了 2.5 亿刀,建出来之后几乎没有人会用这么先进的光源,是SLAC的人手把手教生物、化学、材料科学的人使用,告诉他们如何用它取得新成果。

    [30] XX [6] 回复 [0]
  33. 波波
    @4 years ago
    2087484

    如果是说钱的问题的话,我觉的大可不必恼火,和吃喝浪费,三公消费掉的几百个亿比起来,我觉的这点小钱,花 !的!狠!值!

    [17] XX [2] 回复 [0]
  34. 2087474

    知道中国近代来为什么会被白人和日本人打得屁滚尿流吗?就是有那些说几个亿维护费用的人在中国占了主导,现在世界的竞争是科技的竞争,汉芯的确是超的,龙芯不是,这个超级计算机在美国那,人家都佩服,国内一些sb什么不懂喷什么。
    中国什么时候这些人能死干净了,中国就无敌了。

    [22] XX [25] 回复 [0]
  35. 2087462

    这玩意 挖比特币 如何?

  36. Shalarhdon
    @4 years ago
    2087442

    ——————–
    既然竟有两百来人支持,就针对回复再补几句:

    1. 匿名是因为跟很多直接相关的人熟,不想露脸,信息本身没什么秘密。

    2. 我说的是“现在没找到意义”,不是说这玩意不会有意义,你能找到或建立需要用到世界顶尖超算能力还花得起钱的公司的话他们会很欢迎的,不过一个商用大电脑研究核武器什么的就算了吧那位孩纸。

    3. 我在评论中回复的两条稍微修改补进来:
    国防科大的超级计算机项目是国家资助的一个科研项目。“天河二”是广州市采购了这个项目的成果,组成了世界最快的超算中心,所以天河二不是科研项目,是商业项目,而且是广州市两级政府自掏腰包,自负盈亏的。
    同时国防科大也会在湖南组一套差一点的超算中心,湖南省出钱。 一机双卖,国防科大和Intel乐坏了。。。
    当初为什么上马这个倒也知道些,不过未经过交叉验证无法证实,就不说了,但当初决定要搞这个时的确没想好能干嘛是确定的,这本就不是政府强项。
    我此回复仅针对经济意义,政治意义您怎么说都有理。用一次的估价是猜测,是按照能收回运维成本的成本价估算,大家可以自己算一下要收支平衡得是什么成 本价(仅贷款利息一项每年就上亿了),你要赔本卖当然可以要多便宜有多便宜……
    4. 补充下信息,据说这套系统功率是3万千瓦(此贴新闻说1.7万千瓦,说3万可能是包括精密空调等设备),电费自己算。

    [11] XX [14] 回复 [0]
  37. Shalarhdon
    @4 years ago
    2087440

    228 票,来自 cool cool、邵唯满、Anita Cheuk 更多
    跟这事儿比较近,匿个名吧。

    作为给天河二找“意义”的工作相关的间接经历者,讲点你们不知道的。

    先说超算这东西NB不,按说技术指标什么的应该没什么假,最快就是最快,最大就是最大,但是建超级计算机这个东西如同盖摩天大楼,第一造出来也不代表你掌握了核心的技术,第二这东西不是美日不能建,而是建出来除了好看外,没有多大“意义” 。

    于是问题回到了“意义”上。天河二的意义在哪?很可惜,作为直接接触负责提供“意义”的政府部门的人士,我只能告诉你到现在为止,谁都没想好这货能干嘛。

    这也是为什么美日欧不搞这玩意的原因。

    采购这家伙花掉了广州市政府近30个亿,每年的维护费用至少是几个亿,每年维护这货花的钱甚至可能就接近广州市政府一年的信息化经费总预算!

    于是广州市到处在给这玩意找“意义”,可惜必须用到超级计算机的行业,基本上一只手就数得过来,无非是基础物理、天体物理、大气环境、灾难预测之类的国家投入的基础科研,这些整个广东省甚至华南都基本没有;至于可能用超级计算机的行业,比如生物医药、机械、材料甚至电脑动画之类的,对他们来说用这货的性价比无比之低,用超算几乎不会在这些公司的考虑范围之内。

    举个例子,某公司用自己的实验室做一个模拟花3天,用超算花10分钟就得,看起来提高了效率,但要用这10分钟超算的费用可能就在百万级别,之前还要有N天到N星期的调试。。。哪个公司会愿意用?

    至于那些可能用得上的基础研究,很遗憾这项目虽然科技部挂了个名,但是是交给广州市自己搞并自付盈亏的,中央连个面都没兴趣露,不可能帮你找基础研究业务并买单,即便有,中科院能绕过不到200公里之外嫡系的深圳超算中心,去找广州这个?

    而广东省那几个头牌大学都跟基础研究不沾边,同样爱莫能助;至于给国外科研机构用嘛。。呵呵这可是国防科大建的计算机。

    于是最大的可能是在年内组装完毕,取得世界记录后就分拆成低级别的计算中心,降低成本和维护费用(至少可以关一部分省点电,每年空转的耗电量都至少是大千万级的),以期吸引点用户 – 可惜即便如此,也仍然不会有多大用武之地。

    (吐个槽。。。每回想到那每年几个亿的维护费用,就气不打一处来)

    [29] XX [21] 回复 [0]
  38. Shalarhdon
    @4 years ago
    2087436

    花 30 亿买来的超级计算机,谁都没想好这货能干嘛
    http://daily.zhihu.com/story/1511

  39. 野龙
    @4 years ago
    2087432

    免费队列?看来可以弄一些开源项目上去跑跑了。。。就是不知道要轮多少个月才能轮到一次使用免费队列的机会。。。

  40. 但丁
    @4 years ago
    2087428

    我一直想知道,这些超级计算机,究竟算是组装机还是品牌机呢?

[2] 1 »

发表评论


24H最赞