@ 2013.07.15 , 20:09

近距离看中国天河2号超级计算机

报道了一次天河2,但关于这部机器的细节还是一团迷雾,特别是升级了「ARCH」联网系统的内部细节,16,000个节点是怎么通过这个ARCH堆到一起的。但下面这些图片,稍能满足一下大家的好奇心,小编我文盲乱翻书,以飨诸位考据帝。

还有,不管怎么样,国家有天河2可以用,我还是很高兴的。

首先是天河2的主板,根据最早爆料者,Jack Dongarra的说法,国防科技大学做了一些「一体化改进」。

[-]
天河2号主板

在天河2里,两个ARCH网络接口和两枚Ivy Bridge-EP版的Xeon E5 节点(每个节点有两个CPU插座),被做在了一块板子上(虽然他们理论上,它们之间没有什么关系)。这样一个节点上,还有一枚 Xeon Phi 协处理器供左半边的节点共享,右侧有5枚Xeon Phi。左右两半电器上是分开的,完全可以分开维护。

所谓的 Arch-2 网络界面,通过PCI-Express 2.0接口,连接着搭载着Xeon E5的主板,可惜,PCIe 2.0的带宽只有 PCIe 3.0 版本的要少一半(也许Arch-3会升级到 PCIe 3.0界面,或者NUDT的实验室白板上已经有原型涂鸦了?)。每个节点上都有一个Arch-2网络界面;每节点上的3个Xeon Phi协处理器,通过PCIe 3.0界面和CPU通讯,嗯~没错Xeon Phi与CPU的谈话速度,要快过CPU之间的……我不确定,这种不平衡的设置对天河二君的性能有什么影响。

来来来,看一眼天河二君的霸气外露的网口背板。

[-]
天河2的网□□换背板

天河的Arch-2网络背板双面都有接口,而且有不同的速率。Arch-2可以跑10Gb/s,或者14Gb/s。其中一个闪亮的RSW交换口在主板的背面,连接机架上节点组互相之间的通讯。(小编不太明白这个RSW是啥意思……给诸君赔不是)

[-]

天河2的RSW交换模块

让人看不懂的是,有几组RSW交换界面是旋转90度插在一起的——不过,PDF上就是这么画的。

[-]

8个一组的RSW交换刀片连接着4个刀片机(一共8个ARCH-2接口),看起来其他的4个几口是用来连接576口的主干交换机的,实现与主干连接的硬件层叫做 LSW刀片机,看上去就是这个样子:

[-]
天河2的LSW交换机刀片

Arch-2由13个576口的怪兽交换机组成,看来有用到不少的LSW交换机。这些交换机用的是国防大学自己的开发的光纤技术和自有知识产权的传输协议。和所有的超级计算机一样,布线看上去整齐如麻,特别是你要把16,000个节点连起来的时候。

[-]

In China, presumably they call a tangle of cables noodles, not spaghetti(不是我不敬业,这句我吐槽不来……)

我真想改行卖光纤网线啊。

一些天河2的技术细节在此(PDF


补充侦查一侧,对于超算用户来讲,好像很实惠啊……
[-]

本文译自 theregister,由译者 Junius 基于创作共用协议(BY-NC)发布。


给这篇稿打赏,让译者更有动力 !
支付宝打赏 [x]
您的大名: 打赏金额:

0.0
赞一个 (4)

24H最赞