高性能计算机体系结构的研究
高性能计算机体系结构的研究
学 院: 计算机与通信学院
专 业: 计算机应用技术
姓 名: 贺 言 君
学 号: [1**********]1
日 期: 2012年10月27日
摘要: 高性能计算(HPC )是一个计算机集群系统,它通过各种互联技术将多个计算机系统连接在一起,利用所有被连接系统的综合计算机能力来处理大型计算问题。它的的基本原理就是将问题分为若干部分,而相连的每台计算机(称为节点)均可同时参与问题的解决,从而显著缩短了解决整个问题所需的计算时间。高性能计算机的研制水平受探求复杂的物理世界与人类社会本身的应用计算需求的驱动及研制者所处环境及当时的可选择的实现技术的影响。本文主要介绍了高性能计算机的体系结构,同时,对高性能计算机的历史和发展方向也做了简单的介绍与分析。
关键字:高性能计算机;集群;体系结构
正文
1. 高性能计算机的历史回顾
最早的电子计算机就是为了能够进行大量繁琐的科学计算而产生的。从1960年开始,计算机技术逐渐成熟,在各种商业领域慢慢地开始采用电子领域,而且应用范围越来越广泛,逐渐出现了针对各种不同商业用途的计算机,被称为“通用计算机”,具有性能和功能上的优势的一类计算机被称为“高性能计算机”,在当时主要用于科学计算。
20世纪70年代出现的向量计算机可以看作是第一代的高性能计算机。 20世纪80年代初期,随着VLSI 技术和微处理技术的发展,向量机一统天下的格局逐渐被打破。通过多个廉价的微处理器构建的并行化超级计算机首先从成本上具有了无可比拟的优势。
20世纪90年代初期,大规模并行处理(MPP )系统成为了高性能计算机的发展主流。MPP 主要通由多个微处理器通过高速互联网络构成,每个处理器之间通过消息传递方式进行通讯和协调。
20世纪90年代中后期,CC-NUMA 结构问世,即分布式共享内存。每个处理
器节点都可以访问到所有其他节点的内存,但访问远程内存需要的延迟相对较大。CC-NUMA 本身没有在提高性能上进行较大的创新,而对于科学计算任务,CC-NUMA 是否优于MPP 仍存在争议。
在发展CC-NUMA 的同时,集群系统(cluster )也迅速发展起来,类似MPP 结构,集群系统是由多个微处理器构成的计算机节点,通过高速网络互联而成,节点一般是可以单独运行的商品化计算机。由于规模经济成本低的原因,集群系统更具有性能/价格比优势 电子计算机在诞生之初主要就是为科学计算服务的。到 1960 年代,随着技术的成熟,计算机开始走向各种商业领域的应用,并且应用范围越来越广泛。因此,为了有别于“通用计算机” ,专门针对科学计算进行优化设计的计算机开始被称为“高性能计算机” ,或简称 HPC。 可以把 1970 年代出现的向量计算机看作是第一代的高性能计算机。 通过在计算机中加入向量流水部件,可以大大提高科学计算中向量运算的速度,其中比较著名的有 CDC 系列、CRAY 系列、NEC 的 SX 系列向量机。中国有代表性的是银河一号及中科院计算所的 757计算机。 80 年代初期,随着 VLSI 技术和微处理器的技术的发展,向量机一统天下的格局逐渐被打破。 通过多个廉价的微处理器构建的并行化超级计算机首先从成本上具有了无可比拟的优势。 “性能/价格比”而非单一性能成为衡量高性能计算机系统的重要指标。按照摩尔定律速度发展的微处理器的性能快速超越传统向量机。1990 年代初期,大规模并行处理(MPP )系统已经开始成为高性能计算机发展的主流。
MPP 主要由多个微处理器通过高速互联网络构成,每个处理器之间通过消息传递的方式进行通讯和协调。比较有代表性的有 TMC 的 CM-5, Intel Paragon 等。中国的第一个 MPP 系统是计算所国家智能机中心的曙光 1000 计算机。
较 MPP 早几年问世的对称多处理机SMP 系统, 是由数目相对较少的微处理器共享物理高性能计算机研究的现状与展望 内存和 I/O 总线形成的计算机系统(国内最早基于微处理器的SMP 为曙光1 号)。和 MPP 相比,早期的 SMP 扩
展能力有限,并不具有很强的计算能力。但由于 SMP 与单机系统兼容性好,是单机系统的升级与增强,被广泛应用于商业计算领域。
1990 年代中后期的一种趋势是将 SMP 的优点和 MPP 的扩展能力结合起来,这一趋势发展成后来的 CC-NUMA 结构,即分布式共享内存。每个处理器节点都可以访问到所有其它节点的内存,但访问远程内存需要的延迟相对较大。代表性的系统有 Sequent NUMA-Q, SGI-Cray Origin 等, 国内的神威与银河系列等。CC-NUMA 本身没有在提高性能的角度上进行较大的创新,主要优点是便于程序的开发和与 SMP 的兼容性。而对科学计算任务CC-NUMA 结构是否优于 MPP 系统仍存在争议。 在发展 CC-NUMA同时,机群系统(Cluster )也迅速发展起来。类似 MPP 结构,机群系统是由多个微处理器构成的计算机节点通过高速网络互连而成。 节点一般是可以单独运行的商品化计算机。由于规模经济成本低的原因,机群系统具有比 MPP 更高的性能/价格比优势。 机群系统还继承 MPP 系统的编程模型, 更进一步加强其竞争优势。 代表性的系统是 IBM SP2,国内有曙光 3000,4000 等系列。到 2000 年初机群实际上已经构成了高性能计算机系统的主流。据 2003 年的统计,TOP500 中的 MPP(含 CC-NUMA)占 42%,Cluster 占 29.8%。MPP 取代向量机和机群逐步替代 MPP 这两个进程的背后都是摩尔定律在起作用。高性能计算机体系结构的创新必须与半导体技术和产业发展相结合,否则很难变成主流技术,这也是 SIMD 系统、阵列机、数据流等新型体系结构没有流行起来的主要原因。
2. 高性能计算机的体系结构
1 高性能计算机体系结构
对于服务器而言,单纯地提高单个处理器的运算能力和处理能力正在变得越来越难,虽然制造商从材料、工艺和设计等方面进行了不懈的努力,近期内CPU 保持着高速的增长势态,但高频之下的高功耗所引起的电池容量问题和散热问题等负面效应,以及这些负面效应对整机系统产生的电磁兼容性问题,又反过来将
CPU 运算能力的提升推到了暮年.显然,提高单个处理器速度和性能已是强弩之末.而研发多个CPU 的并行处理技术,才是真正提高现代服务器处理能力和运算速度的有效途径.目前,由图SIMD 技术、Single Proc 技术、Const 技术已经不再使用,并行处理技术主要有SMP 技术、NUMA 技术、集群技术和网格技术等. 根据2006年对排行前500名的机器作TOP500统计,TOP500中的Cluster 约占70.8%,MPP(含CC —NUMA) 约占22%,而SMP 约占7.2%.
1.1 SMP技术
对称多处理(symmetrical multiprocessing ,SMP) 技术是相对非对称多处理技术而言的、应用十分广泛的并行技术.在这种架构中,多个处理器运行操作系统的单一复本,并共享内存和一台计算机的其它资源.所有的处理器都可以平等地访问内存、I /0和外部中断.系统资源被系统中所有CPU 共享,工作负载能够均匀地分配到所有可用的处理器之上.目前,大多数SMP 系统的CPU 是通过共享系统总线来存取数据,实现对称多处理的.在SMP 系统中增加更多处理器的两个主要问题是系统不得不消耗资源来支持处理器抢占内存,以及内存同步.
1.2 NUMA技术
在非一致访问分布共享存储技术(non uniformmemory access,NUMA)体系结构中,每个处理器与本地存储器和高速缓存相连,多个处理器通过处理器、存储器互联网络相连.处理器还通过处理器、I /O 网络访问共享的I /O 和外围设备.至于处理器之间的通信则通过可选的处理器之间的通信网络来实现.NMUA 技术在科学与工程计算领域具有不可替代的地位,在联机事务处理(OLTP)、决策支持服务(DSS)和Intranet 以及Internet 中的地位也越来越重要.目前,NUMA 并行机的处理器数目可达到512个,且带宽可随处理器数目基本上呈线性扩展.这样大的处理器数,使单一系统映像的NUMA 机足以覆盖绝大多数的应用.首先,由于它具有与SMP 相同的编程模式,因此在科学与工程计算领域具有不可替代的地位;其次,由于它具有共享内存和良好的可扩展性优势,可以适应企业数据中心的多种应用.NUMA 系统能够运行世界上一些最大的UNIX 数据库应用,而且正被广泛接受为电子商务的主流技术,包括处理功能强大、I /O 的大规模可扩展性、高可用性、
工作负荷和资源管理的广泛灵活性,而且无需改变SMP 编程模型等优越技术.
1.3 Cluster技术
集群(Cluster)技术是近几年兴起的发展高性能计算机的一项技术.它是一组相互独立的计算机,利用高速通信网络组成一个单一的计算机系统,并以单一系统的模式加以管理.其出发点是提供高可靠性、可扩充性和抗灾难性.一个集群包含多台拥有共享数据存储空间的服务器,各服务器通过内部局域网相互通信.当一台服务器发生故障时,它所运行的应用程序将由其它服务器自动接管.在大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内的任一系统上运行的服务都可被所有的网络客户使用.采用集群系统通常是为了提高系统的稳定性和网络中心的数据处理能力及服务能力.
1.4 网格技术
网格技术有可能成为实现Petaflops 的另一条途径.网格是近年来计算机体系结构发展的一个重要方向,其基本思想是通过Internet 进行资源共享和协同工作.目前连接到Internet 的计算机已经达到1亿台以上,通过互联网可能达到的聚合计算潜力是不可估量的.国际上已经有Globus 等组织为网格环境制定标准和参考实现.但是用网格技术实现PetafloPs 仍需要关键技术上的突破:一方面互联网连接的速度和带宽仍有待提高,近年来,网络通信技术以超摩尔定律的速度高速增长,已经为此提供了可能,达到实用阶段只是时间问题.另一方面是有效的网格体系模型和计算模型还没有建立.网格的资源是分散和动态的,计算也是一种分散的、动态的过程。传统的并行共享内存或消息传递程序模式不能直接有效地利用, 如何科学计算高效使用网格的计算能力是当前一个主要的研究方向.
2 现状
目前,世界上最快的超级计算机 Earth Simulator 的实际计算速度是 35T flops ,即 35 万亿
次。对高性能计算机研究的下一个挑战是 1Petaflops,即千万亿次计算。
预计 Petaflops 计算机将由 10000~1000000 个处理器、10TB~1PB主存、1PB~100PB在线
存储、100PB 以上离线存储构成。第一个系统实现将在 2010 年前完成。如何达到千万亿级,
是继续依靠摩尔定律的发展,还是在体系结构或者构件技术上找到新的突破,现在还是一个
悬念。
2.1 高性能计算机体系结构的研究
目前高性能计算机体系结构的主流仍然是 MPP 和机群技术的进一步发展, 通过将更多的
处理器连接起来构建更大规模的并行系统。 其中最具代表性的就是美国能源部的ASCI 计划,
分别由 Intel、SGI 、IBM 、HP 等构建超大规模的机群系统,其中 HP ASCI Q 共有 8192 个处
理器,20Tflops 的峰值。ASCI 计划原计划 2004 年达到 100Tflops。
日本 NEC 的 Earth Simulator 结合了向量处理技术和 MPP 的技术,利用带向量部件的节
点构建 MPP 系统,不但取得了 Top500 峰值第一位,而且实际应用运行效
率也比较高。美国
的 Cray X1 系列也采用了类似的结构。IBM 计划在 2000 年~2005 年,每年花费 1 亿美圆研究经费,以便最终建造出用于生物计
算的 petaflops 级机器。2002 年该项目中的 Bluegene/L结构设计已经确定,预计峰值计算速
度 360Tflops。Bluegene/L 的设计中没有采用传统的高功耗的高端处理器,而是采用了低功
耗的 SOC 芯片。IBM 将这种技术称为 cellular 结构。虽然每个处理器性能并不很高,但是
可以通过增加系统中的处理器数量来达到高的峰值计算能力。 Bluegene/L共有65536个节点,
计划中的 BlueGene/C 处理器个数可能达到 100 万个。
美国 Stanford 大学的Streaming SuperComputer 计划, 尝试采用专门设计的streaming 处理
器来构建超级计算机。一个 Streaming 节点中集成了 128个 1GHz 的 FPU,一个背板支持 32
个节点,32 个背板就可以达到 PetaFlops,而预计成本只有4 千万美元。Streaming 技术最初
的思想来源于专用游戏机的设计中。现有科学计算应用是否能有效移植还有待研究。美国 NASA支持的 HTMT(Hybrid Technology Multi -threaded)采用了另一条不同的路线。
HTMT 试图避开摩尔定律,采用了超导逻辑、光交换、全息存储,PIM 等等全新的技术,
其核心处理单元SPELL 的频率可达100GHz, 而主要设计挑战是能够满足这样高速处理器的
存储体系。 HTMT 原计划在 2006 年左右达到 1Pflops, 但此计划研制费用极高, 技术风险大,
因此很有可能再次让位于摩尔定律。
网格技术有可能成为实现 PetaFlops 的另一条途径。 网格是近年来计算机体系结构发展的
一个重要方向,其基本思想是通过 Internet 进行资源共享和协同工作。目前连接到 Internet
的计算机已经达到 1 亿台以上,通过互联网可能达到的聚合计算潜力是不可估量的。国际上
已经有 Globus 等组织为网格环境制定标准和参考实现。但是用网格技术实现 petaflops 仍需
要关键技术上的突破:一方面互联网连接的速度和带宽仍有待提高,近年网络通信技术以超
摩尔定律的速度高速增长已经为此提供了可能,达到实用阶段只是时间问题。另一方面是有
效的网格体系模型和计算模型还没有建立。网格的资源是分散和动态的,计算也是一种分散
的、动态的过程,传统的并行共享内存或消息传递程序模式不能直接有效的利用。如何使科
学计算高效使用网格的计算能力是当前一个主要研究方向。
2.2 增强高性能计算机功能与特征的研究
Berkeley 的 ROC(Recovery Oriented Computing) 项目中提出未来峰值不是高性能计算机
面临的主要问题,相反,如何将硬件、软件故障,包括人为失误考虑在内,真正提高系统的
可用性是一个挑战。为此 ROC 项目研究了一系列通过硬件和软件的进行故障监测、故障屏
蔽、故障注入、故障恢复等技术方法。
USC 的 PAMA (Power Aware MultiProcessor Architecture) 则关注高性能计算中的功耗问
题, 其开发的实验平台可以监测到系统中实际的功率消耗,并通过结合应用程序动态调整处
理器的功率(可在 102
的范围内内调整) ,从而达到减少总功耗的目的。
美国的 LANL实验室在高密度计算研究项目中,设计了一个可以在 1 立方米放下 240 个
处理器的 beowulf 机群系统。其主要技术是刀片式 (blade) 结构,通过简化处理器主板的设
计,可以在更少的空间内放入更多的处理器,从而达到高的性能/空间比。
Processor in Memory (PIM )也是近年来研究比较多的一个方向。其基本思想是一方面处
理器主频提高和内存访问速度之间的差距不断增大, 另一方面芯片内计算逻辑相比于存储占
用的晶体管面积只有很小一部分,因此将部分处理功能集成到 Memory 中,可以提高存储器
的利用效率,同时增加并行处理的能力。这方面的研究有 IRAM、Imagine 、FlexRAM 、DIVA 等项目。
MIT 的 RAW 项目与 PIM的思想有些相通, 通过在一个芯片中加入多个嵌入式处理器和
互联网络,来更有效利用芯片内部的功能单元,并且可以通过动态调整改变功能单元、通道
和输出管脚的分配和联结,最大限度发挥单位面积硅的计算能力。有观点认为 RAW 将是未
来处理器芯片的主要模式。
与 RAW 类似的是可重构计算的研究。通过利用 FPGA等复杂的现场可编程逻辑器件,
可以根据应用的特点动态改变芯片的内部结构,从而得到较高的性能。通常把这种可重构的
单元称为 RPU。 RPU 的有效性在很多实际应用中得到验证。一些研究项目如 DISC、
MATRIX 、BRASS 等集中于探讨如何结合 CPU 和 RPU 功能的新型体系结构。随着芯片集
成度的进一步提高,可编程逻辑器件计算的能力也将不断加强,可重构计算有可能最终打破
原有高性能计算中硬件/软件的分界线。
随着 ASIC和复杂可编程逻辑器件技术的普及,专用计算机(special purpose computer)的
研制也逐渐在高性能计算领域占据重要的地位。如日本 RIKEN 高性能计算中心研制的分子
动力学模拟专用计算机 MD-GRAPE系列的峰值速度甚至超过同时代最快的通用计算机, 其
中的 MDM 在 2001 年就达到 78Tetaflops 的峰值。而研制中的” Protein Explorer ” 很可能会成
为世界上第一个 Petaflops 的系统。
2.3 高性能计算机构成器件的研究
微处理器仍是高性能计算机的核心技术。目前的微处理器技术已经开始向单芯片多核心
(如 IBM Power4)和单芯片多线程(如 Intel Pentium4)以及 SoC 等方向发展。单个芯片的
处理能力还会进一步提高。 SONY公司的计划中 PS3 单芯片到 2005 年将达到 1Tflops 的处理
能力。但由于 10 年之内摩尔定律继续有效,芯片集成度和频率每 18 月翻番,导致芯片的功
耗问题日益显著。最高端的微处理器功耗可达几十甚至上百瓦,使得系统散热成为不可忽视
的问题。
芯片之间的互联也因为信号频率的提高成为一个突出的问题。使用铜线连接的脉冲信号
传输受寄生电阻、电容、电感的影响,而且频率越高这种影响越大。尽管当前主流 CPU主
频已经达到 2Ghz,但板级的并行总线互联仍限制在 800Mhz 以内。
光互联有可能成为最终的互联解决方案。相比于铜线连接光互联具有高带宽、长距离、
低损耗等特点。而基于表面发射激光的 VCSEL 技术已经成功的将半导体技术和激光技术结
合起来。主机之间的光互联已经广泛应用,主板之间光互联也发展成熟,基于光波导的板内
互联技术也在实验之中。
光互联应用到高性能计算机的主要问题是成本,这是因为 VCSEL 技术还只能用于 GaAs
等半导体工艺,不能和 CMOS 直接结合。一旦这方面技术取得突破,光互联必将进入计算
机系统的内部。
全光交换技术近年来在骨干通信网络中已经开始采用。传统的集中式电路交换技术受电
信号之间交叉干扰和电信号频率的限制,其进一步大容量扩展受到限制,目前主流技术在
Tb/s 的量级已经很难提高。而光传输没有串扰和带宽限制,因此全光交换的潜力远远超过电
交换的极限。目前已经有基于微机电系统(MEMS)技术的 1000 路自由空间光交换实验系统。
全光交换系统的发展将进一步为高性能计算机的动态系统互连提供支持。
随着网络技术的发展,网络化的器件也成为高性能计算机的一部分。突出的例子就是网
络存储的发展。一个计算机系统中不需要有专用的存储设备,只要拥有网络接口,就可以通
过网络访问远程的共享存储服务。 网络存储服务把一类功能相同的器件集中管理起来并通过网络对外提供服务。这是一种网格化的方式。构成计算机系统的其他器件如 CPU、Memory
等是否也可以采用同样的方式分解、集中和重组,是当前研究的一个新的方向。
3. 高性能计算机的发展方向
计算机体系结构最新进展及发展趋势
高性能计算(high performance compute,HPC) 是一个计算机集群系统,它通过各种互联技术将多个计算机系统连接在一起,利用所有被连接系统的综合计算能力来处理大型计算问题.高性能计算方法的基本原理就是将问题分为若干部分,而相连的每台计算机(称为节点) 均可同时参与问题的解决,从而显著缩短了解决整个问题所需的计算时间.解决大型计算问题需要功能强大的计算机系统,随着高性能计算的出现,使这一类应用从昂贵的大型外部计算机系统演变为采用商用服务器产品和软件的高性能计算机集群.因此,高性能计算系统已经成为解
决大型问题计算机系统的发展方向.
2 高性能计算的发展方向
2.1 混合体系结构已成为HPC 发展的趋势
建在东京技术研究所的TSUBAME 采用的就是混合体系,除了使用10368个AMD 双核Opteron 外,360块加速卡为系统贡献了24%的性能,仅增加了1% 的功耗.而IBM 将在2008年完成的名为RoadRunner 的1600万亿次HPC 中,总共采用了16 000个Opteron 和Cell 两种不同架构的处理器.可以说,多核微处理器和面向领域的混合体系结构已成为HPC 发展的趋势.
2.2 集群将成为超级计算系统的主流
集群架构的超级计算系统,特别是以采用普通商用芯片和内联技术组成的所谓“贝奥伍尔夫集群(Beowulf Cluster)”系统,在近几年获得突飞猛进的发展,迅速成为目前高性能计算架构的主流.在最新的全球500强排名上,确实已有超过70%的系统属于集群系统.它大受欢迎的主要原因在于其经济有效性和公开性,与MPP 的不同之处在于,它一般采用廉价的普通IA 服务器为运算节点,小规模的系统一般用以太网进行内联,规模大一点的和性能要求较高的系统多采用InfiniBand 、QsNET 或Myrinet 作为内联网络,外加免费的、公开的、通用的操作系统(Linux)和并行编程接口(MPI),使超级计算机的造价告别了天文数字.
2.3 基于刀片式服务器的集群架构兴起
刀片式服务器技术经历了不同的研究发展阶段,从1999~2001年最初的Blade Swich领域,及其后的体系结构(architecture)、存储虚拟化,到2004年刀片式服务器整体性能提升技术研究,再到2005年刀片式服务器的专用化研究,可以说刀片式服务器产品在多核、低功耗技术的推动下已完成从追求高计算密度的第一代刀片,发展到强调整体综合性能、高生产力的第三代刀片产品.未来的两到三年,刀片式服务器将以其高服务密度、敏捷式部署维护、全方位监控管理融合、高可扩展性、高可用性,全面取代传统的基于机架式服务器的Linux 集群
体系架构.预期基于刀片式服务器的Linux 集群架构将兴起.
2.4 集群标准化深人泛高性能计算时代
2005年9月,国内服务器厂商曙光公司把泛高性能计算时代下集群技术总结为10大标准,为Lin —ux 集群技术及应用推广打下了非常好的基础.继此之后,集群在远程/异地操作控制、一体化监控、集群负载均衡、智能机柜、异构支持、集群简易管理、集群快速部署、集群高速并行吞吐、集群安全、行业应用等方面的技术标准慢慢浮出水面,并被高性能计算行业所接受.标准化是行业应用成熟化的标志,预计集群标准技术会有更进一步的发展和普及.
2.5 虚拟计算技术在集群应用中的深层次发展
基于应用级集群虚拟计算技术不仅将带来更高的集群部件利用率,同时也会带来支持应用动态迁移、故障自动隔离、系统自动重构的高可靠集群应用环境,以及更为简洁、统一的Linux 集群管理模式.伴随Microsoft 的Virtual Server、VMware 的vMware Workstation 和Xensource 的Xen ,以及Inte1的Vanderpool 、AMD 的Pacifica 等部件级及系统级虚拟技术的兴起,预计未来几年虚拟技术在集群系统应用中将会有更深一步的发展 .
2.6 集群可信计算环境构造技术浮出水面
基于商业计算及信息化应用对集群架构的普及推动,预计基于内外网隔离、统一身份认证、访问控制、分布式入侵检测、流量分析、应用层及传输层加密传输协议、主动防护等技术催生全新的集群应用可信计算环境构造技术框架,从而使计算机获得从物理层到应用层全方位的、多层次的、立体的集群应用安全环境,为高性能计算机的商业应用打下了良好的基础. 3.1 机群系统的应用面扩大、形成产业规模市场
基于 Linux 的机群系统在下五年的使用面将进一步扩大,高性能计算机产业前景更加光明,个人用高性能计算机时代将出现。以 Beowulf PC Linux 机群为标
志,高性能计算机的门槛现在已经不再是高不可攀了。高性能计算机的普及也将使其应用面进一步扩大。除了从前的国家级战略单位以外,产业界和地方部门也可能逐步利用高性能计算机,而随着网格技术的发展和应用软件的进一步丰富,可以预见不远的将来会出现个人高性能计算的时代。由此高性能计算的战略意义和产业前景更加重要。
3.2 网格不仅影响各种应用,对计算技术也将产生巨大影响
网格作为下一代 Internet 的应用不仅影响最终用户, 同时对其它技术的发展产生巨大的影响,高性能计算机领域将首当其冲。网格作为下一代 Internet 应用,其特征是以资源共享为目标,同类资源集中,异种资源分离,资源的调用服务化,资源的使用按需分配。对于高性能计算机系统来说,资源的网格化是一种使能技术,为更大尺度的高性能计算机系统的设计提供了支持。但是不能简单的将网格和未来的高性能计算机系统等同起来。作为一种共享技术, 网格只是使现有的高性能计算资源更好的被共享使用, 而并不能增加高性能计算资源。我国的高科技发展计划一度用网格发展专项取代了新一代高性能计算机的研制, 是走入了一个误区。
4. 结论
3 结论
从高性能计算发展的体系结构分布来看,MPP 取代向量机和集群逐步替代MPP 这两个进程的背后都是摩尔定律在起作用,高性能计算机体系结构的创新必须与半导体技术和产业发展相结合,否则很难变成主流技术,这也是SIMD 系统、阵列机、数据流等新型体系结构没有流行起来的主要原因.目前,单处理器和SIMD 方式来构建高性能计算系统的方式已不复存在;MPP 仍然是HPC 结构的主流,但是
集群(尤其是SMP 集群) 将在不久的将来取代MPP 结构的主流地位.
综上所述,超级计算机正在完成一个从科研工具和实验产品到产业应用的转变,具有广阔的发展空间.但高性能计算机的发展一直面临着挑战,其巨大的计算潜力与性能始终没有被充分应用起来.效率一直是高性能计算机最为突出的关键性问题之一, 高性能计箅机实际利用效率的高可用性将成为下一阶段的研究方向.
4 机遇与挑战
高性能计算机的研制已走入发展的十字路口。美国 Illinois 大学计算机系 Daniel A.
Reed 教授曾指出: “在美国目前还没有积极的大规模体系结构和原型研究项目。简单的说,
我们目前正面临着体系结构的危机,包括软件和硬件。”这一十字路口很像 1990 年国内有
关使用微处理器构成并行系统还是用大规模集成电路自己设计向量计算机的选择。较 1990
年更困难的是当时并行机在国外已有商品化的机器供我们发展参考。 今天我们与美国人处于
同一十字路口, 我们的技术选择及产业化方面的努力有可能对国际高性能计算机的技术走向
产生较大的影响,从长远看还可能影响到低端的服务器市场。 “十年磨一剑” , 我们应庆幸
十年一遇的创新机会,争取在技术与产业化两方面都有所突破。
2002 年日本 Earth Simulator 系统取代美国获得Top 500 第一位之后,已经促使美国
认识到传统的机群/MPP 结构并不是 HPC 体系结构的终结。美国 DARPA 在 2002 年启动了
HPCS(High Productivity Computing Systems) 计划,其主要目标是为了“填
补当前基于 80
年代后期技术的 HPC 和未来的量子计算技术之间的高端计算”, 并强调性能(Performance)、
可编程性(Programmability )、可移植性(Portability )和稳固性(Robustness )。整个计
划分三个阶段,第一阶段为概念评估阶段,第二阶段到 2006 年为系统和关键技术评估阶段,
第三阶段到2010年为研发和系统实现阶段。 到2003年7月该计划的第一阶段已经基本完成,Cray 、IBM 、Sun 正式入选第二阶段。
机遇和挑战同时存在, 未来五到十年也将是中国高性能计算机技术和产业发展至关重要的时期。我国在高性能计算机方面的研究与产业化已有相当的基础,有进行重大技术创新的
条件。我国高性能计算机的市场已进入高速发展期,需求牵引将逐渐表现出对技术创新的拉
动作用。中科院计算所、国防科大及江南所已有相当的技术储备与人力资源。曙光公司、联
想集团、浪潮集团已建立有一定规模的产业化基础。国家设立新的高性能计算机发展专项不
仅可行与必要,同时时机也已经成熟。高性能计算机已进入国际的新一轮竞争,目前处于各
种新思想与新方法产生的活跃期,学术界争论很大。企业界在沿用过去学术成果不断推出低
成本的 Cluster 系统的同时,不断参与尝试用新的构成部件建立的并行计算系统,同时对目
前系统的可用性、耗电性、可管理性等进行持续性的改进与改良。设立高性能计算机专项,
抓住创新期,从计算模型与算法、部件技术与体系结构三个层次及其相互联系研究新一代的
高性能计算机系统,其收获与意义将巨大。
21