高性能计算( 六 )


高性能计算

文章插图
曙光2000 从市场的角度来讲 , 高性能计算机是高技术、高利润而且市场份额在不断扩大的一个产业 。高性能计算机在政府部门、科研等领域的广泛套用 , 对增强一个国家的科技竞争力有着不可替代的作用 。另外 , 美国和欧洲的经验已经证明 , 企业使用高性能计算机能够有效地提高生产率 。高性能计算机的发展趋势主要表现在网路化、体系结构主流化、开放和标準化、套用的多样化等方面 。网路化的趋势将是高性能计算机最重要的趋势 , 高性能计算机的主要用途是网路计算环境中的主机 。以后越来越多的套用是在网路环境下的套用 , 会出现数以十亿计的客户端设备 , 所有重要的数据及套用都会放在高性能伺服器上 , Client/Server模式会进入到第二代 , 即伺服器聚集的模式 , 这是一个发展趋势 。格线(Gird)已经成为高性能计算的一个新的研究热点 , 是非常重要的新兴技术 。网路计算环境的套用模式将仍然是Internet/Web , 但5~10年后 , 信息格线模式将逐渐成为主流 。在计算格线方面美国大大领先于其他国家 。有一种观点认为 , 美国当前对于格线研究的支持可与其70年代对Internet研究的支持相比 , 10年后可望普及到国民经济和社会发展的各个领域 。格线与Internet/Web的主要不同是一体化 , 它将分布于全国的计算机、数据、贵重设备、用户、软体和信息组织成一个逻辑整体 。各行业可以在此基础上运行各自的套用格线 。美国开始了STAR-TAP计画 , 试图将格线扩展到全世界 。在体系结构上 , 一个重要的趋势是超级伺服器正取代超级计算机而成为高性能计算的主流体系结构技术 。高性能计算机市场的低档产品将主要是SMP(Symmetric MultiProcessor , 对称多处理机) , 中档产品是SMP、CC-NUMA(Cache Coherent-Non Uniform Memory Access , 支持快取一致性的非均匀记忆体访问)和机群 , 高档产品则将採用SMP或CC-NUMA节点的机群 。在2001年左右 , 将会出现结合了NUMA(COMA和CC-NUMA)和机群体系结构优点的混合式结构 , 称之为Cluster-NUMA(C-NUMA)系统 。可重构、可分区、可配置特性将变得越来越重要 。此外还有一种新兴的称为多执行绪(Multithreading)体系结构将用于超级计算机中 , 它的代表是Tera公司的MTA系统 , 一台8 CPU的MTA已经成功地运行在圣地亚哥超级计算机中心 。值得注意的是 , 所有厂家规划的高档系统都是机群 , 已经有厂家开始研究C-NUMA结构 。美国一直是世界上最重视高性能计算机、投入最多和受益最大的国家 , 其研究也领先于世界 。美国能源部的加速战略计算ASCI计画 , 目标是构造100万亿次的超级计算机系统、软体和算法 , 在2004年真实地模拟核爆炸;白宫直属的HECC(High-End Computing and Computations)计画 , 对高性能计算的关键技术进行研发 , 并构建高性能基础设施;Petaflops计画开发构造千万亿次级系统的技术;最新的Ultrascale计画目标在2010年研製万万亿次级系统 。日本计画将于2002年研製成40万亿次的并行向量机 。欧洲的强项则主要体现在高性能计算机的套用方面 。总的来说 , 国外的高性能计算机套用已经具有相当的规模 , 在各个领域都有比较成熟的套用实例 。在政府部门大量使用高性能计算机 , 能有效地提高政府对国民经济和社会发展的巨观监控和引导能力 , 包括打击走私、增强税收、进行金融监控和风险预警、环境和资源的监控和分析等等 。在发明创新领域 , 壳牌石油公司通过全球内部网和高性能伺服器收集员工的创新建议 , 加以集中处理 。其中产生了一种雷射探测地下油床的新技术 , 为该公司发现了3亿桶原油 。在设计领域 , 好利威尔公司和通用电气公司用网路将全球各地设计中心的伺服器和贵重设备连于一体 , 以便于工程师和客户共同设计产品 , 设计时间可缩短100倍 。对很多大型企业来说 , 採购成本是总成本的重要组成部分 。福特用高性能计算机构造了一个网上集市 , 通过网路连到它的3万多个供货商 。这种网上採购不仅能降低价格 , 减少採购费用 , 还能缩短採购时间 。福特估计这样做大约能节省80亿美元的採购成本 。此外 , 製造、后勤运输、市场调查等领域也都是高性能计算机大显身手的领域 。高性能计算机能为企业创造的价值是非凡的 , 国外的企业和用户已经充分地认识到这一点 。一个证明是 , 20世纪90年代中期以来 , 国外80%以上企业的信息主管在选购机器时考虑高性能计算机 , 而在20世纪90年代初 , 这个数字只有15% 。在国内这方面的宣传教育工作还很不够 , 没有让企业、政府和社会充分认识到高性能计算机的益处 , 从而导致了一些观念上的误解 。以往一提起高性能计算机 , 人们马上就会联想到用于尖端科学计算的超级计算机 。实际上 , 高性能计算机90%的用途是非科学计算的数据处理、事务处理和信息服务 , 它早已不是象牙塔里的阳春白雪 。随着“网路计算”和“后PC时代”的到来 , 全世界将有数十亿的客户端设备 , 它们需要连到数百万台高性能伺服器上 。高性能计算机将越来越得到产业界的认同 , 成为重要的生产工具 。此外 , 人们一直以来还有这样一个认识误区 , 认为高性能计算机是面向高新产业和服务业的 , 而传统产业(尤其是製造业)并不需要使用 。事实上 , 高性能计算机能够广泛套用于生物、信息、电子商务、金融、保险等产业 , 它同时也是传统产业(包括製造业)实现技术改造、提高生产率——“电子生产率”(e-productivity)和竞争力的重要工具 。高性能计算已从技术计算(即科学计算和工程计算)扩展到商业套用和网路信息服务领域 。的曙光2000-Ⅱ就瞄準了技术计算、商业套用和网路服务这3个领域的套用 。应该说 , 高性能计算机在国内的研究与套用已取得了一些成功 , 包括曙光2000超级伺服器的推出和正在推广的一些套用领域 , 如航空航天工业中的数字风洞 , 可以减少实验次数 , 缩短研製周期 , 节约研製费用;利用高性能计算机做气象预报和气候模拟 , 对厄尔尼诺现象及灾害性天气进行预警 , 国庆50周年前 , 国家气象局利用国产高性能计算机 , 对北京地区进行了集合预报、中尺度预报和短期天气预报 , 取得了良好的预报结果;此外 , 在生物工程、生物信息学、船舶设计、汽车设计和碰撞模拟以及三峡工程施工管理和质量控制等领域都有高性能计算机成功套用的实例 。但是总的说来 , 高性能计算机在国内的套用还比较落后 , 主要原因在于装备不足、联合和配套措施不力及宣传教育力度不够 。首先 , 国内高性能计算机的装机量明显不足 。1997年世界高性能计算机的销售额美国约为220亿美元 , 中国约为7亿美元 。美国的微机销售额约占世界市场的38% , 高性能计算机占世界的34% , 均高于其GDP所占世界份额(25%左右) 。中国的微机销售额约占世界市场的3% , 高于中国GDP的份额(2.6%);但中国高性能计算机销售额所占世界份额仅为1%左右 , 低于GDP的份额 。从另一个角度看 , 中国的微机市场接近美国的1/10 , 但中国的高性能计算机市场不到美国的1/30 。装备不足严重影响了高性能计算机套用的开发和人才的培养 , 这些反过来又影响了高性能计算机的使用和装备 。值得庆幸的是 , 随着网路化和信息化工作的深入 , 国内社会已开始意识到高性能计算机的重要性 。1999年 , 中国高性能计算机的市场销售额猛增了50%以上 。除了装备不足之外 , 我认为社会各行业、各层次的合作和配合不力也是阻碍高性能计算机套用发展的重要原因 。套用市场的扩展关键要靠联合 , 在中国高性能计算机领域 , 系统厂商、套用软体厂商与最终用户和服务商之间并没有结成有效的战略联盟 , 形成优势互补的局面 。我希望看到的是 , 曙光、联想、浪潮的伺服器 , 运行着东大阿尔派、用友、同创等厂家的软体 , 在新浪网、8848网上为各行业的用户提供各种服务 。国家正在实施一个“国家高性能计算环境”的计画 , 正朝着这方面努力 。国家863计画主题正在实施一个“国家高性能计算环境”的项目 , 计画到2000年年底在全国建设10个左右的高性能计算中心 , 这些中心将通过千兆位网路互连 。目标就是儘量让全国用户免费共享全国的计算资源、信息资源和人才资源 。这只是一个初期的项目 , 估计在2000年下半年会规划更大的项目 。值得注意的是 , 已经规划的套用包括生物信息学、数字图书馆、科学资料库、科普资料库、汽车碰撞、船舶设计、石油油藏模拟、数字风洞、气象预报、自然资源考察和远程教育等领域 。2000年5月14~17日 , 国内将在北京组织一个“亚太地区高性能计算国际会议及展览” , 届时全球二十几个国家和地区的代表以及国内外主流的伺服器厂商将参加会议 , 会议计画围绕一些课题做特邀报告:美国工程院院士、Microsoft资深科学家Gordon Bell将讨论“后PC时代:当计算、存储和频宽都免费时 , 我们面临什幺样的挑战?” , 自由软体创始人Richard Stallman 将讨论“自由软体运动及GNU/Linux” , 俄罗斯科学院院士Boris Babayan将介绍俄罗斯花了6年功夫新近发明的一种电脑晶片 , 据称它比Intel的Pentium Ⅲ和Itanium快几倍 , 而且具有安全、防病毒功能 。IBM深度计算研究所所长Pulley Blank将介绍“深蓝、基因蓝以及IBM的深度计算战略” 。从会议的内容上我们能够看出 , 高性能计算的範围已超出了高端科学计算的领域 。相信这次会议对国内高性能产业的发展将起到一定的推动作用 。此外 , 国家还有一个重大基础研究计画(也叫973项目) 。高性能计算已经成为科技创新的主要工具 , 能够促成理论或实验方法不能取得的科学发现和技术创新 。973项目中的很多项目(尤其是其中的“高性能软体”和“大规模科学计算”项目)都与高性能计算机有着密切的关係 。工作站想像一下 , 你是科研机构里的实验狂人 , 要进行一个複杂的X射线转化运算或者为下一个实体实验进行电脑仿真模拟 。如果使用普通PC , 基本无法进行;如果使用一个普通的工作站 , 至少需要数周的时间;如果使用单位里的伺服器集群 , 得出结果的运算时间并不长 , 但你需要很长的排队时间 , 因为它是公用的 。但是 , 如果你拥有一台基于GPU运算的超级计算机 , 足不出户 , 只要在自己的桌面上 , 就可以轻鬆完成这项複杂工作 , 而所用的时间 , 甚至比实验室里的大块头伺服器集群还要短 。对于国内用户来说 , 个人桌面超级运算不再是梦想 。在其工作站业务迎来10周年之际 , 方正科技宣布将在中国市场推出具有超级计算能力的高性能工作站 。其最新推出的旗舰机型美侖3400 2800 , 提供强大图形处理与高性能计算解决方案 , 採用全新英特尔“至强”处理器 , 搭载新一代NVIDIA Tesla GPU , 能实现高性能的GPU超级运算 , 从而将工作站变身为桌面型超级计算机 , 满足专业用户的高性能计算需求 。对于国内用户来说 , GPU(图形处理器)并不陌生 , 但对于GPU计算这一新兴运算方式 , 可能还不熟悉 。简单来说 , GPU计算即使用GPU(图形处理器)来执行通用科学与工程计算 。目前的CPU最多只集成了4个核心 , 而GPU已经拥有数以百计的核心 , 在高密度并行计算方面拥有得天独厚的优势 。方正科技推出的高性能计算工作站 , 使用CPU+GPU的异构计算模型 , 应用程式的顺序部分在CPU上运行 , 而计算密集型部分则由GPU来分担 。这样 , 系统计算力得到淋漓尽致的释放 , 应用程式的运行速度能够提升1-2个数量级 。GPU计算的概念一经提出 , 就在高性能计算领域掀起了一场前所未有的风暴 。在过去4年里 , 已经有累计1亿颗以上的GPU被三星、摩托罗拉等公司和哈佛、斯坦福等上百所高校研究机构套用于癌症的治疗和科研教学等多种领域 。日本最快的超级电脑也採用了GPU计算这项技术 。微软的WIN7已经融入GPU运算功能 。而下游厂商如惠普、方正、联想等也一直积极紧跟技术潮流 , 积极研发GPU计算套用产品 。NVIDIA的执行长黄仁勛曾大胆预言:“2009年是GPU引爆年 , CPU+GPU的个人运算时代已经来临 。”方正科技将GPU计算套用带入中国 , 为国内教育科研院校和机构、各大企业打造了一款桌面型高性能计算工作站 。该产品可广泛套用于生物信息及生命科学、流体动力学、大气和海洋建模、空间科学、电子设计自动化、图形成像等众多领域 。相对于传统的伺服器集群 , 方正科技推出的GPU超级计算机在性价比、占地空间、功耗等方面的优势是压倒性的 。做一个简单的算术:某大学原来用的伺服器集群拥有256颗AMD皓龙双核处理器核 , 构建成本是500万美元 , 由全校共同来使用;但如果换成4台方正美侖3400 2800高性能计算工作站 , 性能更优 , 成本只有1万美元 , 耗电能减少10倍以上 , 即使每个研究人员桌面配备一台仍然划算 。作为国内较早涉足工作站业务的民族厂商 , 方正科技在工作站领域的研发与开拓上已经走过了10个春秋 , 取得了不俗的成绩 。其工作站负责人表示 , 在10周年这个具有强烈纪念意义的时间点上 , 推出基于全新计算方式的GPU超级计算机 , 表明方正科技工作站根植客户套用需求 , 紧跟技术潮流 , 不断推陈出新的决心 。走向普及中国在高端计算机的研製方面已经取得了较好的成绩 , 掌握了研製高端计算机的一些关键技术 , 参与高端计算机研製的单位已经从科研院所发展到企业界 , 有力地推动了高端计算的发展 。随着中国信息化建设的发展 , 高性能计算的套用需求在深度和广度上都面临蓬勃发展 。高性能计算作为第三大科学方法和第一生产力的地位与作用被广泛认识 , 并开始走出原来的科研计算向更为广阔的商业计算和信息化服务领域扩展 。更多的典型套用在电子政务、石油物探、分子材料研究、金融服务、教育信息化和企业信息化中得以展现 。经过十年的发展 , 中国在高性能计算水平上已跻身世界先进水平 。企业界参与研製国内做高性能计算的企业中有三家主力厂商 , 他们是曙光、联想和浪潮 。863计画十几年来 , 曙光始终在研发过程中起着带头作用 。高性能市场中 , 曙光高性能计算机销量已超过1000套 , 在国内套用是最广泛的 。联想进入高性能市场比较晚 , 但是从其公司运作能力和市场化的能力看 , 虽然其遇到了一些困难 , 但是未来的发展潜力巨大 。而浪潮以伺服器起家 , 但在高性能方面 , 原来技术较弱 , 但是比较专一于高端商用市场 , 通过与大专院校的合作 , 发展比较快 。赛迪顾问分析师刘新在接受《中国电子报》采访人员採访时称 , 看国内高性能计算的前三名 , 曙光的整合计算、细分套用是其特点 。由于具有长期的技术积澱 , 深厚的行业背景 , 鲜明的品牌形象 , 是国内三大品牌中商业化最成功的企业 , 但面临国内、国外的双向夹击 , 发展道路坎坷不平 。而联想长期“贸工技”的战略使其可能会缺乏技术的积澱 , 做惯了PC设备供应和服务 , 在高性能计算领域显得底气不足 , 其主要市场策略依然延续PC模式 , 依靠低价等吸引用户是一大特色 。而浪潮给人的感觉是在高性能方面有点缺乏技术实力和远见 。也许有人认为 , 高性能计算离我们的实际生活还很遥远 , 但是金融、电信、税务、能源、製造等行业中的很多企事业都已经开始套用高性能计算 , 而作为普通百姓的衣食住行 , 我们在刷卡购物、打电话、听天气预报、出门坐车时也已经在享受高性能计算所带来的準确与方便 。通过采访人员的採访 , 相关厂商一致认为 , 高性能计算走向普及已是大势所趋 。这主要是由于商品化趋势使得大量生产的商品部件接近了高性能计算机专有部件 , 标準化趋势使得这些部件之间能够集成在一个系统中 。机群——未来高性能的发展方向高性能计算机的主流体系结构收缩成了三种 , 即SM、CC-NUMA、Cluster 。在产品上 , 只有两类产品具有竞争力:一是高性能共享存储系统;二是工业标準机群 , 包括以IA架构标準伺服器为节点的PC机群和以RISC SMP标準伺服器为节点的RISC机群 。当前 , 对高性能计算机产业影响最大的就是“工业标準机群”了 , 这也反映了标準化在信息产业中的巨大杀伤力 。工业标準机群採用量产的标準化部件构成高性能计算机系统 , 极大地提高了性能价格比 , 从科学计算开始逐渐套用到各个领域 。浪潮北京公司伺服器产品经理丁昱对《中国电子报》采访人员说 , 事实上 , 中国机群发展进入了一个瓶颈期 , 多数稍具技术实力的厂商都可以设计出计算速度上万亿次的高性能计算机 。可以说 , 在充足的资金前提下 , 设计一套进入全球前十名的高性能机群系统 , 并非难事 。在科学计算方面 , 唯一的问题因素是资金 。浪潮基于弹性部署理念的计算能力、数据通信、输入输出非单极最佳化的MABS体系结构 , 为高性能商用伺服器系统实现技术突破奠定了理论基础 。曙光公司天潮系列产品经理曹振南告诉《中国电子报》采访人员 , 机群的优势主要体现在更高的性能价格比 , 机群系统已经成为高性能计算机的发展方向 , 世界上TOP500排行榜的高性能计算机系统绝大多数是机群系统;更高的可扩展性 , 机群系统可以通过原有预留的扩展接口进行无缝的扩展;更高的可管理性 , 通常管理一个机群系统要比管理一个小型机系统要简单得多;更高的系统鲁棒性(健壮或强壮) , 机群系统都是採用了标準的硬体设备 , 容易採购 , 同时也较容易维护 , 有更多国内厂商支持;对套用系统的更多的支持 , 机群系统可以支持大量的作业系统并且可以支持多种作业系统 , 也支持32位和64位的软体系统 , 在机群系统上运行的软体是小型机系统的成百上千倍 。关键在套用20世纪90年代以来 , 中国在高性能计算机的研製方面已经取得了较好的成绩 , 掌握了研製高性能计算机的一些关键技术 , 参与高性能计算机研製的单位已经从科研院所发展到企业界 , 有力地推动了高端计算的发展 。中国的高性能计算环境已得到重大改善 , 总计算能力与已开发国家的差距正逐步缩小 。随着曙光、神威、银河、联想、浪潮、同方等一批知名产品的出现 , 中国成为继美、日之后第三个具备高端计算机系统研製能力的国家 , 被誉为世界未来高性能计算市场的“第三股力量” 。在国家相关部门的不断支持下 , 一批国产超级计算机相继面世 , 大量的高性能计算系统进入教育、科研、石油、金融等领域 , 尤其值得一提的是曙光4000A在全球TOP500中排名进入前十 , 并成功套用于国家格线主节点之一——上海超级计算中心 。但是 , 从总体上讲 , 中国高性能计算套用的研究与开发明显滞后于高性能计算机的发展 , 套用的并行度普遍在百十量级 , 套用到更大规模的很少(并非没有需求) 。浪潮丁昱告诉《中国电子报》采访人员 , 中国的高性能计算发展最大的障碍是品牌的障碍和套用的障碍 。这和中国高性能发展起步较慢有关係 。年限比较短 , 套用的经验比较少 。但随着国内高性能计算的快速发展 , 这方面的缺陷会得到很大改善 。但随着越来越多的用户开始採用高性能计算机 , 套用软体的发展后滞明显严重 。另外 , 一些用户对传统RISC小型机存在使用习惯和品牌偏好 , 接受Linux机群需要厂商做大量的工作 。曙光曹振南在接受《中国电子报》采访人员採访时称 , 中国高端计算套用的研究与开发明显滞后于高端计算机的发展 , 套用到大规模的很少 。高端套用软体的开发和高效并行算法的研究尚不能与高端计算机发展同步 , 在一定程度上存在为计算机“配”软体的思想 。对套用的投入远远不够 , 套用研发的力量薄弱且分散 , 缺乏跨学科的综合型人才 , 从事高端套用软体研发的单位很少 , 没有良好的、相互交流的组织渠道等 。还有就是政府在採购中依然选择国际品牌 , 缺乏对国产品牌的支持 。联想高性能伺服器事业部总经理祝明发则认为 , 中国高性能计算生存的关键在套用 。他谈到IBM、惠普、Sun等公司的高性能计算业务在商业市场的比例为90% , 而中国的高性能计算在商业计算市场开拓方面仍存在很大差距 。从来看 , 中国的联想、曙光、浪潮等厂家完全有能力做出运算速度达到40万亿次的超级计算机 , 但关键就是有没有找到套用需求 。比如 , 在科学计算中独树一帜的向量计算 , 因为成本高、商用计算能力不强而仅停留在科学计算的狭窄领域 。摩尔定律提及摩尔定律 , 作为计算机发展的第一定律一直在引领IT产业的前行 。不过随着多核技术的发展和套用 , 摩尔定律在面临挑战的同时 , 在某些领域已经被超越 。例如在日益普及的高性能计算(HPC)中 。那为何摩尔定律会首先在高性能计算领域被超越?这之中又隐含着怎样的产业趋势?首先从代表全球高性能计算水平和趋势的全球高性能计算TOP500近几年性能发展的趋势看 , 无论是最大性能(全球排名第一的系统)、还是最小性能(全球排名最后)和平均性能 , 其发展曲线的速度是基本一致的 。但与摩尔定律的发展曲线相比 , 则明显处于陡势的增长态势 。这说明这两年来 , 高性能计算性能和套用的发展速度已经超越了摩尔定律 。熟悉摩尔定律的人都知道 , 摩尔定律有三种解释 。一种是积体电路晶片上所集成的电路的数目 , 每隔18个月就翻一番;第二种是微处理器的性能每隔18个月提高一倍 , 而价格下降一半;第三种解释是用一个美元所能买到的电脑性能 , 每隔18个月翻两番 。这三种解释中业内引用最多的是第一种 。但具体到高性能计算 , 笔者更愿意用第二或者第三种来解释 。按理说 , 随着高性能计算性能的不断提升和系统的日益庞大 , 高性能计算用户无论在初期的採购搭建系统 , 还是后期的使用中的成本都会大幅的增加 , 在经济危机的特殊时期 , 高性能计算如此大的TCO会导致用户的减少和整体性能的下降才对 。但前不久发布的全球高性能计算TOP500证明 , 增长的势头未减 , 这除了市场和用户的需求外 , 更在于处理器厂商採用新的技术 , 在性能提升的同时 , 让用户以更低的成本享受到更高、更多的计算性能 。从这个意义上看 , 摩尔定律在被延续的同时也正在被超越 , 即在高性能计算领域 , 用户性能/投入比远远大于摩尔定律 。当然这主要得益于处理器製程、架构技术、多核技术、节能技术、软体最佳化和快速部署等 。例如从製程和核数上看 , 最新的全球高性能计算TOP500排名显示 , 45纳米已经占据了绝对的主流 。而多核也达到了全球TOP500的2/3 。从部署的速度看 , AMD刚刚发布不久的6核就已经有两套进入TOP500中 。而英特尔正式发布的新的Nehalem多核架构的高性能计算系统更有33套(基于这个处理器的系统)进入TOP500 , 其中有两套在TOP20里 。快速的部署给用户带来的是最新技术和性能的获得 。当然对于用户而言 , 多核并非是关键 , 重要的是如何充分发挥多核的效能 。这就需要相关的平台技术和软体最佳化 。例如在高性能计算领域 , 业内都听说过“半宽板”这个标準 。这个“半宽板”标準其实是英特尔在几年前提出的 , 半宽的小板在加高计算密度的同时 , 节约了很多复用的部件 , 在加强高性能计算的密度同时 , 配合散热的技术设计 , 可以提供更多的计算能力同时降低能耗 。这就引出了一个新的发展方向 , 即高性能计算未来发展就是能耗更多被用于计算性能的提高 , 而不是散热 。此外 , 就是SSD(固态硬碟) , 它可以在大幅提高高性能计算系统可靠性和I/O性能的同时 , 还可以降低功耗 。而软体最佳化更是高性能计算中重中之重的部分 , 编译器、函式馆以及MPI库 , 所有这些可以帮助ISV能够把多核处理器的计算性能充分发挥出来 。由此来看 , 在高性能计算领域 , 单纯的处理器已经不能满足市场和用户的需求 , 它们需要的是高性能计算平台级的解决技术及方案 。这也是为什幺在全球高性能计算TOP500开始引入能效的主要原因 。说到能效 , 笔者早就听说在业内有个与摩尔定律同样重要的“基辛格规则” 。它是以处理器业界闻名的英特尔首席技术官帕特·基辛格名字命名的 。该规则的主旨是今后处理器的发展方向将是研究如何提高处理器能效 , 并使得计算机用户能够充分利用多任务处理、安全性、可靠性、可管理性和无线计算方面的优势 。如果说“摩尔定律”是以追求处理性能为目标 , 而“基辛格规则”则是追求处理器的能效 , 这规则至少在高性能计算领域已经得到了验证 , 而它由此带来的是摩尔定律的被超越 , 即用户将会在更短的周期 , 以更低的价格获得更高的能效 。气象事业人类从人力推算到高性能计算机 , 倾注了无数人大量的心血和努力 。对于现代天气预报和气象研究工作 , 高性能计算机则占据了极其重要的位置 。气象工作离不开高性能计算机随着社会经济的发展 , 政府、社会和公众对气象预报和服务提出了更高的要求 , 特别是一些特殊气象保障任务需要预报员提供定点、定时、定量的精细气象预报和服务 。而对于现代天气预报而言 , 为确保其实施的实效性和运行的稳定性 , 必然要求建立在数值预报基础之上 , 但数值模式普遍具有计算规模巨大、高精度等特点 , 于是高性能计算机便成为了现代气象研究的中流砥柱 。数值天气预报水平的高低已成为衡量世界各国气象事业现代化程度的重要标誌 。美国国家大气研究中心与科罗拉多大学合作 , 採用了IBM蓝色基因超级计算机来仿真海洋、天气和气候现象 , 并研究这些现象对农业生产、石油价格变动和全球变暖等问题的影响 。日本科学家研製成功了代号为“地球模拟器”的超级计算机 , 其主要目的就是要提供準确的全球性天气预报 , 使各个国家和地区更好地防御暴风雪、寒流和酷暑期的到来 。我国是一个幅员辽阔的国家 , 在气候上呈现多层次、多样性、多变性等特点 , 尤其是近几年洪涝、乾旱等自然灾害比较严重 , 及时、準确的天气预报逐步受到重视 , 因此随着地区气象市场的逐步成熟 , 更高效率的高性能计算机成为了人们关注的对象 。作为国产伺服器第一品牌的曙光公司 , 一直以来就非常关注气象领域对高性能计算机的需求 。由于採用了软硬体一体化设计 , 曙光气象专用机在硬体平台上直接移植了在中尺度数值天气预报领域处于领先地位的NCA MM5系统 , 这套系统每天自动定时定点进行业务系统预报 , 从数据导入到气象绘图的整个流程自动完成 , 不需要人工干预;用户可以随时监控整个系统的运行 , 大大节约了操作的时间 。甚至不需要任何计算机系统知识的培训 , 用户就可以快速掌握整个预报系统 。而且该系统既可以作为业务预报系统 , 又可以作为气象研究和测试的平台 , 一机多用 , 用户可以根据自己的需要进行参数设定和算法调试 。系统还提供了数据保存功能 , 使得用户可以对以往一个月内不满意的预报进行重新计算和分析 , 最大限度地满足了气象部门準确及时预报的需求 。气象工作离不开高性能计算机 , 而且每隔三四年就有一次主机的更新 , 速度还要提高一个数量级 。在前10年 , 我们还只能选择国外品牌高性能计算机 , 而近几年以曙光为代表的高性能计算机已经明显提升了气象服务的综合实力 。曙光机在我国气象领域取得了非常广泛的套用 , 大大促进了中国气象科技水平的提升 , 为老百姓的日常出行和众多国家重大工程提供了强有力的保障 。从日常天气预报到大型气候研究、从陆地到海洋、从地面水文气象到太空天气等领域 , 都活跃着曙光高性能计算机的身影 。中国冠军天河一号(TH-1)全称“天河一号超级计算机系统” , 是一台由中国国防科大和天津滨海新区提供的异构超级计算机 , 名字“天河”意思为“银河” 。天河一号的作业系统为银河麒麟 。浪潮集团也参与了这一全球超级计算机的建设工作 。2010年10月 , 《2010中国高性能计算机TOP100排行榜》正式对外发布 , 经过技术升级最佳化后的“天河一号”超级计算机系统 , 以峰值性能每秒4700万亿次、LINPACK实测值持续性能每秒2507万亿次的性能再登榜首 。升级最佳化后的“天河一号” , 配备了14336颗至强X5670处理器、7168块基于Nvidia “Fermi”架构的Tesla M2050计算卡、2048颗国防科技大学研製的飞腾处理器以及5PB存储设备 。天河-1A峰值性能提高了3.89倍 , 持续性能提高了4.45倍 , 其运算速度与能效均达到当前国际领先水平 。升级后的“天河一号”的实测性能是此前全球最快的超级计算机美洲虎的1.425倍 。与诞生于一年前的“天河一号”一期系统相比 , 二期系统的峰值性能和持续性能分别提高了2.89倍和3.45倍 。其峰值速度为4700TFlops , 持续速度为2566TFlops(LINPACK实测值) , 参加2010年11月世界超级计算机TOP500排名 , 位列世界第一 。根据2014年6月份TOP500的排名 , 中国国防科大开发的天河二号连续第三次位列世界第一 , LINPACK实测速度33,862.7TFlop/s , 理论峰值54,902.4TFlop/s 。