多核( 二 )


多核

文章插图
英特尔®酷睿? 架构5大优势在採用同样的微架构的情况下,为了达到处理器IPC的目的,我们可以採用多核的方法,同时有效地控制功耗的急剧上升 。为什幺?看看下面的推导 。因为:“处理器功耗 正比于 核心数 x 主频 x 主频 x 主频”,“IPC 正比于 核心数”,“性能是IPC和主频的乘积”,所以:“性能 正比于 核心数 x 主频”,“处理器功耗 正比于 性能 x 主频 x 主频” 。由单核增加到双核时,如果性能保持不变,则主频只需单核的一半,处理器功耗则变为四分之一 。这是理想情况,实际上还存在主频与电压不是严格的正比关係、电容并不是常量、并行程式有额外的通信开销、顺序程式不能百分之百并行化等非理想因素,但多核处理器确实起到了同性能情况下降低功耗的作用 。由此可见,将来处理器发展的趋势是:为了达到更高的性能,在採用相同微架构的情况下,可以增加处理器的核心数量同时维持较低的主频 。这样设计的效果是,更多的并行提高IPC,较低的主频有效地控制了功耗的上升 。除了多核技术的运用,採用更先进的高能效微架构可以进一步提高IPC和降低功耗——即提高能效 。基于英特尔®酷睿? 架构的英特尔® 酷睿? 2双核处理器和至强处理器就是现实中的例子 。相比英特尔前一代的NetBurst微架构(Intel® Pentium® 4 和Pentium® D),酷睿微架构採用的英特尔®宽区动态执行引擎和英特尔® 高级数字媒体增强技术,就是提高IPC的创新技术;英特尔® 智慧型功率特性则是降低微架构功耗的技术 。一些晶片的厂商指出,当处理器的频率达到某种程度后,处理器在工作量的要求会比速度的要求要大,且0.13微米所含的电晶体已很高,将来65纳米和45纳米,其1组光罩的成本会倍增 。但是,这种成本成倍的增长并不会给厂商们带来相应的收入增长 。且发热量和干扰的因素的介入使得集成度和处理器的频率已经越来越趋近于一个极限 。因此,使摩尔定律失效的有可能是技术,有可能是经济效益 。处理器实际性能是处理器在单位时间内所能处理器指令数的总量,因此增加一个核心,理论上处理器每个时钟周期内可执行的单元数将增加一倍 。原因很简单,因为它可以并行的执行指令,含有几个核心,单位时间可以执行的指令数量上限就会增加几倍 。而在晶片内部多嵌入几个核心的难度要远远比加大核心的集成度要简单很多 。于是,多核就能够在不提高生产难度的前提下,用多个低频率核心产生超过高频率单核心的处理效能,特别是伺服器产品需要面对大量并行数据,多核心分配任务更能够提高工作效率 。可以看作一种多处理器协作的微缩形式,并且达到更加的性能价格比,一套系统达到多套系统的性能 。多核的介入,使得摩尔定律在另一个层面的意义上,避免了尴尬的局面 。从单核到双核到多核的发展就证明了摩尔定律还是非常正确的 。从单核到双核再到多核的发展,可能是摩尔定律问世以来在晶片发展历史上速度最快的性能提升过程 。"必然性上世纪八九十年代以来,推动微处理器性能不断提高的因素主要有两个:半导体工艺技术的飞速进步和体系结构的不断发展 。半导体工艺技术的每一次进步都为微处理器体系结构的研究提出了新的问题,开闢了新的领域;体系结构的进展又在半导体工艺技术发展的基础上进一步提高了微处理器的性能 。这两个因素是相互影响,相互促进的 。一般说来,工艺和电路技术的发展使得处理器性能提高约20倍,体系结构的发展使得处理器性能提高约4倍,编译技术的发展使得处理器性能提高约1.4倍 。但这种规律性的东西却很难维持 。多核的出现是技术发展和套用需求的必然产物 。这主要基于以下事实:1.电晶体时代即将到来根据摩尔定律,微处理器的速度以及单片集成度每18个月就会翻一番 。经过发展,通用微处理器的主频已经突破了4GHz,数据宽度也达到64位 。在製造工艺方面也同样以惊人的速度在发展,0.13um工艺的微处理器已经批量生产,90nm工艺以下的下一代微处理器也已问世 。照此下去,到2010年左右,晶片上集成的电晶体数目预计超过10亿个 。因此,体系结构的研究又遇到新的问题:如何有效地利用数目众多的电晶体?国际上针对这个问题的研究方兴未艾 。多核通过在一个晶片上集成多个简单的处理器核充分利用这些电晶体资源,发挥其最大的能效 。2.门延迟逐渐缩短,而全局连线延迟却不断加长随着VLSI工艺技术的发展,电晶体特徵尺寸不断缩小,使得电晶体门延迟不断减少,但互连线延迟却不断变大 。当晶片的製造工艺达到0.18微米甚至更小时,线延迟已经超过门延迟,成为限制电路性能提高的主要因素 。在这种情况下,由于CMP(单晶片多处理器)的分散式结构中全局信号较少,与集中式结构的超标量处理器结构相比,在克服线延迟影响方面更具优势 。3.符合Pollack规则按照Pollack规则,处理器性能的提升与其複杂性的平方根成正比 。如果一个处理器的硬体逻辑提高一倍,至多能提高性能40%,而如果採用两个简单的处理器构成一个相同硬体规模的双核处理器,则可以获得70%~80%的性能提升 。同时在面积上也同比缩小 。4.能耗不断增长随着工艺技术的发展和晶片複杂性的增加,晶片的发热现象日益突出 。多核处理器里单个核的速度较慢,处理器消耗较少的能量,产生较少的热量 。同时,原来单核处理器里增加的电晶体可用于增加多核处理器的核 。在满足性能要求的基础上,多核处理器通过关闭(或降频)一些处理器等低功耗技术,可以有效地降低能耗 。5.设计成本的考虑随着处理器结构複杂性的不断提高,和人力成本的不断攀升,设计成本随时间呈线性甚至超线性的增长 。多核处理器通过处理器IP等的复用,可以极大降低设计的成本 。同时模组的验证成本也显着下降 。6.体系结构发展的必然超标量(Superscalar)结构和超长指令字(VLIW)结构在高性能微处理器中被广泛採用 。但是它们的发展都遇到了难以逾越的障碍 。Superscalar结构使用多个功能部件同时执行多条指令,实现指令级的并行(Instruction-Level Parallelism,ILP) 。但其控制逻辑複杂,实现困难,研究表明,Superscalar结构的ILP一般不超过8 。VLIW结构使用多个相同功能部件执行一条超长的指令,但也有两大问题:编译技术支持和二进制兼容问题 。处理器未来的主流套用需要处理器具备同时执行更多条指令的能力,但是从单一执行绪中已经不太可能提取更多的并行性,主要有以下两个方面的原因:一是不断增加的晶片面积提高了生产成本;二是设计和验证所花费的时间变得更长 。在处理器结构上,更複杂化的设计也只能得到有限的性能提高 。对单一控制执行绪的依赖限制了多数套用可提取的并行性,而主流商业套用,如线上资料库事务处理(Online Database Transaction)与网路服务(如Web伺服器)等,一般都具有较高的执行绪级并行性(TLP,Thread Level Parallelism) 。为此,研究人员提出了两种新型体系结构:单晶片多处理器(CMP)与同时多执行绪处理器(Simultaneous Multithreading,SMT),这两种体系结构可以充分利用这些套用的指令级并行性和执行绪级并行性,从而显着提高了这些套用的性能 。从体系结构的角度看,SMT比CMP对处理器资源利用率要高,在克服线延迟影响方面更具优势 。CMP相对SMT的最大优势还在于其模组化设计的简洁性 。複製简单设计非常容易,指令调度也更加简单 。同时SMT中多个执行绪对共享资源的争用也会影响其性能,而CMP对共享资源的争用要少得多,因此当套用的执行绪级并行性较高时,CMP性能一般要优于SMT 。此外在设计上,更短的晶片连线使CMP比长导线集中式设计的SMT更容易提高晶片的运行频率,从而在一定程度上起到性能最佳化的效果 。总之,单晶片多处理器通过在一个晶片上集成多个微处理器核心来提高程式的并行性 。每个微处理器核心实质上都是一个相对简单的单执行绪微处理器或者比较简单的多执行绪微处理器,这样多个微处理器核心就可以并行地执行程式代码,因而具有了较高的执行绪级并行性 。由于CMP採用了相对简单的微处理器作为处理器核心,使得CMP具有高主频、设计和验证周期短、控制逻辑简单、扩展性好、易于实现、功耗低、通信延迟低等优点 。此外,CMP还能充分利用不同套用的指令级并行和执行绪级并行,具有较高执行绪级并行性的套用如商业套用等可以很好地利用这种结构来提高性能 。单晶片多处理器已经成为处理器体系结构发展的一个重要趋势 。英特尔英特尔酷睿2双核处理器英特尔率先揭开了多核计算时代的帷幕 。酷睿?2双核处理器的横空出世不仅结束了始自 1993 年的奔腾时代,同时也诠释了整个计算和通信产业生态圈的理念演变 。酷睿2双核处理器的价值在于,它缔造了一个範围涵盖核心硬体生产商、周边硬体製造商、软体开发商、整机厂商乃至系统集成商等产业参与者的全新产业链 。对于用户来说,英特尔酷睿2双核处理器堪称有史以来最令人兴奋的个人电脑核心引擎 。根据多个独立调查组织提供的数据显示,该处理器在各种伺服器、台式机和游戏基準测试中遥遥领先于其它处理器产品——无论是让 Windows Vista 在开启了全部显示特效的状态下运行如飞,或是畅玩视觉效果惊人的三维游戏,一边听着喜欢的 APE 音乐,一边将网上下载的春节晚会节目刻录到 DVD 上——英特尔酷睿2双核处理器能够满足用户不断升级的多元需求 。英特尔酷睿2四核处理器从双核到四核,再到集成 80 计算核心、性能堪比超级计算机的原型处理器,英特尔对多核心技术的不懈探索总能够挺立于技术和产业的最前沿 。已上市的酷睿2四核处理器为通用伺服器和工作站提供了非凡的速度与回响能力——受益领域还包括追求绝对性能的数字媒体创建、高端游戏以及其它市场 。未来的多核微处理器“芥子纳须弥”原是佛门禅语(意为极微小的芥子容纳至高至大之须弥山),却在 21 世纪之初由英特尔变成了现实——由英特尔研发的、指甲盖大小的研究用处理器已可支持万亿次计算——无需太久,人们便可将超级计算机移植至桌面或掌中 。作为多核心技术的先导者,英特尔于 2007 年初煅制出了内含 80核心的可程式处理器,它提供了足以与超级计算机匹敌的强劲性能,且功耗仅 62 瓦,较大多数家用电器更低 。毫无疑问,凝聚了英特尔深厚技术积澱、创新前瞻力及精湛製程工艺的 80 核心处理器预示了计算 / 通信技术领域未来的发展趋向——它还证明,在可以预见的未来,摩尔定律定能继续驱动整个 IT 产业高速发展 。普及进入2009年,处理器已经由双核升级到四核时代,在史丹福大学召开的Hot Chips大会上,IBM、富士通、AMD和Intel等众多晶片製造商展示出其六核、八核等多核伺服器处理器出现,使得多核之战悄然到来 。新产品的诞生意味旧产品的稳定,由此看来四核伺服器已经成为市场的中流砥柱 。面对突如其来的金融风暴,即便是站在风口浪尖上的IT行业,不可避免地要同其他行业的共同面对金融危机带来的系列负面效应 。这就需要更加实际的套用方案,Nehalem至强5500晶片的发布无疑是“雪中送碳” 。如果说2009年3月31日发布之后的上半年是一个新四核市场的推广期,那幺2009年下半年是Nehalem至强全面爆发的开始 。对于企业级产品来说,伺服器也成为市场的降价“新宠儿”,英特尔彻底的宣布45纳米四核时代的普及 。伺服器产品大量的採用45纳米处理器为企业提升性能,已经不再是过渡阶段的市场,各大厂商六核、八核甚至16核处理器的产品发布带来了高端市场的争夺战 。可是对于X86市场而言,四核伺服器才是企业的首选 。针对这样的一个新品急需市场占有,老款5400系列产品市场份额下降的情况,各大伺服器厂商也是在第一时间推出升级中高端至强5500系列伺服器,由此掀开向Nehalem架构伺服器的全面普及 。至强处理2008年09月,英特尔终于按计画发布了Xeon(至强)7400处理器 。该处理器开发代号为“Dunnington”,是英特尔首颗基于x86架构的六核处理器,主要面向注重多执行绪运算的高端市场 。英特尔表示,Xeon 7400在虚拟机和资料库套用方面进行了很多最佳化 。其二级快取高达16MB,每个核心都支持虚拟化技术,其虚拟化性能跟以往产品相比提高达50% 。跟四核或双核Xeon处理器相比,六核Xeon 7400处理器的最高主频稍低 。它的最高主频仅为2.66GHz,TDP功耗和四核系列相同,为130瓦 。而2.4GHz主频的处理器也拥有不错的性能,TDP仅为90瓦 。入门级的2.13GHz处理器TDP功耗为65瓦,更适合在瘦伺服器或工作站使用 。同时,英特尔还发布了四款四核处理器 。主频最高为2.4GHz的型号拥有和六核处理器相同的32MB二级快取,TDP功耗为90瓦 。其余三款处理器频率都为2.13GHz,只以二级快取和功耗的不同来决定其性能 。其中有两款处理器的二级快取为12MB,一款为8MB 。前二者中又有一款基于低电压技术的产品,TDP功耗仅为50瓦 。作为处理器製造厂商,英特尔当然希望几家大型PC厂商能够儘快推出基于这些处理器的计算机或伺服器产品 。据悉,2008年,这些处理器的千颗单价从856美元至2729美元不等 。它们可能是在Core i7发布之前基于当前架构的最后一批“过渡产品”,但即便如此,其身上所集成的种种先进技术仍会在新的处理器上发挥余热 。