算力芯片的核心存储器——HBM科普

WHAT? 什么是HBM?WHERE? HBM技术特色WHY? 为什么需要HBM?HOW? HBM推动AI成功
1:什么是HBM:
HBM==High是一款新型的CPU/GPU 内存芯片(即 “RAM”),其实就是将很多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列 。先看个平面图:
中间的die是GPU/CPU,左右2边4个小die就是DDR颗粒的堆叠 。在堆叠上,现在一般只有2/4/8三种数量的堆叠,立体上最多堆叠4层.
2:HBM技术特色:到现在为止生产的只有1-2代,第3代的SPEC刚刚被定义 。
老铁们,1024位宽,带宽,靠!有没有搞错,没有,这个真没有 。
另据悉,AMD及下代显卡都会搭配4组HBM显存,等效位宽,总带宽可达/s,也就是之前宣传的TB/s级别带宽 。
这是要逆天呀!
3:为什么要HBM:
HBM 堆栈没有以物理方式与 CPU 或 GPU 集成,而是通过中介层紧凑而快速地连接,HBM 具备的特性几乎和芯片集成的 RAM一样 。
HBM 堆栈方式可以实现更多的IO数量,1024位 。
随着显卡芯片的快速发展,人们对快速传输信息(“带宽”)的要求也在不断提高 。GDDR5 已经渐渐不能满足人们对带宽的需要,技术发展也已进入了瓶颈期 。每秒增加 1 GB 的带宽将会带来更多的功耗,这不论对于设计人员还是消费者来说都不是一个明智、高效或合算的选择 。因此,GDDR5 将会渐渐阻碍显卡芯片性能的持续增长 。HBM 重新调整了内存的功耗效率,使每瓦带宽比 GDDR5 高出 3 倍还多 。也即是功耗降低3倍多!
除了性能和功耗外,HBM 在节省产品空间方面也独具匠心 。随着游戏玩家对更轻便高效的电脑追求,HBM 应运而生,它小巧的外形令人惊叹,使游戏玩家可以摆脱笨重的 GDDR5 芯片,尽享高效 。此外,HBM 比 GDDR5 节省了 94% 的表面积!
如上图所示,将原本在PCB上的GDDR5颗粒,全部集成到封装里和GPU一起 。老铁们说来个实际的尺寸图看看:好的,如下图:
那GPU+HBM的整个芯片到底有多大尺寸呢?如下: 和掌心类似 。
那用手上的HBM,做成一个显卡需要多大的PCB呢?接着上图
4:HOW? HBM推动AI成功

算力芯片的核心存储器——HBM科普

文章插图
人工智能,云计算,深度学习出现3个算力阶段
第一,早期,AI处理器架构的探讨源于学术界的半导体和体系架构领域,此时模型层数较少,计算规模较小,算力较低 。
第二,模型逐渐加深,对算力需求相应增加,导致了带宽瓶颈,即IO问题,此时可通过增大片内缓存、优化调度模型来增加数据复用率等方式解决
第三,云端AI处理需求多用户、高吞吐、低延迟、高密度部署 。计算单元剧增使IO瓶颈愈加严重,要解决需要付出较高代价(如增加DDR接口通道数量、片内缓存容量、多芯片互联)
此时,片上HBM(High,高带宽存储器)的出现使AI/深度学习完全放到片上成为可能,集成度提升的同时,使带宽不再受制于芯片引脚的互联数量,从而在一定程度上解决了IO瓶颈 。
上图为寒武纪公司的 AI ASIC设计,缓存占面积的66.7%(NBin+NBout+SB)
尽管片上分布的大量缓存能提供足够的计算带宽,但由于存储结构和工艺制约,片上缓存占用了大部分的芯片面积(通常为1/3至2/3),限制了算力提升 。
而以HBM为代表的存储器堆叠技术,将原本一维的存储器布局扩展到三维,大幅度提高了片上存储器的密度,使AI进入新的发展阶段,
HBM需要克服的2大主要问题:
1:HBM需要较高的工艺而大幅度提升了成本 。
2:大量DRAM堆叠,和GPU封装在一起,产生大量的热,如何散热是极大的挑战 。