八核真比四核好吗手机GPU指标参数详解【详细介绍】( 二 )


在光照计算中,如果数据处理没有填满整个矢量宽度时,就会浪费矢量处理器宝贵的计算资源 。在标量架构中,正执行的运算采用一种运算类型,在同一 时间 运行一个组件,并行处理同一任务 。例如着色处理中完全由标量处理组成,在4-wide矢量架构中执行25%的任务,而在标量SIMD架构中本应执行 100%的任务 。
【八核真比四核好吗手机GPU指标参数详解【详细介绍】】多个低功耗ALU!
我们再来说说USC并行任务中的独立流水线 。共有16个流水线,每个流水线内部实际上存在数个执行任务的ALU 。即2个FP32 ALU,2个FP16 ALU,以及1个专用函数ALU。
为什么使用专用FP16 ALU?主要是为了节省功耗同时也是为了提高性能 。与FP32 ALU相比,简化ALU逻辑复杂度可以较低功耗执行FP16指令组,同时可执行更多的运算,在每个时钟周期实现更高的吞吐量 。稍后您就会明白 。
在高级图像渲染中以较低精度计算可能需要耗费较多时间,而APIs Rogue力求在所有通用图形中支持混合精度运算,其中包括Direct3D 11,以及更常见的OpenGL ES2和ES3 APIs 。在嵌入式图形运算中没有构建混合精度计算流水线是个错误,原因是执行混合精度工作量会造成功率放大 。
性能和功能
各个ALU的功能并不一样,我们来看一下每个ALU的作用,以便了解其性能:
PowerVR Series6, Series6XT和Series6XE中的FP32 ALU能够在每个时钟周期执行2浮点运算 。每个USC即每个时钟周期的64 FLOP峰值 。
PowerVR Series6 GPU内共有最多8个统一着色集群( USC )
PowerVR Series6 GPU中的FP16 ALU能够在能够在每个时钟周期执行最高3浮点运算,我们在Series6XE和Series6XT 改进了FP16 ALU可在每个时钟周期执行最高4浮点运算 。按照不同的产品和系列,每个USC在每个时钟周期执行高达128浮点运算 。升级型Series6XE和 Series6XT更为灵活,执行流水线部分运算的编译器更为容易 。
PowerVR Series6XT GPU内共有最多8个Unified Shading Clusters( USC )
最后来说一下具有专用功能的ALU,ALU可处理更复杂的算法和三角运算,如正弦、余弦、对数、倒数和亲和数、标量运算 。按照这些运算的性质,设置了ALU输出精度和性能 。
增强ALU内核配置
现在,我已经说明从构建USC块到利用16个并行管道执行任务来说明Rogue计算架构,各个管道有较大的专用计算资源,我们按照竞争对手的方 式来 说明内核 。每个USC包括:32 FP32 ALU内核,高达64个FP16 ALU内核、16 个USC专用函数ALU内核 。
按照同样的方式将Rogue与市场竞争产品比对,ALU内核这个术语很重要,我们希望大家尽可能按这条思路来解释内核 。
最后,请记住,Imagination根据不同的产品Series6, Series6XT和Series6XE设置1对多的USC 。以下为两个实例:
PowerVR G6230: 两个Series6 USC-64 FP32 ALU内核,每个时钟周期执行高达128 FLOP – 64 FP16 ALU 内核,每个时钟周期执行高达192 FLOP 。也就是按照600MHz的频率执行高达115.2 FP16 GFLOPS及高达76.8 FP32 GFLOPS 。
PowerVR GX6650: 六个Series6XT USC-192 FP32 ALU内核,每个时钟周期执行高达384 FLOP –384FP16 ALU 内核,每个时钟周期执行高达786 FLOP 。也就是按照600MHz的频率执行高达460.8FP16 GFLOPS及高达230.4 FP32 GFLOPS 。