八核真比四核好吗手机GPU指标参数详解【详细介绍】( 二 ) _执行

在光照计算中，如果数据处理没有填满整个矢量宽度时，就会浪费矢量处理器宝贵的计算资源。在标量架构中，正执行的运算采用一种运算类型，在同一时间运行一个组件，并行处理同一任务。例如着色处理中完全由标量处理组成，在4-wide矢量架构中执行25%的任务，而在标量SIMD架构中本应执行 100%的任务。
【八核真比四核好吗手机GPU指标参数详解【详细介绍】】多个低功耗ALU!
我们再来说说USC并行任务中的独立流水线。共有16个流水线，每个流水线内部实际上存在数个执行任务的ALU 。即2个FP32 ALU，2个FP16 ALU，以及1个专用函数ALU。
为什么使用专用FP16 ALU?主要是为了节省功耗同时也是为了提高性能。与FP32 ALU相比，简化ALU逻辑复杂度可以较低功耗执行FP16指令组，同时可执行更多的运算，在每个时钟周期实现更高的吞吐量。稍后您就会明白。
在高级图像渲染中以较低精度计算可能需要耗费较多时间，而APIs Rogue力求在所有通用图形中支持混合精度运算，其中包括Direct3D 11，以及更常见的OpenGL ES2和ES3 APIs 。在嵌入式图形运算中没有构建混合精度计算流水线是个错误，原因是执行混合精度工作量会造成功率放大。
性能和功能
各个ALU的功能并不一样，我们来看一下每个ALU的作用，以便了解其性能：
PowerVR Series6, Series6XT和Series6XE中的FP32 ALU能够在每个时钟周期执行2浮点运算。每个USC即每个时钟周期的64 FLOP峰值。
PowerVR Series6 GPU内共有最多8个统一着色集群( USC )
PowerVR Series6 GPU中的FP16 ALU能够在能够在每个时钟周期执行最高3浮点运算，我们在Series6XE和Series6XT 改进了FP16 ALU可在每个时钟周期执行最高4浮点运算。按照不同的产品和系列，每个USC在每个时钟周期执行高达128浮点运算。升级型Series6XE和 Series6XT更为灵活，执行流水线部分运算的编译器更为容易。
PowerVR Series6XT GPU内共有最多8个Unified Shading Clusters( USC )
最后来说一下具有专用功能的ALU，ALU可处理更复杂的算法和三角运算，如正弦、余弦、对数、倒数和亲和数、标量运算。按照这些运算的性质，设置了ALU输出精度和性能。
增强ALU内核配置
现在，我已经说明从构建USC块到利用16个并行管道执行任务来说明Rogue计算架构，各个管道有较大的专用计算资源，我们按照竞争对手的方式来说明内核。每个USC包括：32 FP32 ALU内核，高达64个FP16 ALU内核、16 个USC专用函数ALU内核。
按照同样的方式将Rogue与市场竞争产品比对，ALU内核这个术语很重要，我们希望大家尽可能按这条思路来解释内核。
最后，请记住，Imagination根据不同的产品Series6, Series6XT和Series6XE设置1对多的USC 。以下为两个实例：
PowerVR G6230: 两个Series6 USC-64 FP32 ALU内核，每个时钟周期执行高达128 FLOP – 64 FP16 ALU 内核，每个时钟周期执行高达192 FLOP 。也就是按照600MHz的频率执行高达115.2 FP16 GFLOPS及高达76.8 FP32 GFLOPS 。
PowerVR GX6650: 六个Series6XT USC-192 FP32 ALU内核，每个时钟周期执行高达384 FLOP –384FP16 ALU 内核，每个时钟周期执行高达786 FLOP 。也就是按照600MHz的频率执行高达460.8FP16 GFLOPS及高达230.4 FP32 GFLOPS 。