




















三层分块:Block->Tile->Slice
其中在Tile这一层会有空Tile块,不需要计算
其中Slice这一层也会有空Slice切片,不需要计算
最底层Slice切片是我们的计算核心
多级队列:负载均衡—>The work sharing mechanism in the block and slice queuesguarantee the workload balance across fleets and cores.

映射细节:

一行8个核心:7个计算核心,1个I/O核心
计算核心负责SPMV计算
I/O核心负责将结果写回内存
多个slice组合—>batch,方便DMA,并进行数据预取(单位batch),注意计算核心slice依然没有改变
利用向量寄存器,巧妙搭载msg

整个block计算完才写回,避免反复访存
向量计算器meg->reduce
利用神威RMA
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。