ISSCC 14.5 支持浮点转置的SRAM-CIM阵列
本文提出了一种面向边缘AI训练的高性能计算内存架构,采用28nm工艺实现192.3TFLOPS/W能效。创新性包括:1)循环权重映射6T-SRAM阵列,实现阵列内权重转置和MAC电路复用;2)支持多种数据格式的数字CIM架构;3)精准/近似双模位并行MAC电路。该架构通过循环移位存储、动态激活对齐和共享运算单元,解决了传统转置CIM方案的硬件冗余问题,同时采用带符号定点尾数编码策略支持浮点运算。测试显示其FP8格式在能效和精度间取得良好平衡,为边缘设备提供了高效的训练解决方案。