2020-08-07 矩阵相乘在 GPU 上的终极优化:深度解析 Maxas 汇编器工作原理 在从事深度学习框架的实现工作时,了解到 Nervana 有一个称为 Maxas 的汇编代码生成器项目,可以生成性能超过 nVidia 官方版本的矩阵相乘的 GPU 机器码,由此对其工作原理产生兴趣。