GeForce RTX 3090 上 Tensor Float 32 计算卷积的性能问题

user1875 · 2020 年12 月 29 日 02:48

RTX 3090 支持 Tensor Float 32 数据类型，在用 cublas 库进行矩阵相乘（matmul）进行运算时，开启 TF32 后，计算精度下降，性能提升了一倍多。但是在用 cudnn 计算卷积的时候，开启 TF32 和关闭 TF32 性能并没有什么不同，有没有大佬知道啥原因呢？我设置 TF32 运算的方法：cudnn 库中是把 cudnnMathType_t 设置为 CUDNN_DEFAULT_MATH ；cublas 库中是把 cublasMath_t 设置为 CUBLAS_TF32_TENSOR_OP_MATH 。