GeForce RTX 3090 上 Tensor Float 32 计算卷积的性能问题

RTX 3090 支持 Tensor Float 32 数据类型,在用 cublas 库进行矩阵相乘(matmul)进行运算时,开启 TF32 后,计算精度下降,性能提升了一倍多。但是在用 cudnn 计算卷积的时候,开启 TF32 和关闭 TF32 性能并没有什么不同,有没有大佬知道啥原因呢?我设置 TF32 运算的方法:cudnn 库中是把 cudnnMathType_t 设置为 CUDNN_DEFAULT_MATH ;cublas 库中是把 cublasMath_t 设置为 CUBLAS_TF32_TENSOR_OP_MATH 。