如何解决tlt模型训练时总出现内存不足问题

情况是这样的,在tlt预训练模型上总是在训练途中报出内存不足然后停止程序
[attach]16002[/attach]
[attach]16004[/attach]
[attach]16005[/attach]
但是内存明显是足够支持使用,同时也在将允许进程内存使用率调到百分百,但是依旧没有解决问题。
已经尝试过百度上的各种解决方案,没有实际解决问题,希望早日得到解答

Error:
[attach]16006[/attach]

1.尝试将batch_size设置小一点试一下
2.这个好像是个warning,能把下面的error部分贴出来吗?

在调试的过程中,已经把ssd_train_resnet18_kitti.txt文件中的batch_size_per_gpu参数调至2甚至1,轮数10轮,但是每次都是1轮都没跑完就显示ran out of memory(如上图),我们用nvidia-smi查看gpu显存,显示的是还有还有余量(如上图)。但每次都是一训练一轮都没跑完就报错停下来。请问老师这是什么原因,并如何解决呢

在调试的过程中,已经把ssd_train_resnet18_kitti.txt文件中的batch_size_per_gpu参数调至2甚至1,轮数10轮,但是每次都是1轮都没跑完就显示ran out of memory(如上图),我们用nvidia-smi查看gpu显存,显示的是还有还有余量(如上图)。但每次都是一训练一轮都没跑完就报错停下来。请问老师这是什么原因,并如何解决呢

已重新更新了帖子,error图片在帖子里贴出

你可能是图片尺寸没统一大小