重新思考如何训练 Diffusion 模型

在探索了扩散模型采样、参数化和训练的基础知识之后,我们的团队开始研究这些网络架构的内部结构。请参考 生成式 AI 研究聚焦:揭开基于扩散的模型的神秘面纱 了解更多详情。 结果证明这是一项令人沮丧的练习。任何直接改进这些模型的尝试都会使结果更加糟糕。它们似乎处于微妙、微调、高性能的状态,任何更改都会破坏平衡。虽然通过彻底重新调整超参数可以实现好处,但下一组改进将需要重新经历整个过程。 如果您熟悉这种繁琐的开发循环,但您不直接使用扩散,请继续阅读。我们的研究结果针对大多数神经网络及其训练背后的普遍问题和组件。 我们决定打破这个循环,回顾一下基础知识。为什么架构如此易碎?网络中是否存在破坏训练进程的未知现象?我们如何使其更加稳健?归根结底:由于这些问题,我们目前还剩下多少性能? 我们最近的论文 分析和改进扩散模型的训练动力学 中报告了我们的研究结果和细节。


这是一个从 https://developer.nvidia.com/zh-cn/blog/rethinking-how-to-train-diffusion-models/ 下的原始话题分离的讨论话题