fbpx
维基百科

扩散模型

机器学习中,扩散模型扩散概率模型是一类潜变量模型,是用变分估计训练的马尔可夫链[1]扩散模型的目标是通过对数据点在潜空间中的扩散方式进行建模,来学习数据集的潜结构。计算机视觉中,这意味着通过学习逆扩散过程训练神经网络,使其能对叠加了高斯噪声的图像进行去噪。[2][3]计算机视觉中使用通用扩散模型框架的3个例子是去噪扩散概率模型、噪声条件得分网络和随机微分方程。[4]

扩散模型是在2015年提出的,其动机来自非平衡态热力学[5]

扩散模型可以应用于各种任务,如图像去噪、图像修复超分辨率成像图像生成等等。例如,一个图像生成模型,经过对自然图像的扩散过程的反转训练之后,可从一张完全随机的噪声图像开始逐步生成新的自然图像。比较近的例子有2022年4月13日OpenAI公布的文生图模型DALL-E 2。它将扩散模型用于模型的先验解释器和产生最终图像的解码器。[6]

数学原理

于所有图像的空间中生成一张图像

考虑图像生成问题。令 代表一张图,令 为在所有可能图像上的機率分布。若有 本身,便可以肯定地说给定的一张图的機率有多大。但这在一般情况下是难以解决的。

大多数时候,我们并不想知道某个图像的绝对機率,相反,我们通常只想知道某个图像与它的周围相比,機率有多大:一张猫的图像与它的小变体相比,機率哪个大?如果图像里有一根、两根或三根胡须,或者加入了一些高斯噪声,機率会更大吗?

因此,我们实际上对 本身不感兴趣,而对 感兴趣。这有两个效果:

  • 其一,我们不再需要标准化 ,而是可以用任何 ,其中 是任意常数,我们不需要去关心它。
  • 其二,我们正在比较 的邻居 ,通过 

令分数函数为 ,然后考虑我们能对 做什么。

实际上, 允许我们用随机梯度朗之万动力学从 中取样,这本质上是马尔可夫链蒙特卡洛的无限小版本。[2]

学习分数函数

分数函数可通过加噪-去噪学习。[1]

主要变体

分类指导器

假设我们希望不是从整个图像的分布中取样,而是以图像描述为条件取样。我们不想从一般的图像中取样,而是从符合描述“红眼睛的黑猫”的图片中取样。一般来说,我们想从分布 中取样,其中 的范围是图像, 的范围是图像的类别(对y而言,“红眼黑猫”的描述过于精细,“猫”又过于模糊)。

从噪声信道模型的角度来看,我们可以将这一过程理解如下:为生成可描述为 的图像 ,我们设想请求者脑海中真有一张图像 ,但它经过多次加噪,出来的是毫无意义可言的乱码,也就是 。这样一来图像生成只不过是推断出请求者心中的 是什么。

换句话说,有条件的图像生成只是“从文本语言翻译成图像语言”。之后,像在噪声信道模型中一样,我们可以用贝叶斯定理得到

 
也就是说,如果我们有一个包含所有图像空间的好模型,以及一个图像到类别的好翻译器,我们就能“免费”得到一个类别到图像的翻译器,也就是文本到图像生成模型

SGLD使用

 
其中 是分数函数,如上所述进行训练,用可微图像分类器便可以找到 

温度

分类器引导的扩散模型会从 中取样,它集中在最大后验概率 周围。如果我们想迫使模型向最大似然估计  的方向移动,可以用

 
其中 可解释为逆温度,在扩散模型研究中常称其为制导尺度(guidance scale)。较高的 会迫使模型在更靠近 的分布中采样。这通常会提高生成图像的品質[7]

这可以简单地通过SGLD实现,即

 

无分类指导器

如果我们没有分类器 ,我们仍可以从图像模型本身提取一个:[8]

 
这样的模型通常要在训练时提供  ,这样才能让它同时为  建模。

这是GLIDE[9]DALL-E[10]和Google Imagen[11]等系统的重要组成部分。

另见

阅读更多

  • Guidance: a cheat code for diffusion models (页面存档备份,存于互联网档案馆). Good overview up to 2022.

参考文献

  1. ^ 1.0 1.1 Ho, Jonathan; Jain, Ajay; Abbeel, Pieter. Denoising Diffusion Probabilistic Models. 2020-06-19. arXiv:2006.11239 . 
  2. ^ 2.0 2.1 Song, Yang; Sohl-Dickstein, Jascha; Kingma, Diederik P.; Kumar, Abhishek; Ermon, Stefano; Poole, Ben. Score-Based Generative Modeling through Stochastic Differential Equations. 2021-02-10. arXiv:2011.13456  [cs.LG]. 
  3. ^ Gu, Shuyang; Chen, Dong; Bao, Jianmin; Wen, Fang; Zhang, Bo; Chen, Dongdong; Yuan, Lu; Guo, Baining. Vector Quantized Diffusion Model for Text-to-Image Synthesis. 2021. arXiv:2111.14822  [cs.CV]. 
  4. ^ Croitoru, Florinel-Alin; Hondru, Vlad; Ionescu, Radu Tudor; Shah, Mubarak. Diffusion models in vision: A survey. 2022. arXiv:2209.04747  [cs.CV]. 
  5. ^ Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya. Deep Unsupervised Learning using Nonequilibrium Thermodynamics (PDF). Proceedings of the 32nd International Conference on Machine Learning (PMLR). 2015-06-01, 37: 2256–2265 [2023-02-24]. (原始内容 (PDF)于2023-04-05) (英语). 
  6. ^ Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark. Hierarchical Text-Conditional Image Generation with CLIP Latents. 2022. arXiv:2204.06125  [cs.CV]. 
  7. ^ Dhariwal, Prafulla; Nichol, Alex. Diffusion Models Beat GANs on Image Synthesis. 2021-06-01. arXiv:2105.05233  [cs.LG]. 
  8. ^ Ho, Jonathan; Salimans, Tim. Classifier-Free Diffusion Guidance. 2022-07-25. arXiv:2207.12598  [cs.LG]. 
  9. ^ Nichol, Alex; Dhariwal, Prafulla; Ramesh, Aditya; Shyam, Pranav; Mishkin, Pamela; McGrew, Bob; Sutskever, Ilya; Chen, Mark. GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. 2022-03-08. arXiv:2112.10741  [cs.CV]. 
  10. ^ Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark. Hierarchical Text-Conditional Image Generation with CLIP Latents. 2022-04-12. arXiv:2204.06125  [cs.CV]. 
  11. ^ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara; Lopes, Rapha Gontijo; Salimans, Tim; Ho, Jonathan; Fleet, David J.; Norouzi, Mohammad. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. 2022-05-23. arXiv:2205.11487  [cs.CV]. 

扩散模型, 机器学习中, 或扩散概率模型是一类潜变量模型, 是用变分估计训练的马尔可夫链, 的目标是通过对数据点在潜空间中的扩散方式进行建模, 来学习数据集的潜结构, 计算机视觉中, 这意味着通过学习逆扩散过程训练神经网络, 使其能对叠加了高斯噪声的图像进行去噪, 计算机视觉中使用通用框架的3个例子是去噪扩散概率模型, 噪声条件得分网络和随机微分方程, 是在2015年提出的, 其动机来自非平衡态热力学, 可以应用于各种任务, 如图像去噪, 图像修复, 超分辨率成像, 图像生成等等, 例如, 一个图像生成模型, 经过. 机器学习中 扩散模型或扩散概率模型是一类潜变量模型 是用变分估计训练的马尔可夫链 1 扩散模型的目标是通过对数据点在潜空间中的扩散方式进行建模 来学习数据集的潜结构 计算机视觉中 这意味着通过学习逆扩散过程训练神经网络 使其能对叠加了高斯噪声的图像进行去噪 2 3 计算机视觉中使用通用扩散模型框架的3个例子是去噪扩散概率模型 噪声条件得分网络和随机微分方程 4 扩散模型是在2015年提出的 其动机来自非平衡态热力学 5 扩散模型可以应用于各种任务 如图像去噪 图像修复 超分辨率成像 图像生成等等 例如 一个图像生成模型 经过对自然图像的扩散过程的反转训练之后 可从一张完全随机的噪声图像开始逐步生成新的自然图像 比较近的例子有2022年4月13日OpenAI公布的文生图模型DALL E 2 它将扩散模型用于模型的先验解释器和产生最终图像的解码器 6 目录 1 数学原理 1 1 于所有图像的空间中生成一张图像 1 2 学习分数函数 2 主要变体 2 1 分类指导器 2 2 温度 2 3 无分类指导器 3 另见 4 阅读更多 5 参考文献数学原理 编辑于所有图像的空间中生成一张图像 编辑 考虑图像生成问题 令x displaystyle x 代表一张图 令p x displaystyle p x 为在所有可能图像上的機率分布 若有p x displaystyle p x 本身 便可以肯定地说给定的一张图的機率有多大 但这在一般情况下是难以解决的 大多数时候 我们并不想知道某个图像的绝对機率 相反 我们通常只想知道某个图像与它的周围相比 機率有多大 一张猫的图像与它的小变体相比 機率哪个大 如果图像里有一根 两根或三根胡须 或者加入了一些高斯噪声 機率会更大吗 因此 我们实际上对p x displaystyle p x 本身不感兴趣 而对 x ln p x displaystyle nabla x ln p x 感兴趣 这有两个效果 其一 我们不再需要标准化p x displaystyle p x 而是可以用任何p x C p x displaystyle tilde p x Cp x 其中C p x d x gt 0 displaystyle C int tilde p x dx gt 0 是任意常数 我们不需要去关心它 其二 我们正在比较p x displaystyle p x 的邻居p x d x displaystyle p x dx 通过p x p x d x e x ln p d x displaystyle frac p x p x dx e langle nabla x ln p dx rangle 令分数函数为s x x ln p x displaystyle s x nabla x ln p x 然后考虑我们能对s x displaystyle s x 做什么 实际上 s x displaystyle s x 允许我们用随机梯度朗之万动力学从p x displaystyle p x 中取样 这本质上是马尔可夫链蒙特卡洛的无限小版本 2 学习分数函数 编辑 分数函数可通过加噪 去噪学习 1 主要变体 编辑分类指导器 编辑 假设我们希望不是从整个图像的分布中取样 而是以图像描述为条件取样 我们不想从一般的图像中取样 而是从符合描述 红眼睛的黑猫 的图片中取样 一般来说 我们想从分布p x y displaystyle p x y 中取样 其中x displaystyle x 的范围是图像 y displaystyle y 的范围是图像的类别 对y而言 红眼黑猫 的描述过于精细 猫 又过于模糊 从噪声信道模型的角度来看 我们可以将这一过程理解如下 为生成可描述为y displaystyle y 的图像x displaystyle x 我们设想请求者脑海中真有一张图像x displaystyle x 但它经过多次加噪 出来的是毫无意义可言的乱码 也就是y displaystyle y 这样一来图像生成只不过是推断出请求者心中的x displaystyle x 是什么 换句话说 有条件的图像生成只是 从文本语言翻译成图像语言 之后 像在噪声信道模型中一样 我们可以用贝叶斯定理得到p x y p y x p x displaystyle p x y propto p y x p x 也就是说 如果我们有一个包含所有图像空间的好模型 以及一个图像到类别的好翻译器 我们就能 免费 得到一个类别到图像的翻译器 也就是文本到图像生成模型 SGLD使用 x ln p x y x ln p y x x ln p x displaystyle nabla x ln p x y nabla x ln p y x nabla x ln p x 其中 x ln p x displaystyle nabla x ln p x 是分数函数 如上所述进行训练 用可微图像分类器便可以找到 x ln p y x displaystyle nabla x ln p y x 温度 编辑 分类器引导的扩散模型会从p x y displaystyle p x y 中取样 它集中在最大后验概率arg max x p x y displaystyle arg max x p x y 周围 如果我们想迫使模型向最大似然估计 arg max x p y x displaystyle arg max x p y x 的方向移动 可以用p b x y p y x b p x displaystyle p beta x y propto p y x beta p x 其中b gt 0 displaystyle beta gt 0 可解释为逆温度 在扩散模型研究中常称其为制导尺度 guidance scale 较高的b displaystyle beta 会迫使模型在更靠近arg max x p y x displaystyle arg max x p y x 的分布中采样 这通常会提高生成图像的品質 7 这可以简单地通过SGLD实现 即 x ln p b x y b x ln p y x x ln p x displaystyle nabla x ln p beta x y beta nabla x ln p y x nabla x ln p x 无分类指导器 编辑 如果我们没有分类器p y x displaystyle p y x 我们仍可以从图像模型本身提取一个 8 x ln p b x y 1 b x ln p x b x ln p x y displaystyle nabla x ln p beta x y 1 beta nabla x ln p x beta nabla x ln p x y 这样的模型通常要在训练时提供 x y displaystyle x y 和 x N o n e displaystyle x None 这样才能让它同时为 x ln p x y displaystyle nabla x ln p x y 和 x ln p x displaystyle nabla x ln p x 建模 这是GLIDE 9 DALL E 10 和Google Imagen 11 等系统的重要组成部分 另见 编辑扩散过程 马尔可夫链 变分贝叶斯方法 变分自编码器阅读更多 编辑Guidance a cheat code for diffusion models 页面存档备份 存于互联网档案馆 Good overview up to 2022 参考文献 编辑 1 0 1 1 Ho Jonathan Jain Ajay Abbeel Pieter Denoising Diffusion Probabilistic Models 2020 06 19 arXiv 2006 11239 2 0 2 1 Song Yang Sohl Dickstein Jascha Kingma Diederik P Kumar Abhishek Ermon Stefano Poole Ben Score Based Generative Modeling through Stochastic Differential Equations 2021 02 10 arXiv 2011 13456 cs LG Gu Shuyang Chen Dong Bao Jianmin Wen Fang Zhang Bo Chen Dongdong Yuan Lu Guo Baining Vector Quantized Diffusion Model for Text to Image Synthesis 2021 arXiv 2111 14822 cs CV Croitoru Florinel Alin Hondru Vlad Ionescu Radu Tudor Shah Mubarak Diffusion models in vision A survey 2022 arXiv 2209 04747 cs CV Sohl Dickstein Jascha Weiss Eric Maheswaranathan Niru Ganguli Surya Deep Unsupervised Learning using Nonequilibrium Thermodynamics PDF Proceedings of the 32nd International Conference on Machine Learning PMLR 2015 06 01 37 2256 2265 2023 02 24 原始内容存档 PDF 于2023 04 05 英语 Ramesh Aditya Dhariwal Prafulla Nichol Alex Chu Casey Chen Mark Hierarchical Text Conditional Image Generation with CLIP Latents 2022 arXiv 2204 06125 cs CV Dhariwal Prafulla Nichol Alex Diffusion Models Beat GANs on Image Synthesis 2021 06 01 arXiv 2105 05233 cs LG Ho Jonathan Salimans Tim Classifier Free Diffusion Guidance 2022 07 25 arXiv 2207 12598 cs LG Nichol Alex Dhariwal Prafulla Ramesh Aditya Shyam Pranav Mishkin Pamela McGrew Bob Sutskever Ilya Chen Mark GLIDE Towards Photorealistic Image Generation and Editing with Text Guided Diffusion Models 2022 03 08 arXiv 2112 10741 cs CV Ramesh Aditya Dhariwal Prafulla Nichol Alex Chu Casey Chen Mark Hierarchical Text Conditional Image Generation with CLIP Latents 2022 04 12 arXiv 2204 06125 cs CV Saharia Chitwan Chan William Saxena Saurabh Li Lala Whang Jay Denton Emily Ghasemipour Seyed Kamyar Seyed Ayan Burcu Karagol Mahdavi S Sara Lopes Rapha Gontijo Salimans Tim Ho Jonathan Fleet David J Norouzi Mohammad Photorealistic Text to Image Diffusion Models with Deep Language Understanding 2022 05 23 arXiv 2205 11487 cs CV 取自 https zh wikipedia org w index php title 扩散模型 amp oldid 77087283, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。