首页 1 2 3 4 5 6 7

【AIGC】2、扩散模型 | 到底什么是扩散模型?

文章目录

参考论文：A Survey on Generative Diffusion Model

github：https://github.com/chq1155/A-Survey-on-Generative-Diffusion-Model

一、什么是扩散模型

1.1 现有生成模型简介

已经有大量的方法证明深度生成模型能够模拟人类的想象思维，生成人类难以分辨真伪的内容，主要方法如下：

VAE：

比 GAN 要学习的东西更加明确，即使用 Encoder 学习数据的分布（均值和方差），使用 Decoder 基于学习到的分布训练生成器。VAE 的 Encoder 本质上就是对真实数据进行加噪，Decoder 就是在加了高斯噪声的数据上解码，相当于去掉噪声来恢复真实数据。

VAE 其实结构和扩散模型很像，且有较好的理论可解释性，但 Encoder 使用很大的步长来学习数据分布并进行加噪，Decoder 也使用很大的步长来去噪，导致学习的不够细致，很粗糙。
Flow-based
GAN：用神经网络训练生成器和判别器，可解释性较差，训练时容易出现不稳定的问题
diffusion model：

和 VAE 的结构类似，不过是前向使用很小的步长来一步步进行加噪，逆向使用很小的步长一步步的进行去噪，比 VAE 学习的更细致

1.2 扩散模型的理论来源

我们主要介绍扩散模型，扩散模型背后的直觉来源于物理学：

在物理学中，气体分子从高浓度区域扩散到低浓度区域
这与由于噪声的干扰而导致的信息丢失是相似的
通过引入噪声，然后尝试去噪来生成图像，模型每次在给定一些噪声输入的情况下学习生成新图像。

1.3 扩散模型的使用场景

扩散模型可以用到哪些任务上：

计算机视觉
语言模型
声音模型
AI for science

扩散模型的应用场景：

图文生成
视频生成
分子结构生成
AI 绘画
AI 制药
…

1.4 扩散模型的基本结构

扩散模型的工作原理：

学习由于噪声引起的信息衰减，然后使用学习到的模式来生成图像

扩散模型的结构：

扩散模型定义了一个扩散步骤的马尔可夫链，慢慢地向数据中添加随机噪声，也就是熵增的过程，然后学习逆向扩散过程，从噪声中构建所需的数据样本
前向扩散过程 $：为输入图像引入一系列的随机噪声，也就是对样本点分 T 步添加高斯噪声，随着噪声的引入，最终会失去区分特性$
逆向恢复过程 $：从高斯先验出发，从有大量随机噪声的图中学习恢复原图$

扩散模型相比 GAN 或 VAE 的缺点：

速度慢：扩散模型是基于马尔科夫过程来实现的，在训练和推理的时候都需要很多步骤

1.5 马尔可夫过程

马尔可夫模型有两个假设：

系统在 $时刻的状态只与时刻的状态有关，也称无后效性$
状态转移概率与时间 $无关，只与前驱和后继的状态有关，也称齐次性或时齐性$

1、无后效性

具有马尔科夫性质的状态满足下面公式：

$P(S_{t+1}|S_t)=P(S_{t+1}|S_1,...,S_t)$

上述公式的意义：

给定当前状态 $S_t$
当前的状态 $S_t$

2、齐次性

对状态 $s s 和后继状态 s ′ s' ，状态转移概率定义为： P s s ′ = P [ S t + 1 = s ′ ∣ S t = s ] P_{ss'}=P[S_{t+1}=s'|S_t=s]$

状态转移矩阵 P 定义了从 $转移到后继状态的概率：$

其中的每行和为1：

比如掷骰子游戏，当前的点数为1
再一次掷骰子得到的点数的概率，即使我们不知道下一个具体点数的概率，但是我们知道下一个点数是1，2，3，4，5，6中的某一点，那么就会有：

马尔可夫过程：

马尔科夫过程一个无记忆的随机过程，是一些具有马尔科夫性质的随机状态序列构成，可以用一个元组 <S,P> 表示：

S 是有限数量的状态集合
P 是状态转移概率矩阵， $P_{ss'}=P[S_{t+1}=s'|S_t=s]$

二、扩散模型相关定义

2.1 符号和定义

1、State：状态

State 是能够描述整个扩散模型过程的一系列数据：

初始状态：starting state $x_0$
prior state：离散时为 $x_T$
中间状态：intermediate state $x_t$

2、Process 和 Transition Kernel

Forward/Diffusion 过程 $：将初始状态转换到有噪声的状态$
Reverse/Denoised 过程 $：和前向过程方向相反，从有噪声的图像中逐步复原原图的过程$
Transition Kernel：在上面的两个过程中，每两个 state 的变换都是通过 transition kernel 来实现的，

前向和逆向的过程如下所示：

对于非离散情况，任何时间

$F_t$
$\sigma_t$
最常用的 transition kernel 是 Markov kernel，因为其具有较好的任意性和可控性

3、Pipeline：

假设定义 sampled data 为 $\widetilde{x}_0$

4、离散和连续过程

与离散过程相比，连续过程能够从任何时间状态中提取任何信息

如果扰动核的变化足够小，则连续过程有更好的理论支撑

5、训练目标

扩散模型是生成模型的一个子类，和 VAE 的目标函数类似，目标是让初始分布 $x_0$

通过最大化如下 log-likelihood 公式来实现，其中 $\widetilde{\sigma}$

2.2 问题规范化

1、Denoised Diffusion Probabilistic Model（DDPM）：去噪扩散概率模型

NIPS 2021 的论文 ‘Denoising diffusion probabilistic models’ 中对扩散概率模型进行了改进，提出了 DDPM：

使用固定的方差回归均值
用和噪声表示，通过均值预测网络重参数化，将关于均值的差改写为噪声预测网络与噪声的差，将目标函数改写为噪声预测的方式
对高斯噪声进行回归预测
对扩散模型的架构也进行了相应的改进，使用 U-Net 形式的架构，引入了跳跃连接，更适合于像素级别的预测任务

DDPM Forward Process：

DDPM 使用一系列的噪声系数 $\beta_1$
一般都使用常数、线性规则、cosine 规则来选择噪声系数，而且 [68] 中也证明了不同的噪声系数在实验中也没有明显的影响
DDPM 的前向过程定义如下：
根据从 $x_0$

DDPM Reverse Process：

逆向过程使用可学习的 Gaussian trasition 参数 $\theta$
逐步从 $x_T$
所以， $p_{\theta}(x_0)=\int p_{\theta}(x_{0:T})dx_{1:T}$

Diffusion Training Objective：为了最小化 negative log-likelihood (NLL)，则最小化问题转换为：

$L_T$
$L_0$
$L_{1：T-1}$

下图是 PPDM 的 pipeline：

2、Score Matching Formulation

score matching 模型是为了解决原始数据分布的估计问题，通过近似数据的梯度 $\nabla_xlogp(x)$

两个相邻状态的 transition kernel 为：

Score matching 过程：

score matching 的核心是训练一个得分估计网络 $s_{\theta}(x, \sigma)$

DSM：

三、可以提升的点

尽管扩散模型目前取得了很好的生成效果，到其逐步去噪的过程涉及非常多的迭代步骤，故此扩散模型的加速是很重要的研究课题。

决策树算法

采用递归的分治法构造决策树，每次依据最优划分属性的属性值，将当前层的全集S划分为若干个子集，并采

npm run serve之后报错Error error0308010Cdigital envelope routinesunsupported

问题项目npm run serve时报错：

eclipse插入数据库乱码

*.properties这种方式时 jdbc.driver=com.mysql.jdbc.Driver jdbc.url=jdbc:mysql://localhost:3

elasticsearch kibana 更新nested字段数据

有如下索引 PUT ellisintstring/ {

198道K8s/Docker/DevOps面试真题大汇总，2023最新整理！

现在云原生在技术领域的地位业内上已经形成了普遍共识。随着全员上云、全员云原生，各家公司，不论是大厂、中小企业，还是数字化中的传统公司，都在不惜重金储备云原生人才。就

《zw版·Halcon-delphi系列原创教程》 Halcon分类函数012,polygon，多边形

《zw版·Halcon-delphi系列原创教程》 Halcon分类函数012,polygon，多边形

NoSQL数据库-MongoDB

NoSQL(Not Only SQL)数据库可以是任何非关系型数据库,它是一个概括性的总称 NoSQL不能执行JOIN之类的操作:是为了:1.读取的速度更快

TensorFlow深度学习（2）深度学习中文书推荐《TensorFlow深度学习》

《TensorFlow深度学习》是龙龙老师（新加坡国立大学老师）在2019年10月份在GitHub开源的一本中文教程，基于最新的TensorFlow2.0进行算法和实际案例讲解。近几个月趁工作之余学习了该书，从神经网络的发展到最新的论文算法，结合TensorFlow2点源代码讲解

语言模型解码策略(language models decoding strategy)

前言写这篇文章的主要目的是讲清楚语言模型生成句子的随机性从哪里来，它和1.解码策略有关，2.和初始种子有关。解码策略

Windows环境下安装RabbitMQ

1.消息队列中间件简介消息队列中间件是分布式系统中重要的组件，主要解决应用耦合，异步消息，流量削锋等问题实现高性能，高可用，可伸缩和最终一致性。使用较多的消息队列有 ActiveMQ（安全），RabbitMQ，ZeroMQ，