函数图像生成器在线

发布时间：2023-06-11 作者：admin 来源：文学

函数图像生成器在线

2023年3月6日发(作者：古代爱国故事)

基于VAE和GAN融合网络的mnist手写体数字图像生成方

法

陈丽芳;芦国军

【摘要】为解决现有特定图像数据集因采集困难等因素导致缺乏充足图片的问题,

提出了一种基于VAE和GAN融合网络的mnist手写体数字图像生成方法.该方法

结合了VAE和GAN的优点,同时具备VAE生成图像的准确性和GAN生成图像的

清晰性.实验表明,该方法能生成质量较高的手写体数字图像.

【期刊名称】《廊坊师范学院学报（自然科学版）》

【年(卷),期】2019(019)002

【总页数】5页(P25-29)

【关键词】VAE;GAN;融合网络;mnist手写体数字图像;图像生成

【作者】陈丽芳;芦国军

【作者单位】河北地质大学,河北石家庄050000;河北地质大学,河北石家庄

050000

【正文语种】中文

【中图分类】TP391

0引言

虽然现今已经进入了大数据时代，但在一些领域拥有较大研究价值的图像数据由于

采集困难等各种原因而缺少研究数据，比如医疗图像、军事图像等。人们为了人工

增加这些领域的图像数据，展开了对计算机模拟生成图像方法的研究。

目前具有潜力的图像生成模型主要有两大类，分别是变分自编码器（Variational

Autoencoders，VAE）和生成式对抗网络（GenerativeAdversarialNetworks，

GAN）。VAE使用变分推理联合学习图像和潜在代码之间的编码器和解码器映射；

GAN联合学习一个合成图像的生成器和一个将图像分类为真实或伪造的鉴别器。

VAE生成的图像更加准确，很少生成不受控制的图像，但由于其使用均方误差等

作为损失函数，使得生成图像缺乏细节，画面模糊；而GAN生成的图像更为清晰，

但为了骗过判别器而自由发挥容易造成生成图像失真。基于这两种方法各自的优缺

点，本文提出了一种基于VAE和GAN的融合网络的图像生成方法，避免了这两

种生成方法单独使用时各自的缺点，使得生成的图像拥有更高的生成质量。

1生成模型

生成模型对数据的潜在分布进行学习。设有一批数据样本{X1,…,Xn}，其整体用X

来描述，目标是根据{X1,…,Xn}得到X的分布p（X），此时根据p（X）进行采

样，得到所有可能的X（包括{X1,…,Xn}以外的数据），但是这是一个理想的生成

模型。

事实上，对于数据的潜在分布学习存在实践困难。此时引入隐变量Z，利用式（1）

生成数据X。

其中p(X|Z)表示一个由Z来生成X的模型，假设Z服从标准正态分布，即p

（Z）～N（0,1）。首先从标准正态分布中采样一个Z，然后根据Z来不断拟合X，

达到生成X的目的。这种思想被经常应用于生成模型。

2变分自编码器VAE

变分自编码器（Encoder）VAE由DiederikPKingma和DaniloJimenez

Rezende在2013年提出，这是一种基于变分贝叶斯推断的生成网络。在这之前，

Rumelhart于1986年首次提出自编码器（AE）的概念，AE是神经网络的一种，

该网络由两部分组成：一个编码器函数h=f(x)和一个生成重构的解码器r=g(h)。

AE尝试学习一个hw,b(x)≈x的函数。换句话说，它尝试逼近一个恒等函数，从而

使得输出接近于输入x。恒等函数虽然看上去不太有学习的意义，但是当为AE加

入某些限制，比如限定隐藏神经元的数量，就可以学习到输入数据的压缩表示，如

此就得到一个编码器。之后对压缩表示进行解码，就得到一个与输入图像尽量相似

又不完全相同的输出图像。训练AE时需要设定一个损失函数，用以衡量由于压缩

而损失掉的信息，即输出图像与输入图像之间的差别，编码器和解码器

（Decoder）的参数可以通过最小化损失函数而优化。AE的网络结构如图1所示。

图1AE网络结构图

当Z处于一个高维度的连续空间时，

生成过程变为：①随机一个X；②用p(Z|X)计算概率，若满足则结束，若不满足，

则返回①。此时生成过程不可控。因此，需要寻找一个变分函数Q（Z）去代替

p(Z|X),即

VAE是在AE的基础上，在编码过程中增加一些限制，迫使网络生成的隐含向量能

够粗略地遵循一个标准正态分布。这时不再是每次产生一个隐含向量，而是生成两

个向量，一个表示均值，一个表示标准差，然后通过这两个统计量来合成隐含向量，

即用一个标准正态分布先乘上标准差再加上均值。VAE的网络结构如图2所示。

图2VAE网络结构图

VAE的目标是最大限度降低数据对数似然的下限，根据（3）式，推出可通过不断

减小如下损失函数优化网络参数。

VAE能够通过输出图片的编码过程得到这种类型图片的编码之后的分布，相当于

知道每种图片对应的噪声分布，因此，能够通过选择特定的噪声来生成需要生成的

图片。由于它是直接计算生成图片和原始图片的均方误差而没有进行对抗学习，使

得生成的图片不够清晰。

3生成式对抗网络GAN

生成式对抗网络GAN是由llow等于2014年提出的一个通过对抗

过程估计生成模型的新框架。

这个框架由两个网络构成，生成网络G（Generator）和判别网络D

（Discriminator）。G是一个生成图片的网络，它接收一个随机噪声z，通过这

个噪声生成图片，记做G（z）。D是一个判别网络，判别一张图片是不是“真实

的”。它的输入参数是x，x代表一张图片，输出D（x）代表x为真实图片的概

率，如果为1，就代表100%是真实的图片，而输出为0，就代表不可能是真实的

图片。

在训练过程中，生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。

而D的目标就是尽量把G生成的图片和真实的图片区分开，G和D构成了一个动

态的“博弈过程”。在最理想的状态下，G可以生成足以“以假乱真”的图片G

（z）。对于D来说，它难以判定G生成的图片究竟是不是真实的，因此，D（G

（z））=0.5。

此时得到了一个可以用来生成图片的生成式的模型G，具体网络结构如图3所示。

图3GAN网络结构图

GAN的目标是实现生成器和判别器之间的平衡，即通过不断减小式（5）损失函

数来优化网络参数。

GAN使用对抗的方式来进行学习，使得生成的图像更加清晰。但是生成网络通过

对抗过程来区分“真”的图片和“假”的图片，然而这样得到的图片只是尽可能像

真的，并不能保证图片的内容是需要的，也就是说，有可能生成网络尽可能地去生

成一些背景图案使得其尽可能真，但是里面没有实际的物体。

4VAE和GAN的融合网络

基于VAE和GAN各自的优缺点，本文提出了一种将VAE和GAN进行融合的网

络结构。

网络由三部分组成，分别是用于将真实图像映射到潜在空间的编码器（Encoder）、

用编码器得到的编码进行图像生成的生成器（Generator）和对真实图像和生成图

像进行判别的判别器（Discriminator）。

编码器网络将训练数据中的真实图像进行编码，将真实图像映射到潜空间，提取真

实图像的图像特征。网络结构采用5层卷积网络，激活函数使用ReLU，实验证明

这种网络结构能够很好地保留真实图像的原始特征。

生成器网络将得到的真实图像编码作为输入，以期生成能够让判别器不能正确判别

的图片。网络结构采用5层转置卷积网络，最后一层使用tanh激活函数，其余各

层均使用LeakyReLU激活函数。

判别器网络对真实图片和生成图片进行判别，判定其属于真实图片还是生成器生成

图片，网络结构采用与判别器对称的5层卷积网络，激活函数除最后一层外均使

用ReLU，最后一层使用sigmoid，在每层卷积操作之后添加dropout操作，同

时向判别器的标签添加噪声，实验证明此网络由于加入了随机性能够提高判别器网

络的稳健性，避免前期网络判别效果与后期网络判别效果差距太大的缺点，得到更

好的判别效果，同时促使生成器生成更加真实的图像。

该结构保留了VAE的编码方式和GAN的整体网络结构，用VAE的编码结果代替

GAN中的随机噪声输入，既避免了原始GAN没办法决定使用哪种随机噪声能够

产生需要的图片的情况，改善了原始VAE生成模糊图像的情况。融合网络的网络

结构如图4所示。

图4融合网络结构图

生成器最小化损失函数：

判别器最大化损失函数：

具体算法描述过程如下：

（1）对真实图像进行编码，提取真实图像特征；

（2）得到每个batch的均值和方差，构造满足正态分布的特征向量；

（3）将第⑵步得到的特征向量输入生成器生成图像；

（4）对真实图像和生成图像进行采样，输入判别器进行判别；

（5）通过最大化下式更新判别器：

（6）通过最小化下式更新生成器：

（7）重复⑴-⑹步，直至满足算法最大迭代次数。

5实验过程及结果分析

实验数据集为mnist手写体数字图像，该数据集包含70000张28×28手写数字

的灰度图片，每一张图片都有对应的标签，即图片对应的数字。数据集被分成两部

分：60000行的训练数据集和10000行的测试数据集。本实验仅用到训练数据集，

且未用到标签属性，属于无监督学习。

实验环境为Win10+eclipse，仅使用CPU，编程语言使用python和tensorflow

深度学习框架，用于实现算法，并对算法进行验证。

分别在VAE、GAN和本文提出的融合网络上进行手写体数字图像生成，除本身算

法外，网络结构基本保持一致，以避免其他因素对实验生成结果的影响，实验最大

迭代次数设置为3k，对生成结果进行对比，图像生成结果如图5所示。

图5图像生成效果对比图

左侧是VAE生成图像效果图，中间是GAN生成图像效果图，右侧是融合网络生

成图像效果图。能够明显看到，经过相同的训练轮数，VAE生成的图像比较规范，

基本没有噪点和乱点，但是图像模糊，缺少细节；GAN生成的图像相比VAE细节

明显，但是存在噪点和乱点；融合网络生成的图像则更加清晰，且噪点和乱点相比

GAN更少。

实验中同时监测了融合网络的生成损失和判别损失，其中融合网络的生成损失和判

别损失如图6所示。

图6损失结果图

可以看到，生成损失随着迭代次数的增加逐渐下降，大约在3k次迭代时趋于收敛；

判别损失起伏相对较大，但整体上呈现下降趋势，大约也收敛于3k次迭代。实验

结果表明，融合网络梯度下降稳定，没有出现梯度消失现象。

综合实验结果可见，融合网络能够得到比较清晰的图片，没有出现梯度消失或梯度

爆炸现象，生成的图片中虽然仍然存在噪点和乱点，但噪点和乱点相比GAN相对

减少，表明基于VAE和GAN的融合网络能够生成质量较高的手写体数字图像。

6结论

本文提出的融合网络模型能够比较好地生成mnist手写体数字图像，比原始VAE

网络生成的图像更为清晰，并且比起原始GAN网络能够得到想要的编码，而不是

毫无意义的噪声。但是由于其基本网络框架沿用了GAN的网络架构，生成图像崩

塌现象依然存在，有待进一步研究。

［参考文献］

【相关文献】

［1］GoodfellowIJ,Pouget-AbadieJ,MirzaM,tiveadversarialnets

［C］.

Press,2014:2672-2680.

［2］MirzaM,ionalGenerativeAdversarialNets［J］.Computer

Science,2014，27（8）:2672-2680.

［3］WangYa-si,YaoHong-Xun,-encoderbaseddimensionality

reduction［J］.NeuroComputing,2016,（184）：232-242.

［4］ChengGong,ZhouPei-cheng,HanJunwei,-encoderbasedsharedmid-level

visualditionarylearningforsceneclassificationusingveryhighresolutionremotesensing

image［J］.IETcomputervision,2015,9（5），639-647.

［5］KingmaDP,RezendeDJ,MohamedS,-SupervisedLearningwithDeep

GenerativeModels［J］.AdvancesinNeuralInformationProcessingSystems,2014，

（4）:3581-3589.

［6］LarsenABL,SønderbySK,LarochelleH,codingbeyondpixelsusinga

learnedsimilaritymetric［J］.InternationalConferenceonMachineLearning,2015:1558-

1566.

［7］张喜升.对抗样本和生成对抗网络——深度学习中的对抗方法综述［D］.天津：南开大

学,2016.

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章