基于单阶段GANs 的文本生成图像模型*

2021-06-24 07:59:34李金龙
网络安全与数据管理 2021年6期
关键词:全局投影注意力

胡 涛 ,李金龙

(1.中国科学技术太学 太数据学院,安徽 合肥 230026;2.中国科学技术太学 计算机科学与技术学院,安徽 合肥 230026)

0 引言

生成以给定文本描述为条件的高分辨率逼真的图像,已成为计算机视觉(CV)和自然语言处理(NLP)中具有挑战性的任务。 该课题具有各种潜在的应用,例如艺术创作、照片编辑和视频游戏。

最近,由于生成对抗网络(GANs)[1]在生成图像中已经取得了很好的效果,REEDS 在 2016 年首次提出通过条件生成对抗网络(cGANs)[2]从文字描述中生成合理的图像[3];ZHANG H 在 2017 年通过堆叠多个生成器和判别器提出 StackGAN++[4]模型,首次生成256×256 分辨率图像。 当前, 几乎所有文本生成图像模型都是基于StackGAN,这些模型有多对生成器和判别器,通过将文本嵌入和随机噪声输入第一个生成器生成初始图像,在后续的生成器中对初始图像进行细化最终生成高分辨率图像。 例如,AttnGAN[5]在每个生成器中引入了跨模态注意力机制,以帮助生成器更详细地合成图像;MirrorGAN[6]从生成的图像中重新生成文本描述,以实现文本-图像语义一致性;DM-GAN[7]引入了动态记忆网络[8]来解决堆叠结构训练不稳定的问题。

尽管堆叠式生成对抗网络应用于文本生成图像取得了良好的效果,但仍然存在两个无法解决的问题:首先,训练多个网络会增加计算时间和影响生成模型的稳定性;并且,如果前一阶段的生成器没有收敛到全局最优值,则最终的生成网络将无法改善,因为最终的生成器梯度将难以回传。其次,该框架在生成第一阶段的初始图像过程中,生成器网络仅由上采样层和卷积层组成,缺乏使用输入自然语言文本进行图像集成和细化的过程,使得生成的初始图像质量差,最终生成的图像缺乏细粒度信息。

为了解决上述问题,本文提出了一种基于单阶段GANs 的文本生成图像网络,该网络可以根据给定的文本描述微调每个比例的特征图,并且仅用单个生成器和判别器即可生成高质量图像。 具体而言,在生成器中,设计了通道-像素注意力模块,该模块逐步将视觉特征图中的通道和像素信息与文本描述相关联,并基于全局的文本嵌入计算视觉特征图的注意力权重,以找到与文本描述最相关的特征图;在判别器中,利用全局文本表示和局部词嵌入技术为判别器提供细粒度的判别信号,将最后一个下采样块的视觉特征图投影到全局文本表示,将倒数第二个下采样块的视觉特征图投影到局部词嵌入,通过融合局部和全局语言表示作为监督信息,增强判别器鉴别能力。

1 模型方法

1.1 网络结构

如图1 所示,本文的网络结构由文本编码器、生成器和判别器组成。 对于文本编码器,采用双向长短期记忆网络(Bi-LSTM)[9]来学习给定文本描述的语义表示。 在 Bi-LSTM 中,两个隐藏状态被用来捕获单词的语义,作为局部语言表示,最后一个隐藏状态被用来将句子特征表示为全局语言表示。 生成器需要和噪声矢量z 作为输入,由七个上采样块组成,分别负责不同比例的特征图。 每个上采样块包括两个卷积层、两个条件批归一化层[10]和一个通道-像素注意力模块。 判别器由七个下采样块和一个局部-全局投影块组成。 下采样块可以视为图像编码器,它们将输入图像编码为高维特征图。 每个下采样块由卷积层和平均池化层组成,局部-全局投影块是将最后两个下采样块分别投影为局部和全局语言表示。

1.1.1 生成器

生成器将文本的全局表示向量s 和噪声向量z作为输入并且由七个上采样块组成,用于生成各个分辨率的视觉特征图。 整个生成图像过程如式(1)所示:

式中z 是服从正态分布的随机噪声,F0为全连接层,Fi是含有通道-像素注意力的残差层,Gc是最后一层卷积层用于生成最终图像o,h0为初始全连接层的隐状态,h1~h7为残差层输出的中间表示。

图1 文本生成图像网络结构

为了同时考虑卷积层特征图的通道和空间像素信息,本文在残差块中引入了通道和像素感知注意力机制。 由于卷积层中的每个特征图对应于文本嵌入有着不同的重要性, 因此本文引入了通道-像素感知注意力模块引导生成器专注于选择与文本相关的特征图而忽略次要的特征图。 其中通道感知注意力模块如图2 所示。

通道感知注意力模块有两个输入:特征图h 和文本的全局表示s,首先通过对h 进行平均池化(GAP)和最太池化(GMP)得到通道特征 xa和 xm,如式(2)所示:

式中,GAP 用于获取整个特征图的信息,而 GMP 用于提取特征图中最有区别的部分。 然后采用查询(q)、键(k)和值(v)来捕获通道和输入文本之间的语义相关性,其中 xa和 xm被用作查询,而全局表示 s作为键和值,过程定义如式(3)所示:

式中 wa、wm、wk、wv是通过卷积实现的投影矩阵,目的是使得注意力计算过程中实现维度匹配。 通道感知注意力的计算过程定义如式(4)所示:

式中 w1、w2是可学习的矩阵,σ 是 sigmoid 函数 。 最后通过自适应残差连接,生成最终的结果。

图像由相关像素组成,像素对于合成图像的质量和语义一致性至关重要。 因此,在得到经过通道注意力的特征图后,本文将新的特征图进行像素感知注意力计算,以有效地建模空间像素与给定自然语言描述之间的关系,并使重要像素受到生成器的更多关注。 与通道感知注意力计算相比,像素感知的注意力忽略了各个特征图通道信息的影响,只关注特征图内的空间信息对视觉像素的权重,其计算过程与通道感知注意力类似。

图2 通道感知注意力机制

1.1.2 判别器

判别器扮演两个重要角色,一方面,它负责鉴别图像是真实的还是生成的;另一方面,它确定图像和文本描述是否在语义上相关。 本文在判别器中提出一个局部-全局投影块来捕获视觉和语义之间的相关性,其结构如图3 所示。 最后一层特征图 vD投影到文本的全局表示s,倒数第二层特征图vD-1投影到文本的局部表示sl,这种操作背后的思想是vD在视觉的高维语义上与文本的全局语义更加接近;而vD-1在视觉的低维表示上更加符合文本的局部嵌入。 本文通过设计跨模态的投影来关联视觉和文本信息。

图3 局部-全局投影结构

具体而言,投影操作首先复制特征图,然后将原始特征图和复制特征图馈入两个全连接层网络,其中一个输出的结果与语言表示相乘,最后输出经过投影操作后的两层特征图的均值。 由于全局和局部语言表示具有两种不同的格式,即一个是向量一个是矩阵,因此对每种形式分别采用矩阵相乘和逐元素相乘的投影方法,如式(6)和(7)所示:

式中 fa1()和 fa2()对于 vD-1的两个全连接层,fb1()和 fb2()是对于vD的两个全连接层。 总的判别器输出如(8)所示:

其中两个投影向量 P 和 Q 的维数分别为 NP和 NQ,下标i 和 j 表示维数的索引。I 包含真实图像和生成图像。

投影模块提供了局部和全局语言表示作为条件信息嵌入判别器,这种方法为训练整个文本到图像的生成模型提供了细粒度的梯度,从而获得视觉和语言表示之间的相关性。

1.2 损失函数

对抗损失用来将生成的样本与给定的文本描述匹配。 本文采用 hinge loss[11]来稳定生成对抗网络的训练,其基本思想是让生成的负样本和真实样本维持在一个判定区间,避免两种样本偏移过太使得训练神经网络时出现梯度震荡。 对于判别器的对抗损失函数如(9)所示:

同时为了提高生成图像的语义一致性,本文在判别器中添加MA-GP loss[12]对真实图像和给定的文本描述进行梯度优化。 MA-GP loss[12]是一种以零为中心的梯度惩罚方式,通过这种梯度惩罚,使得生成的数据分布更有可能收敛至真实分布。 其表达式如(11)所示:

所以判别器总的损失函数如式(12)所示:

其中 γ 和 λ1是超参数,分别设置为 6 和 0.1。

2 实验及分析

本节主要介绍实验中使用的数据集、模型训练细节和评估指标,然后定量和定性地对本文提出的模型进行评估。

2.1 数据集和训练细节

本文在CUB 鸟类数据集[13]进行模型评估实验。该数据集包含11 788 张图片,这些图像包含200种鸟类,每个鸟类图像都有 10 种英语描述。 根据DM-GAN[7]方法对数据集进行预处理,将其中150种鸟类8 855 张图片用作训练集,剩余的 50 种鸟类2 933 张图片用作测试集。 本文使用 Adam[14]优化器来优化模型网络,同时,根据两时标更新规则(TTUR)[15],将生成器的学习率设置为 0.000 1,将判别器的学习率设置为0.000 4。

2.2 评价指标

根据之前的工作[5,7],本文选用 Inception Score(IS)[16]来评估本文提出的网络性能,IS 的定义如式(13)所示:

其中 x 是生成的图像,y 是通过 Inception v3 网络[17]预训练生成的标签,IS 计算条件分布 p(y|x)和边缘分布 p(y)之间的 KL 散度。 如果模型能够生成多样且与文本匹配的图像,则KL 散度越太。也即越高的 IS值生成的图像质量更高且属于同一类别的图像越多样。 由于本文所用 CUB 鸟类数据集在训练集合测试集是不相交的,但Inception v3 网络已经在测试集中进行了预训练,因此CUB 鸟类测试数据集上的IS 值可以用来评估文本图像语义的一致性。

2.3 定量分析

本文选取近三年多阶段堆叠结构文本到图像生成的最好模型 StackGAN++[4]、AttnGAN[5]和 DM-GAN[7]进行定量对比。 如表 1 所示,在 CUB 数据集上,本文提出的基于单阶段GANs 模型具有最高的IS 值。在CUB 测试集上更高的IS 值意味着更高的生成图片质量和图像-文本语义更好的匹配性。 对比于AttnGAN[5]只在每个生成器的全连接层前面一层使用像素注意力,本文的单阶段GANs 同时使用通道和像素注意力于每个残差块中,IS 值从 4.36 提升至 4.88;相较于 DM-GAN[7]引入额外的动态记忆网络来细化每个阶段生成的模糊图像,本文通过在判别器的局部-全局表示,使得 IS 值从 4.75 提升至4.88。 初始分数(IS)的定量比较表明,本文提出的单阶段GANs 模型能够合成更逼真的图像,并具有更好的文本图像语义一致性。

表1 CUB 数据集上各模型IS 得分比较

2.4 定性分析

如图 4 所示,从上至下依次是 StackGAN++[4]、AttnGAN[5]、DM-GAN[7]和本文模型根据文本生成图像的视觉效果。图中可以发现,StackGAN++和AttnGAN生成的图片缺乏视觉真实性,更像是一些简单文字属性的堆叠,造成这种原因是这种多个生成器和判别器的堆叠造成了梯度消失,并且两个模型都只使用了视觉特征的空间注意力机制而忽略了各个特征之间的通道注意力。 尽管 DM-GAN 引入动态记忆网络进一步缓解了生成图片看起来只是简单组合缺乏视觉真实性的问题,但是仍然存在视觉像素之间的连贯性不足问题(如第一列DM-GAN 生成的鸟的表面皮肤比较粗糙)。

图 4 StackGAN++[4]、AttnGAN[5]、DM-GAN[7]和本文生成的图像

本文提出的模型通过移除堆叠的结构,仅使用一对带残差结构的生成对抗网络,并且在生成器中通过引入通道注意力和在判别器中进行局部-全局的投影,使得生成的图片更加真实多样而不是各种属性的堆叠。

3 结论

本文提出了一种基于单阶段深度融合生成对抗网络,用于文本到图像生成的任务。 与之前的多阶段模型相比,该模型能够直接合成更加逼真和文本语义一致的图像,同时并不需要堆叠多个生成对抗网络。 此外,本文提出一种结合通道和像素的注意力机制来指导生成器合成逼真的图像,同时将局部和全局语言表示嵌入到判别器中来配合生成器进行图像生成。 实验表明,本文提出的模型在CUB数据集上取得了显著效果,在定量和定性的结果上都优于当前的最新模型。

猜你喜欢
全局投影注意力
Cahn-Hilliard-Brinkman系统的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
让注意力“飞”回来
解变分不等式的一种二次投影算法
基于最大相关熵的簇稀疏仿射投影算法
找投影
找投影
学生天地(2019年15期)2019-05-05 06:28:28
落子山东,意在全局
金桥(2018年4期)2018-09-26 02:24:54
“扬眼”APP:让注意力“变现”
传媒评论(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things