于混合对抗生成网络的多视角图像生成模型ViewGAN, 它包括多个生成器和一个多类别判别器, 可灵活迁移至多视角生成的多个场景.
在ViewGAN中, 多个生成器被同时训练, 旨在生成不同视角的图像. 此外,
本文提出了一种基于蒙特卡洛搜索的惩罚机制来促使每个生成器生成高质量的图像, 使得每个生成器更专注于指定视角图像的生成.
在DeepFashion, Dayton, ICG Lab6数据集上的大量实验证明: 我们的模型在Inception
score和Top-k accuracy上的性能优于目前的主流模型, 并且在结构相似性(Structural similarity,
SSIM)上的分数提升了32.29%, 峰值信噪比(Peak signal-to-noise ratio,
PSNR)分数提升了14.32%, SD (Sharpness difference)分数提升了10.18%.
引 言
多视角图像生成指的是基于某个视角的图像生成其他视角的图像, 该问题在实际生活中具有很多应用, 例如:
电商网站上商品的多视角展示、虚拟现实中的目标建模和和数据集扩充等.
目前多视角图像生成已经吸引了来自计算机视觉、虚拟现实等众多领域研究人员的兴趣, 并取得了一定的进展.
早期工作中, 研究人员尝试使用变分自编码器(Variational autoencoder, VAE)生成多视角图像.
变分自编码器采用变分推断和深度表示学习来得到一个复杂的生成模型, 从而摆脱了传统耗时的采样过程.
但变分自编码器并不能很好地补充生成图像中的细节. 此外, 研究人员还尝试先建立目标的3D模型, 再生成目标视角的图像,
但这种方法的灵活性较弱, 只适合于合成椅子、杯子等简单物体的图像.
近年来, 有研究人员提出使用生成对抗网络(Generative adversarial network,
GAN)来生成多视角图像. 在文献[4]中, 研究人员将变分自编码器与生成对抗网络相结合,
提出了一种面向服装的多视角图像生成模型VariGANs. VariGAN模型将图像生成分为两步,
采用由粗到精的方式生成高分辨率的多视角图像, 本文模型也参考了这种由粗到精的生成方式.
但VariGAN模型局限于服装的多视角图像生成, 并不能有效迁移至其他领域.
在文献[2]中, 研究人员尝试在图像生成中引入语义指导, 提出了两种多视角图像生成模型X-Fork和X-Seq.
这两个模型将已知视角的图像与目标视角的语义分割图共同输入模型, 填补了生成图像中的语义结构, 使得生成的图像更加真实.
受到文献[2]中工作的启发, 文献[5]中的研究人员提出了一种基于多通道注意力机制的SelectionGAN模型.
SelectionGAN模型将语义生成空间进一步扩大, 模型通过参考生成的中间结果, 进一步完善了图像中的语义细节,
在卫星图与地面图的翻译任务中取得了很好的成绩. 但以上的工作对于多视角生成任务中其他场景的兼容性较差,
因为并不是所有场景下都有充足的语义分割图来进行训练模型.
为解决上述问题, 本文提出了一种基于混合生成对抗网络的多视角图像生成模型ViewGAN,
该模型可以灵活迁移至多视角生成任务中的各个场景. ViewGAN包含多个生成器和一个多类别判别器,
每一个生成器负责生成某一视角的图像. 如图1所示, 模型分两步生成图像: 1) 模型运用粗粒度模块(Coarse image
module)生成低分辨率(Low resolution, LR)下的目标图像; 2) 在低分辨率目标图像的基础上,
模型运用细粒度模块(Fine image module)完善图像的语义结构, 生成高分辨率(high resolution,
HR)下的目标图像.
图 1 本文模型ViewGAN在DeepFashion、Dayton和ICG
Lab6数据集上的测试样例
本文的ViewGAN模型与以往工作的不同之处在于:
1) ViewGAN包含多个生成器和一个判别器, 每一个生成器负责生成某一视角的图像,
这保证了ViewGAN模型可以灵活迁移至各种多视角生成任务中, 甚至还可以运用到图像翻译的其他领域, 例如风格转换等;
2) 为了加强图像生成过程中的语义约束, 本文使用蒙塔卡罗搜索方法(Monte Carlo search,
MCS)对低分辨率目标图像进行多次采样, 并根据采样结果计算相应的惩罚值, 惩罚机制可以迫使每个生成器生成语义更加丰富的图像,
避免出现模式崩塌(Mode collapse);
3) 模型中的多类别判别器使每个生成器更加专注于生成它们指定视角的图像, 避免生成与其他视角相似的图像,
从而进一步完善了图像的语义结构;
4) 本文将ViewGAN模型与目前主流的图像生成模型(例如: Pix2Pix, VariGAN,
X-Fork和X-Seq, SelectionGAN)进行了对比, 并在3个公开数据集上进行了大量的实验, 实验结果表明:
本文模型在3个数据集上都取得了最好成绩, 这表明了本文模型的灵活性和生成图像的高质量.
综上所述, 本文的主要贡献总结如下:
1) 提出了一种基于混合生成对抗网络的多视角图像生成模型ViewGAN, 该模型包括多个生成器和一个判别器,
采用由粗到精的方式生成不同视角下的高质量图像.
2) 提出了一种基于蒙特卡洛搜索的惩罚机制来加强图像生成过程中的约束, 这使得每个生成器能够获得更充足的语义指导,
在对应视角的图像中增加更多的语义细节.
3) 在3个数据集上与目前的主流模型进行了大量的对比实验,
实验结果证明了ViewGAN在各种场景下的有效性与灵活性.
图 3 生成器(G_j)的整体框架
图 7 ViewGAN生成图像的可视化过程((a)输入图像;
(b)粗粒度模块合成的低分辨率目标图像; (c)蒙特卡洛搜索的结果;
(d)细粒度模块合成的高分辨率目标图像)
作者简介
卫 星
合肥工业大学副教授. 2009年于中国科技大学获得博士学位. 主要研究方向为深度学习与物联网工程,
无人驾驶解决方案.
E-mail: weixing@hfut.edu.cn
李 佳
合肥工业大学计算机与信息学院硕士研究生. 主要研究方向为自然语言处理, 情感对话生成.
E-mail: lijiajia@mail.hfut.edu.cn
孙 晓
博士, 合肥工业大学计算机与信息学院情感计算研究所副教授. 主要研究方向为情感计算, 自然语言处理, 机器学习与人机交互,
本文通信作者.
E-mail: sunx@hfut.edu.cn
刘邵凡
合肥工业大学硕士研究生. 2018年于合肥工业大学获得学士学位.
主要研究方向为目标检测和领域自适应.
E-mail: frank-uzi@hotmail.com
陆 阳
合肥工业大学教授. 2002年于合肥工业大学获得博士学位.
主要研究方向为物联网工程和分布式控制系统.
E-mail: luyang.hf@126.com
相关文章
[1]
王坤峰, 苟超, 段艳杰, 林懿伦, 郑心湖, 王飞跃. 生成式对抗网络GAN的研究进展与展望. 自动化学报,
2017, 43(3): 321-332. doi: 10.16383/j.aas.2017.y000003
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.y000003?viewType=HTML
[2]
唐贤伦, 杜一铭, 刘雨微, 李佳歆, 马艺玮. 基于条件深度卷积生成对抗网络的图像识别方法. 自动化学报,
2018, 44(5): 855-864. doi: 10.16383/j.aas.2018.c170470
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170470?viewType=HTML
[3]
唐祎玲, 江顺亮, 徐少平, 刘婷云, 李崇禧. 基于眼优势的非对称失真立体图像质量评价. 自动化学报,
2019, 45(11): 2092-2106. doi: 10.16383/j.aas.c190124
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190124?viewType=HTML
[4]
崔文靓, 王玉静, 康守强, 谢金宝, 王庆岩, MIKULOVICHVladimir Ivanovich.
基于改进YOLOv3算法的公路车道线检测方法. 自动化学报, 2022, 48(6): 1560-1568. doi:
10.16383/j.aas.c190178
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190178?viewType=HTML
[5]
吕承侃, 沈飞, 张正涛, 张峰. 图像异常检测研究现状综述. 自动化学报, 2022, 48(6):
1402-1428. doi: 10.16383/j.aas.c200956
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200956?viewType=HTML
[6]
蒋方玲, 刘鹏程, 周祥东. 人脸活体检测综述. 自动化学报, 2021, 47(8): 1799-1821.
doi: 10.16383/j.aas.c180829
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180829?viewType=HTML
[7]
姚足, 龚勋, 陈锐, 卢奇, 罗彬. 面向行人重识别的局部特征研究进展、挑战与展望. 自动化学报,
2021, 47(12): 2742-2760. doi: 10.16383/j.aas.c190821
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190821?viewType=HTML
[8]
刘小波, 刘鹏, 蔡之华, 乔禹霖, 王凌, 汪敏. 基于深度学习的光学遥感图像目标检测研究进展.
自动化学报, 2021, 47(9): 2078-2089. doi: 10.16383/j.aas.c190455
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190455?viewType=HTML
[9]
林泓, 任硕, 杨益, 张杨忆. 融合自注意力机制和相对鉴别的无监督图像翻译. 自动化学报, 2021,
47(9): 2226-2237. doi: 10.16383/j.aas.c190074
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190074?viewType=HTML
[10]
李佳星, 赵勇先, 王京华. 基于深度学习的单幅图像超分辨率重建算法综述. 自动化学报, 2021,
47(10): 2341-2363. doi: 10.16383/j.aas.c190859
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190859?viewType=HTML
[11]
陈小鼎, 盛常冲, 匡纲要, 刘丽. 唇读研究进展与展望. 自动化学报, 2020, 46(11):
2275-2301. doi: 10.16383/j.aas.c190531
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190531?viewType=HTML
[12]
梁星星, 冯旸赫, 马扬, 程光权, 黄金才, 王琦, 周玉珍, 刘忠. 多Agent深度强化学习综述.
自动化学报, 2020, 46(12): 2537-2557. doi: 10.16383/j.aas.c180372
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180372?viewType=HTML
[13]
盖杉, 鲍中运. 基于深度学习的高噪声图像去噪算法. 自动化学报, 2020, 46(12):
2672-2680. doi: 10.16383/j.aas.c180271
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180271?viewType=HTML
[14]
罗浩, 姜伟, 范星, 张思朋. 基于深度学习的行人重识别研究进展. 自动化学报, 2019,
45(11): 2032-2049. doi: 10.16383/j.aas.c180154
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180154?viewType=HTML
[15]
陈加, 张玉麒, 宋鹏, 魏艳涛, 王煜. 深度学习在基于单幅图像的物体三维重建中的应用. 自动化学报,
2019, 45(4): 657-668. doi: 10.16383/j.aas.2018.c180236
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c180236?viewType=HTML
[16]
张号逵, 李映, 姜晔楠. 深度学习在高光谱图像分类领域的研究现状与展望. 自动化学报, 2018,
44(6): 961-977. doi: 10.16383/j.aas.2018.c170190
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170190?viewType=HTML
[17]
田娟秀, 刘国才, 谷珊珊, 鞠忠建, 刘劲光, 顾冬冬. 医学图像分析深度学习方法研究与挑战.
自动化学报, 2018, 44(3): 401-424. doi: 10.16383/j.aas.2018.c170153
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170153?viewType=HTML
[18]
刘丽, 赵凌君, 郭承玉, 王亮, 汤俊. 图像纹理分类方法研究进展和展望. 自动化学报, 2018,
44(4): 584-607. doi: 10.16383/j.aas.2018.c160452
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c160452?viewType=HTML
[19]
陈伟宏, 安吉尧, 李仁发, 李万里. 深度学习认知计算综述. 自动化学报, 2017, 43(11):
1886-1897. doi: 10.16383/j.aas.2017.c160690
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160690?viewType=HTML
[20]
胡长胜, 詹曙, 吴从中. 基于深度特征学习的图像超分辨率重建. 自动化学报, 2017, 43(5):
814-821. doi: 10.16383/j.aas.2017.c150634
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c150634?viewType=HTML
[21]
张慧, 王坤峰, 王飞跃. 深度学习在目标视觉检测中的应用进展与展望. 自动化学报, 2017,
43(8): 1289-1305. doi: 10.16383/j.aas.2017.c160822
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160822?viewType=HTML
[22]
罗建豪, 吴建鑫. 基于深度卷积特征的细粒度图像分类研究综述. 自动化学报, 2017, 43(8):
1306-1318. doi: 10.16383/j.aas.2017.c160425
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160425?viewType=HTML
[23]
耿杰, 范剑超, 初佳兰, 王洪玉. 基于深度协同稀疏编码网络的海洋浮筏SAR图像目标识别. 自动化学报,
2016, 42(4): 593-604. doi: 10.16383/j.aas.2016.c150425
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150425?viewType=HTML