「模型解读」历数GAN的5大基本结构

时间:2019-07-16 来源: 旅游
ag真人赌博网

The generation of confrontation networks is the biggest advancement in the field of unsupervised learning in recent years. It is hailed as the next generation of deep learning. Whether it is research heat or the number of papers, it has approached or even surpassed the traditional discriminant CNN architecture.

This time we briefly introduce the mainstream model structure that generates the confrontation network, from one generator to one discriminator to multiple generators and multiple discriminators.

Author | 言有三

Edit | There are three words

Our article is not intended to tell GAN from the beginning, so if you don't have a relevant foundation, let's take a look at our introduction of the previous issue of GAN.

[Technical Review] There are three sayings that GANs (on)

The basic structure of a GAN for generating images is this.

1c3eecc7a73a4fb4bc090b8639f6a8e6

A Generator is a generator that inputs noise and outputs the resulting image. Usually noise is a one-dimensional vector that is reshaped into a two-dimensional image and then uses several deconvolution layers to learn upsampling.

For example, the full convolution DCGAN model [1], the input is a vector of 1 * 100, and then through a fully connected layer learning, reshape to 4 * 4 * 1024 tensor, and then through 4 upsampling deconvolution network, Generate a 64*64 map.

Discrimator is a common CNN classifier that classifies real samples or generated fake samples. It is also a convolutional layer in DCGAN.

The benefits of using multiple discriminators [2] bring advantages similar to boosting. Training a too good discriminator can damage the performance of the generator, which is a big problem for GAN. If you can train multiple less-discriminating discriminators and then boosting, you can achieve good results, even the dropout technology can be applied.

xx

696cee98d29a4c2581866cb2c164a298

多个判别器还可以相互进行分工,比如在图像分类中,一个进行粗粒度的分类,一个进行细粒度的分类。在语音任务中,各自用于不同声道的处理。

一般来说,生成器相比判别器要完成的任务更难,因为它要完成数据概率密度的拟合,而判别器只需要进行判别,导致影响GAN性能的一个问题就是模式坍塌,即生成高度相似的样本。

采用多个生成器单个判别器的方法,可以有效地缓解这个问题。

12c9c6fe4e7f499e8499a0779eff3d30

从上图结构可以看出,多个生成器采用同样的结构,在网络的浅层还共享权重。

在利用GAN进行半监督的图像分类任务时,判别器需要同时担任两个角色,即判别生成的假样本,以及预测类别,这对判别器提出了较高的要求。通过增加一个分类器可以分担判别器的工作量,即将捕捉样本和标签的条件分布这一任务交给生成器和分类器,而判别器只专注于区分真实样本和生成的样本。

这一类结构以Triple Generative Adversarial Nets为代表,下图是它的网络结构。

fcaede1811f2499b88c7e619deb6a3c2

多个生成器和多个判别器就又有几种。

5.1级联结构[5]

早期以DCGAN为代表的网络生成的图片分辨率太低,质量不够好,都不超过100×100,在32×32或者64×64左右。这是因为难以一次性学习到生成高分辨率的样本,收敛过程容易不稳定。

XX类似的问题在图像分割,目标检测中都存在。在目标检测中,级联网络被广泛使用,即采用从粗到精的方法依次改进检测器的性能。在图像分割中进行上采样时也采用学习小倍率的放大而不是大倍率的方法,如利用两个2倍上采样替换一个4倍的上采样,不仅可以增强网络的表达能力,还降低了学习难度。

基于此,金字塔GAN结构被提出并广泛使用,它参考图像领域里面的金字塔结构由粗到精一步一步生成图像,并添加残差进行学习。

b5d2f66d081b460aaacfb1a2f72a8a7e

上图就是它的结构,从低分辨率Z3开始,逐级提升,最终生成I0,这是一个金字塔形状的结构,以下符号较多用图片代替。

bf46d3d036cb45f6aaeb452222e6ce89

5.2并行与循环结构[6]

GAN有一大应用就是风格化,实现两个域之间的风格互换,以CycleGAN [6]为典型代表它包含了多个生成器和多个判别器.Cycle的典型结构如下:

7ffce9771083487887f37e559ea95d7d

6bdb09fe2a8846b29690dacb2996cb65

X和分别表示两个域的图像,可知这里存在两个生成器和女,分别用于从X到的生成和到X到生成,包含两个判别器,分别是DX和镝。而损失本身也增加了一个循环损失,感兴趣读者可以去细读文章。

另外在跨域学习中也常用到多判别器多生成器多结构,分别学习不同的域。而且各个域的判别器和生成器通常会共享一些权重,如下图是CoGAN [7]的网络结构。

72c3d42e83dc44069b8084cbda48a045

XX还有一些分散的结构,例如3D GAN,RNN GAN,因为它们都是上述类别的变体,并且不会统一。

[1] Radford A,Metz L,Chintala S,et al。基于深度卷积生成对抗网络的无监督表示学习[J]。 2016年国际学习代表会议。

[2] Durugkar I P,Gemp I,Mahadevan S,et al。生成多对抗网络[J]。 2017年国际学习代表会议。

[3] Ghosh A,Kulharia V,Namboodiri V P,et al。多智能体多元生成对抗网络[J]。计算机视觉和模式识别,2018: 8513-8521。

[4] Chongxuan L I,Xu T,Zhu J,et al。三代生成对抗网[J]。神经信息处理系统,2017: 4088-4098。

[5] Denton E L,Chintala S,Szlam A,et al。利用拉普拉斯金字塔的对抗网络的深度生成图像模型[J]。神经信息处理系统,2015: 1486-1494。

[6] Zhu J,Park T,Isola P,et al。使用周期一致的对抗网络进行不成对的图像到图像的翻译[J]。国际计算机视觉会议,2017年: 2242-2251。

[7] Liu M,Tuzel O.耦合生成对抗网络[J]。神经信息处理系统,2016: 469-477。

XXGAN is now in a fierce fire. It is a good time to learn. If you don't keep up, what are you waiting for?

For more network model interpretation, refer to the AI Knowledge Planet

dac1d98e2a04480281e3d0d559848714

xx
新闻排行
  1. 了解耐磨浆料阀的内部结构,以便更好地安装和使用耐磨浆料阀有效地解决了先前浆料阀渣渣的缺点。该产品结合

    了解耐磨浆料阀的内部结构,以便更好地安装和使用耐磨浆料阀有效地解决了先前浆料阀渣渣的缺点。该产品结合...

  2. 由于计划泄露,主力决定提前做,今天上帝必须更新版本情绪价值,情绪和绝望,今天杀人后有一个期待拉升,小

    由于计划泄露,主力决定提前做,今天上帝必须更新版本情绪价值,情绪和绝望,今天杀人后有一个期待拉升,小...

  3. 了解耐磨浆料阀的内部结构,以便更好地安装和使用耐磨浆料阀有效地解决了先前浆料阀渣渣的缺点。该产品结合

    了解耐磨浆料阀的内部结构,以便更好地安装和使用耐磨浆料阀有效地解决了先前浆料阀渣渣的缺点。该产品结合...

  4. 黑色外套既时尚又温暖。最后,你如何搭配黑色外套?这里的粉丝们一起看欧美黑色外套,寻找灵感!事实上,在

    黑色外套既时尚又温暖。最后,你如何搭配黑色外套?这里的粉丝们一起看欧美黑色外套,寻找灵感!事实上,在...

  5. 《道德经》生活智慧,脾气暴躁,态度好,期望少1小脾气《道德经》谈话:“如果你很好,就不能争取水和一切?

    《道德经》生活智慧,脾气暴躁,态度好,期望少1小脾气《道德经》谈话:“如果你很好,就不能争取水和一切?...

  6. “邛崃田野调查笔记”大同龙口:陶巴周围的美丽传说大同乡镇位于南山的陶巴村以西2公里处。两座山之间有两?

    “邛崃田野调查笔记”大同龙口:陶巴周围的美丽传说大同乡镇位于南山的陶巴村以西2公里处。两座山之间有两?...

  7. 《道德经》生活智慧,脾气暴躁,态度好,期望少1小脾气《道德经》谈话:“如果你很好,就不能争取水和一切?

    《道德经》生活智慧,脾气暴躁,态度好,期望少1小脾气《道德经》谈话:“如果你很好,就不能争取水和一切?...

  8. “邛崃田野调查笔记”大同龙口:陶巴周围的美丽传说大同乡镇位于南山的陶巴村以西2公里处。两座山之间有两?

    “邛崃田野调查笔记”大同龙口:陶巴周围的美丽传说大同乡镇位于南山的陶巴村以西2公里处。两座山之间有两?...

  9. “手机基站有辐射,5G基站都超过4G,因此5G辐射将大于4G,这对人体非常有害。”随着5G商业第一年的开放,以

    “手机基站有辐射,5G基站都超过4G,因此5G辐射将大于4G,这对人体非常有害。”随着5G商业第一年的开放,以...

  10. 《道德经》生活智慧,脾气暴躁,态度好,期望少1小脾气《道德经》谈话:“如果你很好,就不能争取水和一切?

    《道德经》生活智慧,脾气暴躁,态度好,期望少1小脾气《道德经》谈话:“如果你很好,就不能争取水和一切?...

日期归档
友情链接