设为首页收藏本站 关注微博 关注微信

全球新闻在线

全球新闻在线 首页 科技新闻 数码科技 查看内容

一键让两次元老婆微笑,还能把猫脸变成狗脸,这篇CVPR 论文真有趣

2021-6-29 09:39| 发布者: wdb| 查看: 50| 评论: 0|原作者: [db:作者]|来自: [db:来源]

摘要: 一键让两次元老婆微笑,还能把猫脸变成狗脸,这篇CVPR 论文真有趣,更多数码科技资讯关注我们。

  本文来源雷锋网。

  给一行两次元老婆的脸蛋;

  下一行就可以让她们悉数微笑起来:

  或许关于铲屎官们来讲,把老虎猫变成?,把狗变成狼?,还可行把老虎变成猫:

  阿这,等一等,让咱来捋一下:老虎—>>猫——>>狗——>>狼,这岂非是说,老虎==狼了?

关于这一丝,也许广泛网友们早就见怪不怪了,终归苏大强也可行变身吴彦祖:

  没错,正如大伙所猜到的一样,今日AI科技点评为大伙推荐的便是一款可行学习经过操纵隐体积语义发展脸部属性编辑的GAN模子—— L2M-GAN。

  这是国民大学高瓴人力智能学校卢志武老师实验室团队提议的模子,论文曾经被CVPR 2021接收为Oral,论文题目:《L2M-GAN: Learning to Manipulate Latent Space Semantics for Facial Attribute Editing》

  1

  论文推荐

  脸部属性编辑任务的指标是操纵真正脸部相片的语义属性,其在现实中有着广大的利用,比如娱乐、协助心思治疗以及数据加强等等。随着深度生成模子的进行,最近的事业许多以GAN(Generative Adversarial Network)为根基。现存的脸部属性编辑模子面对的一种最重要的挑战是要同一时间满足两个请求:

  (1)正确地修改想要的属性;(2)保存其余没有关的消息。可是由于不同属性之中存留着各式关连,且属性与身份消息之中也存留着关连,是以在修改一种属性时很可能不经意地导致其它特征的改变,这导致了同一时间满足这两个属性是很难题的。

  为了满足这两个要求,少许全新的法子采纳了体积注意力的方法。这种方法假设每个属性有着一种对应的局部地域,相片的属性操作可行被节制在这一地域中。他们经过网站中的注意力模块去学习建模这一地域,一但这一地域被确定,他们便可行运用掩码和残差和的方法实现仅在部分地域内发展编辑。

  可是这一假设却非对全部的属性都满足,例如说性别、笑容等属性,这点属性对应的地域根本掩盖了全个脸部且与其它属性地域重叠。因而这种模子在操纵这点属性时成果其实不好。另一部分方法规把注意力放到对GAN学到的隐体积中发展隐变量的分解,从而经过分解获得属性相干的向量。给定一种预训练没有问题GAN模子,他们经过学习子映射的形式将原向量映射到表明对应属性的向量。

  可是这种方法依然存留两个难题:

  (1)他们依赖于预训练没有问题GAN模子提供的隐体积,其实不对模子从新训练。这类无从新发展端到端训练的模子的隐体积可能是一种次改良的隐体积。

  (2)这种方法常常只在数据集提供的几个标签之中发展解耦,可是另有众多并未被包涵在这点预定义的标签中的消息须要被解耦,比如光照消息和身份消息等。

  为了克服这点节制,本文提议了一种新的隐体积分解模子L2M-GAN

  该模子发展端到端的训练,并学习将隐向量准确地分解为属性相干向量和属性没有关向量,以实现相干属性消息和其它消息的解耦。与此前的这种方法相似,咱们也依据属性标签对隐体积中的变量发展解耦,可是不同的是,咱们准确地将其分解为属性相干的向量和属性没有关的向量,而非仅仅对两个预定义的属性发展解耦。

  2

  方法

  在推荐咱们的方法此前,咱们先定义“域”这一概念。“域”指的是某些属性的值组成的组合。例如想要编辑属性<性别,年龄>时,一共存留4个“域”,<男性,年老>,<女性,年老>,<男性,年青>,<女性,年青>。给定一张输入相片和它所对应的域,以及指标域,咱们的目的是合成一张隶属指标域的相片,同一时间保存输入相片的与域没有关的消息。

  如是图所示,咱们提议的模子由三个部分构成:作风编码器、作风转换器和生成器。

  在多任务学习的设计下,咱们的作风编码器由若干域的输出分支构成。为理解释方便,上图中仅显示了一种域的输出。

  作风编码器是L2M-GAN的要害构成部分,它由分解器和域转换器两个组件组成。此中,分解器从原始的隐向量中分解出与域没有关的(属性没有关的)向量

  ,再经过相减能获得域相干的(属性相干的)向量。由于咱们的指标是修改指标属性到指标域中,而其它没有关的消息不会被修改。这类概况会显露,当且仅当和

是相互垂直的。

  为这,咱们导入了垂直损耗来对这两个向量发展节制。值得注意的是,此前的方法运用垂直损耗来对两个属性发展解耦,而L2M-GAN则用该损耗来把属性相干的消息和其它全部没有关的消息分离开。这对属性编辑中保存其它消息这一请求是至关要紧的,由于其它的属性标签其实不能涵盖全部的没有关消息。在获得域相干向量今后,L2M-GAN经过域转换器把它转换到指标域中,获得显示指标域消息的域相干向量。其与域没有关向量

  生成器以一张输入相片和一种编辑后的隐编码作为输入,生成一张指标域的相片,其包涵指标域消息和输入相片的与域没有关的其它消息。与StarGAN V2相似,咱们的生成器也采纳 Adaptive Instance Normalization(AdaIN)构造来将隐编码中包涵的作风消息合一到输入相片中。

  3

  实验

  咱们在广大运用的CelebA-HQ数据集上发展实验。咱们依据CelebA的划分以及CelebA和CelebA-HQ相片间的对应关连,把CelebA-HQ划分为27176张训练相片和2824张测试相片。

  咱们将咱们的方法与其它几种全新的方法发展了对照。正文中的实验几种在“笑容”这一特定属性上,其它更多属性的结果咱们放到了附件中。值得注意的是,“笑容”这一属性是数据集所给的40个标签中最具挑战性的一种属性,由于其同一时间涉及脸部中的若干部分,添加和消除笑容都须要模子对输入相片有顶级的语义了解,这样才能同一时间修改若干脸部相片的构成部分而不改变其它消息。

  从可见化结果中可行见到,StarGAN和CycleGAN偏向于在嘴四周生成模糊和失真的结果,因而在许多数生成相片中,他们没法很好地正确编辑对应属性。ELEGANT 则总是把参考相片中与属性没有关的消息也迁转到生成相片中,这是由于它发展属性交换的隐体积并未很好地解耦。

  PA-GAN是鉴于体积注意力的方法,因而它较好地保存了少许没有关的消息,比如背景等,可是可行见到,面临难以定义确定修改地域的“笑容”属性,其平常会显露修改不充分的概况,于是没有办法正确地编辑属性。InterfaceGAN*能够生成高品质的相片,可是在少许细节上依然做的不够好,例如眼睛和嘴的生成。同一时间其有时会修改输入相片的身份消息,这是由于其仅仅考量了属性间的解耦,而无考量身份等其它消息。

  在量化结果上,咱们最重要的采纳了FID和属性操作明确率来区别评价合成相片的品质以及属性编辑的结果正确率。可行见到除了在消除笑容这一结果上的FID比PA-GAN低,其它的结果皆是超越了全部全新的结果的,而PA-GAN所以修改不充分为代价来达到较高的相片品质的。

  除了上述结果,咱们的模子还展现出了其它的能力,包括:操控编辑属性的强度、同一时间修改若干属性以及对未瞧过的相片的迁移等。

  由于通过训练以后的隐体积是一种学习到了语义消息的延续体积,当咱们线性地把切换到时,合成的相片所显示的对于指标域的语义消息也会渐渐增添,对于原域的语义消息会渐渐降低,同一时间由于咱们对、与

咱们可行经过操控超参数来操控合成相片的相干属性的强度。

  另外,咱们的L2M-GAN模子以StarGAN V2作为骨架网站,是以可行很当然地发展多属性编辑的任务。

  本文还运用了数据集外的相片测试了咱们模子的泛化能力。可行见到,咱们的模子在CelebA-HQ这一真正人脸数据集上训练过后,干脆在分布差异相比大的动画数据集上测试也可行很好地实现属性编辑的功效且合成品质很高的相片。

  同一时间,为了进一步认证咱们模子构造的有用性,咱们还在非人脸的动物数据集AFHQ上发展训练。从可见化结果中可行见到,咱们的模子在非人脸数据集上也能达到很没有问题属性编辑成果以及生成相片品质。这进一步认证了咱们的方法的有用性及泛化性。

  4

  总结

  咱们提议了一个新的鉴于隐体积分解的脸部属性编辑模子。

  咱们提议的模子L2M-GAN是首个鉴于隐体积分解的端到端脸部属性编辑模子,其可行有用地编辑局部和全局属性。这得益于提议的新的作风转换器将隐向量分解为属性相干的部分和属性没有关的部分,并对转换首尾的向量施加了垂直约束。大批的实认证明了咱们提议的L2M-GAN比其它现存的方法有显著的改良。

要害词 : GAN脸部微笑
咱要反馈
全球科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关心)