论文创新及观点2
创始人
2024-05-08 21:38:09
0

题目

Zero-Shot Visual Recognition using Semantics-Preserving Adversarial Embedding Networks

摘要

基于visual-semantic embedding,的ZSL方法存在信息损失(semantic loss),的问题,在训练过程中,如果某些语义信息对分类的区分性不大,则会被丢弃,但是这些信息往往对识别unseen class很重要,
为了避免semantic loss,我们提出Semantic-Preserving Adversial Embedding Network(SP-AEN), 通过引入visual-to-semantic space embedder,将语义空间分解成两个子空间,分别进行分类和重构任务,(可以认为两个互相冲突的任务),通过对这两个子空间进行对抗学习,SP-AEN,可以将语义信息从重构子空间迁移到判别子空间。从而改进对unseen class的识别效果,与先前的方法相比,SP-AEN不仅可以提升识别效果,还能生成图像,验证了语义信息保留的有效性。
Note:该方法仍然是visual-semantic embedding方法。

Motivation

基于visual semantic embedding,的ZSL方法的语义迁移能力,受限于semantic loss问题,训练阶段,丢弃低方差信息,(判别信息较少)对分类有利,但是由于seen class 和unseen class 之间的语义差异,这些信息在测试时,对于unseen class ,往往具有较强的判别性,这将导致对不可见类别的语义信息的损失。主要原因是虽然class embedding具有丰富的语义信息,但其只是语义空间中的一个点,图像映射(将视觉空间映射到语义空间)就会坍塌这一点。
可以利用重构(由某个图像得到的语义向量能够映射回这个图像)来保留语义信息,那么其中任意两个语义向量,(由两个图像映射得到)需要保留足够的语义信息才能将其分离开,(这样就能避免了映射坍塌到一点),否则不能重构,然而分类和重构本质上是两个相互冲突的任务:重构希望能够保留图像的细节信息,而分类则抑制无关信息,下面的例子具体说明:
在这里插入图片描述
在这里插入图片描述
为了解决这个冲突,提出新的Visual semantic embedding框架,SP-AEN。如果2,引入了一个新的映射, Visual-to-semantc space embedder.
F:V→SF: V \rightarrow SF:V→S和判别器DDD来区分F(x)F(x)F(x),E(x)E(x)E(x)
引入F,DF,DF,D来帮助EEE保留语义信息。

语义迁移

基于映射EEE发生了semantic loss,可以利用FFF 从其他类别E(x)E(x)E(x)
中弥补信息,而且判别器DDD,会使得F(x)F(x)F(x)和E(x)E(x)E(x)趋于相同分布,从而从F(x)F(x)F(x)迁移语义到E(x)E(x)E(x)中,例如,E(bird)E(bird)E(bird)丢失了spotty属性信息,可以通过E(leapard)E(leapard)E(leapard)补偿,因为spotty是leapard类别中具有强判别能力的属性,会被保留。

分离和分类重构任务

重构由F,GF,GF,G来实现,分类由EEE实现,
这样,约束G(E(x))≈x,G(E(x’))≈x’G(E(x)) ≈ x , G(E(x’)) ≈ x’G(E(x))≈x,G(E(x’))≈x’ 就被G(F(x))≈x,G(F(x’))≈x’G(F(x)) ≈ x , G(F(x’)) ≈ x’G(F(x))≈x,G(F(x’))≈x’,替代,F(x)、F(x‘)F(x)、F(x‘)F(x)、F(x‘)不需要很接近,(x、x’x、x’x、x’,来两个相似的类别,分类任务要求E(x),E(x‘)E(x),E(x‘)E(x),E(x‘)接近,导致重构效果不好),从而解决分类和重构的冲突,此外G(F(x))G(F(x))G(F(x))还能用来生成图像,验证了语义信息被更好的保留

Method

在这里插入图片描述

Classfication

利用基于最大间隔的排序损失来实现分类:
在这里插入图片描述

Reconstruction

利用256×256×3256 \times 256 \times 3256×256×3的原始RGB图像,进行图像重构,因为使用CNN网络提取的图像特征本质上也是语义空间,也会存在语义信息损失.
在这里插入图片描述

Adversial

F(x)F(x)F(x)具有丰富的语义信息,我们希望可以将F(x)F(x)F(x)的语义迁移到E(x’)E(x’)E(x’)中,所以,利用判别器DDD,将F(x)F(x)F(x)视为真, E(x’)E(x’)E(x’)视为假,
在这里插入图片描述
Note:Note:最小化LadvLadvLadv容易引起modecollapsemode collapsemodecollapse问题。当x、x’x、x’x、x’是相似的图像(通常是同一类别),损失函数LadvLadvLadv会被 ∥F(x)−E(x’)∥≈0∥F(x)− E(x’)∥ ≈ 0∥F(x)−E(x’)∥≈0主导,这将导致不能在类别之间迁移语义信息。这里,利用WGANWGANWGAN,有助于梯度限制和训练稳定性

Full objective

在这里插入图片描述
在这里插入图片描述
可以将FFF看作encoder,G看作DecoderDecoderDecoder,那么F(x)F(x)F(x)可以看作bottlenecklayerbottleneck layerbottlenecklayer,要其能够匹配E(x)E(x)E(x)的分布,这样SP-AEN是由监督的对抗式自编码器,那么SP-AEN能够被修改以适应别的ZSL框架,比如半监督的SP−AENSP-AENSP−AEN(在F(x)F(x)F(x)上施加额外的对抗损失函数来匹配一个先验分布)。

  • Visual-to-semantci EEE
  • semantic-to-Visual GGG
  • an independent visual-to-semantic FFF
  • an adversarial-style discriminator DDD
  • the semantic embedding E(x)E(x)E(x)

技术操作

  • visual-semantic embedding
  • semantic loss
  • Adversarial Embedding Network
  • visual-to-semantic space embedder
  • Classifcaiion 和Reconstruction.
  • Adversial
  • 判别器D
  • 语义迁移
  • 视觉空间和语义空间
  • 最大间隔排序损失
  • 对抗自动编码器
  • photo-realistic reconstruction
  • Semantic autoencoder
  • all the class embeddings
  • a flexible plug-and-play
  • end-to-end fine-tune fashion
  • the ranking based classification loss
  • GAN
  • a large-margin based ranking loss function
  • MSRA random initializer
  • grid search
  • harmonic mean

创新

为了语义损失问题,我们提出来一个新颖的零样本方法嵌入架构SP−AENSP-AENSP−AEN 去保存语义信息。

  • 对抗学习来实现语义迁移。: the two independent semantic embeding.

未来工作

  • 开发模型一般找一个基准模型,借鉴原有名词:eg:半监督、对抗、监督等名词进行修改与调试模型。
  • incorporating(合并)generative models into SP-AEN, so as to hallucinating photo realistic images for unseen or even synthesized classes
  • developing new ZSL frameworks such as semi-supervised SP-AEN by imposing a prior semantic space

后续

  • 开发一个新的框架去学习与掌握

开发模型思路

  • 半监督
  • 生成式模型
  • 对抗训练
  • 元学习框架
    后续继续补充。
  • 后续在继续将各种model全部都将其搞完整,慢慢的将其全部都搞定都行啦的理由与打算。后者在将相关技术大致了解一波。本篇论文算结束。

问题

  • 如何保留语义信息
  • 分类—重构——对抗——最终目标
  • domain adaptation
  • Domain Shift and Hubness.
  • r data augmentation

相关内容

热门资讯

这个小县城用“辣”味征服世界   冀南平原上,连片的辣椒田如红色海洋翻涌——细长的羊角椒紧紧扒着枝头荡来荡去,油亮的皮肤晒得通红。...
美股下挫,携程大跌逾17%;美... 美股三大指数集体低开 携程跌超17% 1月14日晚间,美股三大指数集体低开,道指跌0.14%,纳指跌...
提神奶茶藏风险!过量或致“咖啡...   近日,包括奶茶在内的现制茶饮的咖啡因含量引发网友讨论。那么,奶茶里究竟有没有咖啡因?咖啡因对人体...
全球媒体聚焦 | 多国媒体:中...   14日,中国海关发布数据显示,去年中国进出口总值超过45万亿元,创历史新高。这一消息引起多家外媒...
河套深圳园区货物进出口有关税收...   财政部、海关总署、国家税务总局1月14日对外发布通知,明确河套深港科技创新合作区深圳园区货物进出...
“十四五”期间我国土地资源利用...   央视网消息(新闻联播):记者从自然资源部了解到,“十四五”期间,我国持续推进土地节约集约利用,在...
从“单一红”到“百变潮” 花灯...   尽管距离农历马年还有一段时间,但是眼下各地的花灯已经进入了生产和销售的旺季。红红火火的灯笼代表着...
新疆经济看点丨浩瀚沙海长出生态...   在塔克拉玛干沙漠边缘,黄沙正悄然蝶变“绿色银行”。  2025年,新疆践行“生态产业化、产业生态...
网传“男子牵马乘西安地铁”系谣...   2026年1月14日  辟 谣官方回应“不认证无法参与调资,退休工资将延迟发放”等不实信息  详...
自以为境外藏钱没法查 面对铁证...   由中央纪委国家监委宣传部与中央广播电视总台央视联合摄制的电视专题片《一步不停歇 半步不退让》,1...