
用视频到视频的合成技术生成会跳舞的小哥哥或自己本人已经不是什么无法解决的问题,但这些方法通常需要大量目标人物的数据,而且学到的模型泛化能力相对不足。为了解决这个问题,来自英伟达的研究者提出了一种新的-合成框架,仅借助少量目标示例图像就能合成之前未见过的目标或场景的视频,在跳舞、头部特写、街景等场景中都能得到逼真的结果。合成旨在将人体姿态或分割掩模等输入的语义视频,转换为逼真的输出视频。

虽然当前2合成技术已经取得了显著进展,但依然存在以下两种局限:姿态到人体的2模型只能合成训练集中单个人的姿态,不能泛化到训练集中没有的其他人。为了克服这两种局限,英伟达的研究者提出了一种-2框架,该框架在测试时通过利用目标主体的少量示例图像,学习对以前未见主体或场景的视频进行合成。借助于一个利用注意力机制的新型网络权重生成模块,-2模型实现了在少样本情况下的泛化能力。他们进行了大量的实验验证,并利用人体跳舞、头部特写和街景等大型视频数据集与强基准做了对比。

经过训练的模型只能用于合成与训练集中视频相似的视频。英伟达的模型则可以利用测试时提供的少量示例图像来合成新人体的视频。除了和现有2方法一样输入语义视频外,-2还有第二个输入,其中包括测试时可用的目标域的一些示例图像。研究者提出的模型使用这几个示例图像,并通过新颖的网络权重生成机制实现对视频合成机制的动态配置。具体来说,他们训练一个模块来使用示例图像生成网络权重。此外,他们还精心设计了学习目标函数,以方便学习网络权重生成模块。

此外,研究者证明了其模型的性能与训练数据集中视频的多样性以及测试时可用示例图像的数量呈正相关。当模型在训练时看到更多不同的域时,可以更好地泛化并处理未见到的域)。当测试时为模型提供更多示例图像时,合成视频的质量会随之提升)。为了对条件分布进行建模,现有研究利用了简化的马尔可夫假设,并通过以下方程得出序列生成模型:软遮挡映射说明了在每个像素位置上如何组合两个图像。

简单来说,如果某个像素能在此前生成的帧中被找到,会更有利于从变形图像中复制像素值。实际上是通过神经网络参数化的函数M、W和H生成的:前面方程1得到的序列生成器希望将新颖的输入转化为语义视频,但现在有一个问题,这样的模型是做不到-的,它并没有学习到如何合成未知领域的视频。为了令生成器F适应未见过的数据,研究者使得F依赖于额外的输入。

即目标领域的K个样本图像{1,2,...,},以及对应它们对应的语义图像{1,2,...,}。这样整个生成器就可以表示为如下方程式,它嵌入了少样本学习的属性:除此之外,研究者还想让E从任意数量的示例图像中提取出模式。由于不同的示例图像可能具有不同的外观模式,而且它们与不同输入图像之间的关联程度也存在差异,研究者设计了一种注意力机制来聚合提取出的外观模式1…

为此,它们构建了一个新的包含若干完全卷积层的注意力网络。这样可以得到一个关键向量∈,其中,C是通道的数量,N=H×W是特征图的空间维度。他们还将应用于当前输入语义图像,以提取其关键向量∈。接下来,他们通过利用矩阵乘积计算了注意力权重α=。然后将注意力权重用于计算外观表征的加权平均值,然后将其输入到多层感知机以生成网络权重)。这种聚合机制在不同示例图像包含目标的不同部分时很有帮助。例如,当示例图像分别包含目标人物的正面和背面时,该注意力图可以在合成期间帮助捕捉相应的身体部位。可以看出,其他方法要么生成有瑕疵的视频,要么无法将动作完全迁移至新视频。

可以看出,即使使用相同的输入分割图,使用英伟达的方法也能得到不同的结果。下表1展示了在以上两个任务中,英伟达的方法与其他方法的定量比较。可以看出,英伟达的方法在所有性能指标上都优于其他方法。英伟达的方法可以在捕捉到输入视频动作的同时完整保留示例人物特征。研究者假设,更大的训练集可以得到质量更高的合成视频。图7显示了改变训练集中的视频数量所得到的性能结果。

显示,合成视频的质量与测试时提供的示例图像数量有关。研究者提出的注意力机制可以利用较大的示例集来更好地生成网络权重;