0%

NFIG和3D-WAG中的RQ—VAE

NFIG

频率引导的重建

  • x是图像
  • E是encoder(这个encoder具体是怎么实现的?是RQ-VAE中原始的encoder吗?)
  • f是潜在特征

把特征图f作为输入,分解成多个频率子图。

  • 表示逐元素乘积
  • 表示快速傅里叶变换(FFT)操作
  • 为逆快速傅里叶变换(IFFT)
  • 是第 个用于选择目标频率范围的频率掩码
  • 为频率掩码的总数量
  • 是对应 的频率分量。

频率引导的合成器通过将不同频率部分插值到统一大小并将它们合并来重建原始图像。

频率引导的残差

给定一序列不同尺度特征图

  • and if
  • and

利用从最低频率到当前频段的累积信号来监督学习过程。

残差:

表征(representation):

其中, 是将 上采样至原始特征图尺寸的插值方法, 表示截至第 层累积的频率分量与可学习特征之间的差值。

由于学习有效的编码本存在困难,作者引入了DINO模型作为对抗判别器,以改善编码本Z。

3D-WAG

作者使用多尺度小波变换来编码shape数据,捕获高频和低频细节。选择性地识别并保留高频子带中信息量最丰富地小波细节系数。这使我们的表示能够紧凑地包含更高程度的形状细节,同时保持内存效率。

我们将多尺度小波树表示重新排列为低分辨率空间网格格式。这种重组使得高效使用3D卷积操作来处理基于小波的表示成为可能。

我们首先训练一个专门的量化自编码器,将每个三维形状编码为 K 个不同分辨率的离散标记图。

对于训练数据集中每个形状 S,自编码器学习将连续小波系数压缩为多尺度标记图的离散词汇,同时在每个尺度上保留基本的形状信息。

我们的方法采用了具有改进的多尺度量化层的三维卷积变分自动编码器架构。

Encoding

小波编码W,通过encoder获得初始特征图z,它然后在 K 步中迭代量化这个特征图,每一步对应一个预定义的分辨率

在每个尺度k,算法把当前残差tensor 插值到当前分辨率 ,到了尺度K, 初始化为z

每层插值后的tensor都会被量化(vq-vae)成一个离散的标记图

量化的token映射 用于从代码本中检索特征向量,以创建量化特征表示

的量化估计.

然后, 上采样回原来的尺度.

该过程通过从特征图 中减去解码后的量化特征 ,得到更新后的特征图 。我们对所有尺度重复这一操作。其中, 表示第 层对应的卷积层,其作用是在将 上采样至分辨率 时减少信息损失。值得注意的是,在下采样 的过程中未使用任何卷积层。通过这一递归过程,最终生成包含小波编码中层级化多分辨率信息的多尺度令牌序列

Reconstruction

多尺度重建算法通过逆向执行编码过程,从编码阶段生成的多尺度令牌图 中重建小波编码。给定多尺度令牌图序列 ,该算法通过逐步解码更精细尺度的信息,迭代重建特征图 。具体流程如下:首先将 初始化为零;对于 个尺度中的每个尺度 ,算法从 中提取量化表示 ,并通过码本()查询得到与令牌图 对应的潜在表示 。接着将此潜在表示 插值至当前分辨率 ,并将当前估计值 的残差相加,更新为新的 估计值。完成所有尺度处理后,对 应用解码器 ,生成最终重建的小波体积

自编码器的训练目标是最小化原始小波表示 与重建结果 之间的误差。此外,通过最小化承诺损失(commitment loss)确保编码器稳定地映射到特定嵌入。总损失函数 定义为:

其中超参数 分别控制重建误差项与承诺损失项的权重。