NFIG
频率引导的重建
- x是图像
- E是encoder(这个encoder具体是怎么实现的?是RQ-VAE中原始的encoder吗?)
- f是潜在特征
把特征图f作为输入,分解成多个频率子图。
表示逐元素乘积 表示快速傅里叶变换(FFT)操作 为逆快速傅里叶变换(IFFT) 是第 个用于选择目标频率范围的频率掩码 为频率掩码的总数量 是对应 的频率分量。
频率引导的合成器通过将不同频率部分插值到统一大小并将它们合并来重建原始图像。
频率引导的残差
给定一序列不同尺度特征图
and if and
利用从最低频率到当前频段的累积信号来监督学习过程。
残差
表征(representation)
其中,
由于学习有效的编码本存在困难,作者引入了DINO模型作为对抗判别器,以改善编码本Z。
3D-WAG
作者使用多尺度小波变换来编码shape数据,捕获高频和低频细节。选择性地识别并保留高频子带中信息量最丰富地小波细节系数。这使我们的表示能够紧凑地包含更高程度的形状细节,同时保持内存效率。
我们将多尺度小波树表示重新排列为低分辨率空间网格格式。这种重组使得高效使用3D卷积操作来处理基于小波的表示成为可能。
我们首先训练一个专门的量化自编码器,将每个三维形状编码为 K 个不同分辨率的离散标记图。
对于训练数据集中每个形状 S,自编码器学习将连续小波系数压缩为多尺度标记图的离散词汇,同时在每个尺度上保留基本的形状信息。
我们的方法采用了具有改进的多尺度量化层的三维卷积变分自动编码器架构。
Encoding
小波编码W,通过encoder获得初始特征图z,它然后在 K 步中迭代量化这个特征图,每一步对应一个预定义的分辨率
在每个尺度k,算法把当前残差tensor
每层插值后的tensor都会被量化(vq-vae)成一个离散的标记图
量化的token映射
然后,
该过程通过从特征图
Reconstruction
多尺度重建算法通过逆向执行编码过程,从编码阶段生成的多尺度令牌图
自编码器的训练目标是最小化原始小波表示
其中超参数