0%

DCTAR

3_11

AR训练

  1. 使用 VQ-VAE 从数据集中提取特征,并以 NumPy 格式存储
    1. 每个patch大小为16X16(或者32X32,24X24)
    2. 一张图像经过处理后shape为 (1, num_aug, 256)
    3. num_aug由数据增强的方式决定,只采用镜像翻转的话为2,采用十裁剪的话为10
    4. code

DCT

low2high_order (0,1,4,8,5,2,3,6,9,12,13,10,7,11,14,15)

reverse_order (0,1,5,6,2,4,7,12,3,8,11,13,9,10,14,15)

量化设计

DCT 变换

  1. 将图像先分块,然后对每一块进行DCT变换,再合并
  2. 3232 采用 22的分块, 256256采用44的分块

    量化对dct系数的影响

不加量化: zero nums: 28, all nums is 49152, Ratio is 0.0005696614583333334

使用下面这个量化矩阵:

量化效果过头了,系数为0的比率超过99%,

todo:

  • Y_bound需要重新选
  • 量化矩阵重新选值
  • 写代码检查量化后图像
  • BPE

  • 用单一值替换矩阵

  • 先归一化再量化
  • 统计——》量化

  • 三个位平面是怎么扫描的

3_20

量化

未采用任何量化

zero nums: 70, all nums is 98304, ratio is 0.0007120768229166666