3_11
AR训练
- 使用 VQ-VAE 从数据集中提取特征,并以 NumPy 格式存储
- 每个patch大小为16X16(或者32X32,24X24)
- 一张图像经过处理后shape为 (1, num_aug, 256)
- num_aug由数据增强的方式决定,只采用镜像翻转的话为2,采用十裁剪的话为10
DCT
low2high_order (0,1,4,8,5,2,3,6,9,12,13,10,7,11,14,15)
reverse_order (0,1,5,6,2,4,7,12,3,8,11,13,9,10,14,15)
量化设计
DCT 变换
不加量化: zero nums: 28, all nums is 49152, Ratio is 0.0005696614583333334
使用下面这个量化矩阵:
量化效果过头了,系数为0的比率超过99%,
todo:
- Y_bound需要重新选
- 量化矩阵重新选值
- 写代码检查量化后图像
BPE
用单一值替换矩阵
- 先归一化再量化
统计——》量化
三个位平面是怎么扫描的
3_20
量化
未采用任何量化
zero nums: 70, all nums is 98304, ratio is 0.0007120768229166666