标题: CAT: 内容自适应图像分词
期刊名称及出版年份: ArXiv, 2025
第一作者与最后作者: Junhong Shen, Chunting Zhou
第一作者单位: 卡内基梅隆大学
摘要
本文介绍了内容自适应分词器(Content-Adaptive Tokenizer,简称CAT),该系统根据图像的复杂性动态调整令牌数量,解决了固定令牌图像分词器的低效问题。CAT系统利用大型语言模型(LLMs)通过文本描述评估图像复杂性,并分配可变的压缩比。通过训练嵌套变分自编码器(VAE)处理不同压缩比的图像,CAT超越了传统的固定压缩比方法。它还提升了图像生成和推理效率,改善了如FID(Frechet Inception Distance)和推理吞吐量等关键指标。
背景
大多数图像分词器为所有图像使用固定数量的令牌,这忽视了图像复杂性的变化。这导致了低效的情况,其中复杂图像可能因过度压缩而丧失细节,而简单图像则可能浪费计算资源。本文提出了CAT,作为解决这一问题的方法,引入了基于图像内容的动态令牌分配。
方法
CAT使用基于文本的评估系统,利用LLM根据图像描述和关于图像内容的预定义查询(例如,是否包含面部或文字)来评估图像的复杂性。该复杂性评分决定了合适的压缩比。嵌套VAE架构被用来自适应地将图像压缩为可变长度的潜在表示,从而改善高层次和低层次图像信息的压缩效果。
结果
CAT在多个图像数据集(COCO、ImageNet、CelebA和ChartQA)上表现优于固定压缩比的模型。与固定压缩比基准模型相比,CAT在重建质量上有显著改善,例如CelebA数据集上rFID降低了12%,ChartQA数据集上降低了39%。在图像生成方面,CAT的表现也优于固定令牌模型,包括在FID评分上的显著改善(ImageNet生成的FID为4.56)。
讨论
CAT通过适应图像的复杂性,在图像压缩和生成方面提供了更高的效率。本文强调了其灵活性,允许根据用户需求控制不同复杂度级别的图像生成。它还探讨了在训练和推理中引入可变令牌长度的挑战和权衡。
与先前研究的创新性
与现有的自适应分词方法不同,CAT使用基于图像描述得出的复杂性评分,使其即使在没有图像的情况下也能评估图像内容,这对于文本生成图像等任务至关重要。它将大型语言模型与图像复杂性评估结合,是一种新的方法。
局限性
该模型依赖于LLM生成的描述,这引入了对文本输入的依赖,影响图像复杂性的评估。此外,嵌套VAE模型可能增加训练过程中的计算复杂度,压缩比的选择也可能在某些类型的图像上影响性能。
潜在应用
CAT在需要高效图像分词和生成的任务中具有应用前景,包括图像压缩、文本生成图像和视频分词。它能够根据图像复杂性调整令牌分配,特别适用于计算效率和图像质量至关重要的场景。