1. PaLI:一种联合尺度的多模态模型

大型语言模型(LLM)凭借其强大的扩展能力和灵活的任务接口,已在众多领域展现出卓越性能。而谷歌研究院提出的PaLI(Pathways Language and Image model)将这一成功经验延伸到了多语言,多模态领域,构建了一个能够同时理解图像与文本的通用智能系统。

1.1 模型核心设计

PaLI的创新在于其统一的生成式架构

  • 多模态输入:可同时处理图像和文本数据(例如根据图片生成描述,或回答关于图像的复杂问题)
  • 跨语言能力:支持超过100种语言的视觉-语言任务
  • 模块化扩展:通过整合预训练的视觉Transformer(ViT)和语言模型,复用已有能力并降低训练成本

研究人员特别发现,视觉与语言模块的协同扩展至关重要。由于传统视觉模型的规模远小于语言模型,团队专门训练了一个40亿参数的巨型ViT(ViT-e),证明了更大容量视觉模型对多模态性能的提升作用。

数据与训练

为训练PaLI,团队构建了迄今规模最大的多模态数据集之一:

  • 10亿级图像-文本对,覆盖100+语言
  • 多任务预训练混合:包含跨语言对齐、图像描述、视觉问答等多样化任务

1.2 模型架构

在传统AI系统中,不同的任务往往需要不同的模型来处理——例如:

  • 图像分类闭集视觉问答(VQA)需要从固定标签集中预测答案
  • 文本生成图像描述则要求开放式词汇输出

PaLI通过统一的文本生成接口打破了这一界限:
输入:任意图像 + 文本指令
输出:自由格式文本(可适配所有任务)
这种设计灵感来自OFA等前沿工作,但PaLI进一步通过纯提示词(prompt)区分任务类型,无需为不同任务定制模型结构。如下图所示:

PaLI团队训练了截至论文发表时已知的最大的纯视觉Transformer(ViT-e),其核心创新包括:

  • 40亿参数规模(是此前ViT-G的2.2倍)
  • 双阶段训练策略
    • 第一阶段:使用标准图像裁剪增强
    • 第二阶段:关闭增强并降低学习率
    • 最终融合两阶段权重(”模型汤”技术)

有趣的是,尽管ViT-e在ImageNet分类任务上仅比ViT-G提升有限,但在多模态任务中表现显著更优——例如在COCO图像描述任务中CIDEr指标直接提升3分。这表明视觉模型的扩展对多模态性能的影响远超单模态任务

PaLI的语言核心基于谷歌的mT5-XXL(130亿参数),这一选择带来两大优势:

  • 原生支持101种语言
  • 通过混合任务训练防止能力遗忘(在XTREME多语言基准测试中保持原模型水平)

PaLI的实验揭示了一个重要发现:当视觉模型规模突破某个阈值时,多模态任务性能会出现非线性增长。这为未来研究指明方向:

  • 开发更大规模的视觉基础模型
  • 探索视觉-语言组件的最优比例定律(类似语言模型的Chinchilla定律)

这种”一个模型解决所有问题”的范式,正在重塑多模态AI的发展轨迹——或许不久的将来,我们会看到万亿参数级的视觉-语言统一体诞生。

2. PaLI-X:大力出奇迹

PaLI-X 的四大贡献标志着多模态模型发展的新方向:

  1. 规模定律验证:视觉+语言组件需协同扩展
  2. 训练目标创新:混合目标优化学习效率
  3. 视觉编码器进化:ViT-22B 实现「视觉+OCR」双修
  4. 通用性突破:单一模型驾驭多样化任务

2.1 视觉+语言组件需协同扩展

作者团队发现,同时扩大 视觉(ViT) 和 语言(mT5) 组件的规模,能持续提升多模态性能,在现有最大规模下(如ViT-22B + 多语言大模型),性能仍未饱和,为未来更大规模的多模态模型训练提供了实证依据,类似「Chinchilla定律」在多模态领域的验证。

2.2 混合目标优化学习效率

结合两种训练目标:

  • 前缀补全(Prefix-completion):适合少样本学习(Few-shot)

模型根据输入的部分可见序列(前缀),自动补全后续内容。

训练目标:最大化正确补全序列的概率

输入:图像 + 文本前缀(例如:”这张图片展示了一只____”)

输出:生成后续文本(如:”棕色的狗在草地上奔跑”)

  • 掩码补全(Masked-token completion):提升微调(Fine-tuning)效果

随机遮盖输入文本的部分内容(类似BERT),要求模型预测被遮盖的部分。

输入:图像 + 带掩码的文本(如:”这个[MASK]的价格是$299″)

输出:预测被掩码的词(如:”手机”)

训练目标:最大化对被遮盖token的正确预测概率

这种混合策略实际上借鉴了:

  • 自回归模型(如GPT)的前缀补全优势
  • 自编码模型(如BERT)的掩码预测优势
    从而实现了「生成能力+理解能力」的双重突破,为多模态模型提供了一种新的训练范式。

作者团队声称,经过调参,模型在「少样本学习」和「微调性能」之间找到更优平衡点,突破传统多模态模型的帕累托前沿(Pareto frontier)。

注:这一概念源自经济学家维尔弗雷多·帕累托,原指资源分配中「无法让任何人更好而不损害他人」的状态。在AI中,我们将其转化为「多目标竞争的平衡艺术」。

2.3 ViT-22B 实现「视觉+OCR」双修

作者团队使用 220亿参数 ViT-22B 同时训练传统图像分类和OCR 标签分类(识别图像中的文本),显著提升需要「图文联合理解」的任务表现(如带文字的VQA、文档分析)。

2.4 通用性突破

作者展示了PaLI-X的强大性能,在 15+ 基准测试 中刷新SOTA。首次实现 单一模型 同时适应多种任务微调,且无明显性能衰减。最后附上一张PaLI-X和PaLI的性能对比表。

PaLI-3:更小,更快,更强

PaLI-3 研究通过 PaLI 框架 对比了两种视觉预训练范式(分类预训练 vs. 对比学习预训练)。并在多模态理解任务中实现了高效、小体积、强泛化的突破。以下是核心发现的逐项解读:

3.1 视觉预训练范式的关键对比

实验设计

  • 分类预训练 ViT(传统方法,如 ImageNet 监督训练)
  • 对比学习预训练 SigLIP(基于图文对齐的对比学习)

结果如下所示:


上图表示使用相同的 PaLI 设置,对比预训练模型(“SigLIP”)和分类预训练模型(“Classif”)ViT 图像编码器在各种任务中的性能比较。虽然线性分类小样本探测(第一列)表明 SigLIP 编码器在许多任务中表现较差,但当将其接入 PaLI 并迁移到其他任务中时,尤其是多模态任务,它们表现出明显的改进。
在最复杂、最细致的图像理解任务中,SigLIP 模型的表现远超 Classif 模型。

意义
验证了对比学习更适合视觉-语言联合建模,因其能捕捉细粒度的图文语义对齐。

3.2 小模型,大性能

突破性成果

  • 在 10+ 视觉-语言基准测试 中刷新 SOTA
  • 模型体积仅为当前 SOTA(Chen et al., 2023a)的 1/10
  • 视觉文本理解任务 提升尤为显著(如 TextVQA 准确率 +7%)

技术关键

  • PaLI-3 延续了 PaLI 系列的模块化理念,复用已有预训练模型而非从零构建,这种设计减少重复训练成本,同时保留各模块的专精能力,总参数量仅为5B(视觉2B + 语言3B),是同性能模型的1/10体量。
  • PaLI-3 的核心创新在于采用 SigLIP(Sigmoid Loss for Language-Image Pre-training) 方法,相比传统 CLIP,使用 Sigmoid 交叉熵替代 Softmax,降低计算复杂度,支持更大批量训练,基于模型自动筛选 WebLI 数据集中40%高质量图文对,提升训练效率。
  •  分阶段训练策略:精度与速度的平衡。PaLI-3 的训练分为三个阶段,逐步释放模型潜力:
    • 单模态预训练
      • 视觉模块以224×224分辨率进行对比学习,语言模块通过混合降噪任务预训练。
      • 冻结视觉编码器,避免多模态训练初期参数动荡。
    • 多模态融合
      • 固定视觉编码器,仅训练语言模块与跨模态注意力层,减少计算量。
      • 使用 SplitCap 目标增强图文关联性。
    • 高分辨率微调
      • 解冻视觉编码器,逐步提升分辨率至1064×1064,捕捉细节(如文档中的小文字)
  • PaLI-3 在后期引入动态分辨率调整:常规任务使用812×812分辨率,文档理解任务升级至1064×1064。这种设计在提升细粒度理解能力的同时,控制计算复杂度

3.3 零样本视频理解能力

意外发现
尽管 未使用任何视频数据预训练,模型在多个视频问答基准(如 TVQA、ActivityNet-QA)上仍达到 SOTA。

原因分析

  • SigLIP 的对比学习使模型学会帧级语义抽象
  • 多模态联合训练赋予强大的时序推理泛化能力

3.4 多语言跨模态检索新标杆

新模型发布

  • 20亿参数 ViT-G SigLIP
  • 训练数据:WebLI(覆盖 100+ 语言的超大规模图文对)

性能表现
在 36 种语言 的跨模态检索基准(Thapliyal et al., 2022)上全面超越前人工作,尤其对低资源语言(如斯瓦希里语、孟加拉语)提升显著。

1 评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

作者

arwin.yu.98@gmail.com

相关文章