4 posts tagged with "mllm"

Paper reading-Ask in Any Modality A Comprehensive Survey on Multimodal Retrieval-Augmented Generation

June 2, 2025 · 16 min read

ayanami

RAG 抽象来说就是，embed - opitional[rerank] - generate管道

有许多的增强方案，例如 Plan X RAG（将问题分解为子问题的DAG，然后设计一些critic LLM判断流的状态正常与否，一个执行LLM按照拓扑序执行DAG），Agentic RAG, feedback-driven iterative refinement

局限是：传统RAG主要针对文本，多模态集成还是挑战

流程概述如下图

Refer to caption

Multimodel RAG

LLM拓展为MLLM带来了多模态RAG的挑战

检索哪些模态
数据类型的有效融合
跨模态相关性

特定模态的编码器将不同的模态映射到共享语义空间，实现跨模态对齐

现有数据集和基准

数据集

图文任务（字幕、检索）：MS-COCO, Flickr30K, LAION-400M
利用外部知识的视觉问答: OK-VQA
多模态推理：MultimodalQA
视频文本任务：ActivityNet，YouCook2
医学：MIMIC-CXR

许多数据集都是单模态的，随后与其他模态的互补数据集集成。

Benchmark

$M^2⁢R⁢A⁢G$ : 我们执行以下步骤来处理图像，以确保它们具有高质量并且与用户查询相关：（1）缓存和转换：使用 URL 下载所有图像，并将其转换为广泛接受的格式，例如 JPG、PNG、GIF 或 WEBP。无法成功下载或转换的图像将被丢弃；（2）过滤：小于某个阈值或与查询文本的基于 CLIP 相似度得分较低的图像将被删除。此类图像通常包含非代表性的视觉内容，例如图标、横幅等。（3）重复数据删除：使用 PHash Zauner 算法删除重复或高度相似的图像。

指标设计：主要靠prompt gpt-4o做评估

文本模态指标：流畅性，相关性，忠实度，上下文准确率
多模态指标：图像连贯性（图像和周围文本逻辑的连贯性，图像有用性，图像引用（验证图像和文本引用的适当性），图像召回率（高度相关图像的召回比例）
取所有指标的平均值用于计算总分

两种联合建模策略

single-stage：直接生成多模态输出
multi-stage: 文本生成 - 图像插入 - 文本重润色 三个阶段

Refer to caption

视觉为中心的评估

MRAG-Bench, VQAv2, VisDoMBench, Dyn-VQA, ScienceQA

知识密集型评估

TriviaQA, RAG Check, Natural Questions

创新和方法

检索策略

高效和精度

现代MRAG将不同输入模态编码到统一的embedding空间实现直接跨模态检索

方法上，主要为Maximum inner product search (MIPS) 变体：近似MIPS，分布式MIPS，KNN变体，近似KNN，ScaNN

ScaNN主要结合了一些数学方法和量化方法构建了足够快的向量检索索引，这类方法都是用于海量数据的（如1M）
专注于CPU，例如做了很多量化优化让它能尽量利用现代CPU的simd指令 https://zilliz.com/blog/faiss-vs-scann-choosing-the-right-tool-for-vector-search

创新主要在效率提升和精度降低：

混合搜索
自适应量化
learned index: 神经网络驱动的索引建立，主要是数据库那边的工作

以模态为中心的检索

文本中心

BM25
bge-m3
ColBERT
RAFT(混合干扰和ground truth文档微调模型增强抗干扰能力)
...

视觉中心

直接用图像表示进行知识提取
基于参考图像的检索，如EchoSight和ImgRet
- EchoSight 引入了多模态重排

具体来说，对于一个图文问题query, 先用image视觉相似度找到对应的wiki条目，再将wiki的section与图+文的完整query（经过Q-Former之后）进行文本rerank，最后综合视觉分数和文本rerank分数，选取topk后输入LLM。专注于问题和知识库都是图+文的情况，也只是finding, 感觉确实创新度不够 Overall Structure h:500

组合多张图像特征形成综合查询表示
图文映射：Pic2word 如下图，将视觉映射到文本描述

视频中心

iRAG，增量检索
MV-Adapter
Video RAG
RTime: 时间因果关系
OmAgent：分治处理复杂视频理解
DRVideo：基于文档检索处理长视频理解
...

文档检索和布局理解

ColPali， ColQwen2: 端到端文档图像检索，动态分辨率处理，整体多页推理，绕过OCR技术，1.9k star

它的想法是这样的

OCR的多个组件和分块带来误差传播，且预处理流程耗时也长，能不能直接端到端一次使用文档截图解决
但是如果将整页的文档编码成一个向量，肯定精度不够
多向量方案最经典的ColBERT, 并且在这样一个视觉的情况下，视觉patch做多向量比文本token还合理

贡献
- benchmark ViDoRe
- 将ColBERT和视觉语言模型结合，利用多向量不仅启发了文搜文，文搜图，还启发了“给一个文档，查找相似的文档”这样的任务
- 提供了一个良好的视觉文本融合的范式（例如，解决了CLIP这样的模型缺乏文本细粒度的问题），允许最先进的VLM如Qwen-VL-2B，以相同的训练策略微调后作为嵌入器，+5.3 nDCG@5

Refer to caption

可不可以将这个范式沿用到引用溯源？

已经有一些了，ColPali自己就做了每个词条最显著的图像块

Refer to caption h:500

一些布局理解的新框架：ViTLP, DocLLM, CREAM, mPLUG-DocOwl

To our knowledge, no benchmark evaluates document retrieval systems in practical settings; in an end-to-end manner, across several document types and topics, and by evaluating the use of both textual and visual document features.

https://huggingface.co/blog/fsommers/document-similarity-colpali 基于 OCR 的文本提取，以及随后的布局和边界框分析，仍然是重要文档 AI 模型（例如 LayoutLM）的核心。例如， LayoutLMv3 对文档文本进行编码，包括文本标记序列的顺序、标记或线段的 OCR 边界框坐标以及文档本身。这在关键的文档 AI 任务中取得了最佳成果，但前提是第一步——OCR 文本提取——能够顺利完成。

但通常情况并非如此。

根据我最近的经验，OCR 瓶颈导致现实世界生产文档档案中的命名实体识别 (NER) 任务的性能下降近 50%。

Architecture h:600

为下游任务提供了一系列微调版本

Image Caption 加字幕
VQA
Detection (Detect [entity])
图像实体分割
文档理解

重排序和选择

多用多步骤检索，整合监督和非监督策略

probabilistic control keywords to improve credibility
- 对示例的关键信息进行关键词提取，为关键词赋予概率权重，使用概率进行控制信号，让模型倾向于选择高概率关键词的示例
RULE 利用统计方法(Bonferroni校正)校准相关上下文
- 利用统计方法，将“5%概率存在错误上下文”这样的朴素要求通过统计运算转换成单个上下文相关度的硬阈值
视频检索中基于聚类的关键帧选择来提高多样性

过滤机制

硬负样本挖掘：比起文本的硬负样本挖掘需要多处理跨模态的问题，如不同模态的bias等
- GME
- MM Embed
共识过滤、多向量过滤
- MuRAR
- ColPali
动态模态过滤
- 训练retriever判断哪部分是噪声
- RAFT, Img2Loc, MAIN-RAG

融合机制

分数融合和对齐

训练交叉编码器将多模态转换为文本格式
引入交错文本对，合并垂直多张few shot images（?）
CLIP分数融合，BLIP特征融合，嵌入到相同的空间
VISA 使用文档截图嵌入(DSE)模型，对齐文本查询和视觉文档表示
MA-LMM视频文本嵌入
LLM-RA 将文本和视觉嵌入连接成联合查询
...

注意力机制：

注意力方法动态加权跨模态交互，支持特定任务推理

EMERGE, MORE, Alzheimer RAG,RAMM,RAGTrans, MV-Adapter, M2-RAAP

统一的框架和预测

M3DocRAG : 多页文档展平为单个嵌入张量

PDF-MVQA 融合了基于感兴趣区域 (RoI) 和基于块 (CLIP) 的视觉语言模型

DQU-CIR 图像转换为复杂查询的文本标题以及将文本叠加到图像上来统一原始数据，然后通过 MLP 学习的权重融合嵌入

SAM-RAG生成图像的标题来对齐图像-文本模态

UFineBench 利用共享粒度解码器进行超精细文本人物检索

Dense2Sparse 投影，将来自 BLIP/ALBEF Li 等人 ( 2022a ) 等模型的密集嵌入转换为稀疏词汇向量，使用层归一化和概率扩展控制来优化存储和可解释性

增强技术

Context Enrichment

查询重构为结构化检索请求， Video-RAG,EMERGE 整合实体关系和语义描述

Img2Loc 提示中包含数据库中最相似的和最不相似的点来让模型排除预测中不可信的位置

虽然说只是prompt工作，但想法似乎挺有趣，只是这样的作法能否比简单的几层MLP强呢？

Refer to caption h:400

动态检索

SKURG 查询复杂度决定跳数
MR2AG 动态评估和过滤
OmniSearch 分解问题

生成技术

In context learning
- 记忆数据 RAG-Driver（可解释的自动驾驶）
  - 检索引擎 接收到当前驾驶场景（如视频帧和对应的车辆控制信号）后，先在专家示范的记忆库中检索出与当前最相似的历史驾驶样本。
  - 多模态大语言模型处理 将检索到的样本与当前场景一同输入多模态大语言模型（MLLM），利用指令微调（Instruction Tuning），实现三项任务：
    - 动作解释（Driving Action Explanation）：输出当前行为的自然语言解释；
    - 行为理由（Action Justification）：对决策作出合理性说明；
    - 控制信号预测（Control Signal Prediction）：给出下一个动作的具体数值（如速度和转角）

MY ALT TEXT h:600

融合上下文Fusion-in-Context Learning (没太看懂RAVEN这篇论文和融合上下文这一个比较早期的encoder-decoder模型的机制有什么关系)
Reasoning
- CoT RAGAR RAG链和RAG树，迭代方式优化事实核查
- VisDoM CoT和证据整理
- SAM-RAG 推理链和多阶段验证

指令调优：如mR2AG 用 mR2AG-IT的数据调优MLLM

来源归属

VISA 视觉来源归属

看了看他的论文，VLM直接输出边界框(也就是，输入为文档图片，输出为答案 + Box)的，再LoRA微调......

image-20250528205321419 h:400

对齐

主要是对比学习：文档/图片/字幕...

噪声管理

RagVL 噪声注入训练，数据级别加负样本，token级别加Gauss噪声

RA-CM3 随机删除查询token做query dropout

MRAG解决的任务

图像字幕
QA
事实验证
视觉叙事连贯性
图文检索
.....

未来方向

泛化

领域自适应
模态偏差，过度依赖文本
可解释性
引用来源归属，在视觉/语音等模块更严重，难以识别出对应的小区域
多模态的对抗性扰动，误导性信息

推理

多模态融入KG

如何进行实体感知检索

位置敏感性

冗余检索

具身智能

长上下文，效率，可拓展

带图像的多页文档
视频这种超长上下文

Paper reading - Fit and Prune Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

June 2, 2025 · 10 min read

ayanami

任务

当前MLLM依赖于大量的视觉token做出高精度的视觉推理，例如LLaVa使用576 image patches as visual tokens，这相较于纯文本带来了6.2倍的计算时长开销。此外，一些其他工作正在使用提高图像分辨率的方法来缓解MLLM的视觉缺陷，但进一步加剧了计算量。

作者想要得到一种方法来在MLLM的图像token输入中，进行压缩，从而进行推理时的加速，且不能太影响下游任务精度。

同时，作者认为先前的方法依赖于大量的实验来确定超参数，他提出的方法需要具有一定的泛化能力，并且超参数确认简单 can be obtained in about 5 minutes for all VL tasks

motivation

大规模视觉token在MLLM中的存在明显的冗余，MLLMs 的多头注意力机制是单向的，而非真正“全局”的。简而言之，MLLMs 仅将信息从前一个标记传递到后一个标记，其视觉标记通常置于文本问题之前。在这种情况下，它们主要作用是为文本标记提供视觉语义，但实际上其中大部分并未被激活。

如图，大部分蓝色部分（不相关语义）实际上几乎不参加推理，图像到文本注意力非常集中。

作者将确定压缩比例这一超参数的问题转换成一个统计问题。将压缩问题转换为这样的问题：给定一个采样样本集合 $D$ , 再给定一个计算开销 $\delta$ ，设压缩策略为 $P$ ，目标是找到一个压缩比够大（满足计算开销到 $\delta$ 以下）的 $P$ ，使得在 $D$ 上整体的注意力分布变化最小

方法

作者只对多头注意力层进行修剪

得到修剪策略

对于采样样本集 $D$ , 计算每一层的视觉token自注意力和视觉-文本交叉注意力。假设视觉token数N，文本token数M，第i层的第j个视觉token的平均注意力为 $a_{s,c}^{i,j}=\sum_{m=1}^{N}A_{m,j}^{i}$ , s和c分别代表自注意和交叉注意，A代表是在 $D$ 上取的平均

移除策略P可以建模成 $[t_1^*, t_2^*,...t_k^*]$ (假设模型有k层)

$t_i^*$ 表示在第i层新移除的token数量，注意前面层移除的token也不会传递给后面层，也就是说移除的总数是单调增的

采用一个注意力相差阈值 $\alpha$ 和计算开销 $\delta$ 两者一起控制裁剪，具体来说， $\delta$ 是提前给定的， $\alpha$ 是二分查找计算出来的值

height:600 width:500

用通俗的话翻译就是:

将注意力分布的差别简化为平均每个token的自注意力/交叉注意力之和的差别，即是否删除某个token，注意力和的相对变化需要小于阈值 $\alpha$
由于只计算和，所以可以对自注意力、交叉注意力两个集合分别按照大小排序 —— 注意力分布变化最小的保证转化为，总是优先考虑删除注意力最小的token
给定一个阈值 $\alpha$ , 对于每一层遍历，对于自注意力、交叉注意力分别不断尝试删除token，直到注意力变化达到阈值 $\alpha$ , 而这一层最后的策略P，即token删除数量为自注意力删除集合 $T_s$ 和交叉注意力集合 $T_c$ 的交集的大小
现在有了一个删除策略 $P$ , 计算它是否满足计算开销约束（文中并没有具体说是怎么计算的，应该是根据模型的删除后token和参数量估算FLOPS，或者是某种直接测量计算量的工具，用的显卡是单张A100）

如果满足，说明删除策略 $P$ 是可行的，但说不定 $\alpha$ 太大删除太多了，需要调小 $\alpha$ ；如果不满足，说明删除策略 $P$ 不可行，说明 $\alpha$ 太小了，需要调大 $\alpha$ 。因此，二分查找 $\alpha$ 直到找到一个满足计算开销约束的 $\alpha$ ，且这个 $\alpha$ 的左右区间长度小于阈值 $\epsilon$ (后文实验是0.01)，则这个 $\alpha$ 对应的删除策略 $P$ 就是最终的删除策略。
最后效果是在满足计算开销约束 $\delta$ 的情况下，尽可能保留更多的视觉token

关于这样的算法最后带来的 $\delta - \alpha$ 关系，作者附了这么一个曲线

根据策略在推理时修剪

在实际推理时，作者将得到的删除策略 $P$ 应用到模型中。具体来说，对于每一层的视觉token，按照 $P$ 中给定的删除数量进行修剪。

具体删除哪些token呢？作者的方法是，

对于第i层

计算第i层剩余视觉token j的自注意力和 $a_s^{i,j}$ 和交叉注意力和 $a_c^{i,j}$ ，然后将这两个和的乘积作为用于排序的参考，排序之后去除最小的 $k$ 个token（ $k$ 是删除数量）

实验结果

作者使用 LLaVA-655k 数据集（Liu et al. 2023b）中的 655 个样本（0.1%）来生成剪枝策略

在LLaVA, LLaVA-HR,LLaVA-NEXT三个具有不同大小的视觉token（7B模型，576，1024，2880 tokens）的模型上进行测试，十余个下游任务数据集上进行测试

可以看到，剪枝之后，在保持准确率几乎不下降的情况下，能够带来计算量的大幅下降

作者还做了其他几组实验

视觉冗余在不同层级的变化

采用在不同层级上，随机删除裁剪视觉Token的方法。作者发现，深层次token的冗余度更高，裁剪深层次token几乎不影响准确度，可视化图也表明深层次的注意力几乎集中在最关键的元素中。但具体到每一层的最佳剪枝比例，层间也有比较大的不同

与baseline的对比

对比了FastV和ToMe两种裁剪方法，表明了自身的SOTA性质。同时指出，在裁剪程度低的时候大家都差不多，裁剪程度高的时候才显露方法的性能差距

样本数量的消融实验

作者将"LLaVA-655k 数据集（Liu et al. 2023b）中的 655 个样本（0.1%）来生成剪枝策略" 换成1%的数据，发现性能相当。作者进一步推测MLLM层间信息交换的模式可能更多地依赖于模型本身的特性，而在不同的输入样本上有较高的泛化性，FitPrune 方法可以有效地捕捉这种模式。同时下面的表还表明，这个方法有着很强的少样本泛化性，确实是模型的特性而不是样本数据集的特性，在仅有10个样本的时候也能得到非常优秀的策略

结论

作者介绍了一种FitPrune的无训练方法，用于对 MLLMs 进行视觉标记剪枝。通过将标记剪枝问题表述为一个统计问题，FitPrune 旨在最小化注意力分布的偏差，从而实现冗余视觉token的高效剪枝，进而提高计算效率。FitPrune 能够基于少量数据生成最优的剪枝策略，避免了昂贵的手动试验。

Paper reading-Eagle Exploring The Design Space for Multi- modal LLMs with Mixture of Encoders

June 2, 2025 · 8 min read

ayanami

nvidia的论文, 主要还是实践训练MLLM上的一堆经验

任务

探究通过使用不同的视觉编码器和分辨率来提高MLLM系统性能的不同设计带来的效果

motivation

解读高分辨率的精细视觉信息是MLLM重要的课题，常用的CLIP-ViT 预训练时候的分辨率只有如224*224或者336*336，对OCR等细粒度信息不够好
近期研究发现enhanced visual perception显著减少幻觉和提高性能，许多近期MLLM用了混合视觉编码器
- 有扩大视觉编码器的预训练量和参数的
- 有将高分辨率编码器和CLIP融合的
- 也有更复杂的融合和路由，根据任务选用不同编码器，"视觉MoE"的
但缺乏对此类方法设计的通用考量, 以及综合性的大benchmark

方法

对不同的视觉编码器进行基准测试，寻找更高分辨率自适应的方案
对不同的视觉编码器混合策略做同类比较(论文将近期的混合策略归为了CC,SA,LH等几类)
寻找多个视觉编码器的最优组合
改进pre-alignment和数据混合

增加输入分辨率的做法

Tiling 将输入分割为子图，CLIP-ViT单独编码
直接放大输入分辨率，并对位置编码进行进行插值

Eagle做的实验：

预训练，LLaVA-1.5 + CLIP 基础模型，和LLaVA相同的 595k 图文对，冻结整个模型，只训练projection layer

SFT： 1809k 多模态对话数据

评估：11个任务，包含VQA任务， OCR/文档/图表理解，视觉中心任务，基于知识的任务

结果 - Strong CLIP

如果插值，需要unfrozen视觉编码器，否则损害性能。这个结论和以前实验不同。
输入分辨率和预训练分辨率差越大，插值越掉点
672分辨率下，插值和子图方法性能差不多，但是考虑效率的话还是插值更好
进行分辨率adaption，300M的CLIP-ViT性能接近6B的InternVL

按照下表，nvidia着重提了448*448+解锁视觉编码器的方案，300M就达到非常接近SOTA的性能了。

Vision Encoder

选取了以下的encoder

视觉语言对比学习的视觉Encoder，比如CLIP的ViT和OpenCLIP的ConxNeXt；
以目标检测为中心的任务预训练的视觉Encoder，EVA-02
OCR上训练的Pix2Struct
分割上预训练的SAM
自监督训练的DINO-V2

对不同预训练的视觉encoder输出的特征图进行resize和插值，使得视觉token数量相同.

结果：

分析：

在freeze的情况下他们通常能在和自己预训练任务相近的MLLM benchmark上实现最佳性能。例如来自CLIP的ConvNeXt进行了图文对齐，因此在TextVQA、SQA任务上时所有编码器里表现的最好的。而Text Recognition任务上训练所得的Pix2Struct视觉编码器，在OCR任务上是表现的最好的。
当跟随CLIP-ViT高分辨率拓展策略，unfreeze视觉编码器时，基本都能有性能提升，也有反超对应domain上训练的视觉编码器的可能性，例如CLIP-ConvNeXt微调后在OCR上性能超过了Pix2Struct。

融合策略：

Refer to caption

序列维度拼接：SA sequence append
通道维度拼接：CC concat channel
LLAVA-HR式：LH 将高分辨率特征使用adapter注入低分辨率特征中，维持序列长度、通道维度不变
Mini-Gemini式：MG 将高分辨率特征使用local windows cross attention注入到低分辨率的queries中。
Deformable Attention式：DA 将MG的local windows变成了Deformable Attention

结果：

融合策略越复杂，性能的提升似乎越差，简单的SA/CC稳定涨点
由于SA需要处理边长的序列长度，所以后面用CC

Pre-Alignment

Refer to caption

考虑对其他的视觉专家进行预先的文本模态对齐，再学会去融合不同视觉专家的特征。因此在目前的两阶段MLLM训练框架之前，添加了一个vision-language pre-alignment training阶段，首先使用next-token prediction监督每个视觉专家的特征+各自单独的projector（与LLaVA原始预训练策略不同）训练，让其与一个冻结的较小语言模型对齐。

进行一个额外的预先对齐，可以比较好提升MLLM性能。
预对齐后，再合并所有的视觉专家，训练projector和encoder
虽然在 SFT 期间解冻视觉专家有助于通过更新视觉专家以适应语言模型来提高性能，但预对齐策略更有效地减轻了每位视觉专家的固有偏差，并稳定了训练过程，从而提高了整体性能（unfreeze + pre-align效果加性）

Fusion choice

w h:600

采用上述的3阶段训练和最好最简单的Channel concat策略，就可以进一步研究哪种视觉编码器组合最好。组合的策略是依次增加模型视觉编码器的数量，每次的选择基于上一个数量下最好的组合进行进一步添加。四到五个编码器（X4, X5）目前看来就已经比较合适了。

最佳组合是 CLIP 、 ConvNeXt 、 SAM 、 Pix2Struct 和 EVA-02

最终和benchmark的比较

Refer to caption

高分辨率的文档任务的展示: 红色baseline失败，蓝色eagle成功

h:600

结论

MLLM训练期间解锁视觉编码器matters
设计先进的融合策略并不能较简单的通道级联显露优势
更多的视觉专家MoE能带来持续增益，是增强MLLM能力的有效途径
视觉专家如果开始时候设计的任务和文本无关（没有对齐），用冻结的LLM进行预对齐（+解锁）后再整体训练能显著提升性能

Paper reading - Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

May 30, 2025 · 5 min read

ayanami

开发了一个交错文本和图像生成综合评估框架ISG

使用scene graph捕获文本和图像的关系，提供四个级别的评估：整体的、结构性的、块级别和特定于图像的，并引入了一个新benchmark，ISG-BENCH

作者实验认为现有模型在端到端生成文本图像交错内容时，效果不好，于是做了一个Agent来完成这个任务

motivation

如图，现有MLLM不能直接生成交错文本和图像内容，需要将生成图像部分交给SD等外部模型再组合，带来了更大的开销与不一致性

为了专注这一任务，作者的Benchmark优先考虑视觉为中心的任务，例如风格迁移等图像输出的特定要求。

作者的数据集和人工标注比较有较高Pearson相似度，以此说明准确性
作者表示先前没什么benchmark主要以视觉为中心，以此说明新颖度
但有一说一，作者的表还是有点不公平的，例如它自己的sample很少(一千多)，同时评估级别是自己提出的这个四级别评估

作者的表

方法

image-20250530153213139 h:500

注意点: 中间看起来很复杂, 实际上是很多组prompt完成的

评估框架将query拆成scene-graph-like structure，其中图文作为节点，而它们的关系作为边

在整体，结构，块和图四级别的评估中，每个级别都会生成一些用于评估的QA对。作者的意图是，让整体和结构评估连贯性和整体质量，块和图像评估指令完成的细节

结构性：用一个LLM预估图文交替内容的结构，然后与实际生成的内容进行比较

整体：MLLM-as-a-Judge和CoT，用1-10打分配合Yes/No判断

块：将prompt P用LLM表示成三元组（subj, obj, rel）,再用LLM生成问题，并用VQA评估

图像：从prompt 给的图像中用LLM抽出三元组关系和实体，判断query类别，根据类别不同使用不同的prompt产生判断的VQA，例如如果是"How to"，则需要包含特定实体，如果是“Painting”，则需要图像的准确生成

image-20250530163331400 h:600

实验结果

所有统一模型在按照说明生成交错文本和图像内容方面都存在重大缺陷。许多模型只生成 1 到 3 张图像，而有些模型根本无法生成任何图像。

整体评估结果与三个细粒度级别的评估结果之间的不一致表明，即使同时提供用户指示和正确的黄金答案，MLLM-as-a-Judge 在全面评估回答方面也存在显着局限性。具体来说，Judge MLLM 努力根据细粒度的标准评估响应，例如输出结构（包括图像数量）和提示中规定的详细文本-图像关系。此外，我们对结果的分析揭示了 MLLM-as-a-Judge 中固有的偏见，即“图像质量偏见”，即具有更高质量图像内容的回答始终获得更高的分数，尽管这些回答可能违反用户的指导要求和评判指南。这种偏见表明，即使获得了黄金答案，MLLM-as-a-Judge 仍然无法正确地对符合指定要求的交错回答进行准确评估。

效果展示: 跑一次它这个Benchmark要60美刀

image-20250530163815015 h:600

结论

MLLM-as-a-judge存在图像质量bias
现有端到端MLLM生成图文内容效果不佳, 可能需要在工程性上的agent做补救

Multimodel RAG

现有数据集和基准

数据集​

Benchmark​

两种联合建模策略

视觉为中心的评估

知识密集型评估

创新和方法​

检索策略​

高效和精度​

以模态为中心的检索​

文档检索和布局理解​

重排序和选择​

相关性评估​

过滤机制​

融合机制​

增强技术​

生成技术​

来源归属​

对齐​

噪声管理​

MRAG解决的任务​

未来方向​

泛化​

推理​

长上下文，效率，可拓展​

任务​

motivation​

方法​

得到修剪策略​

根据策略在推理时修剪​

实验结果​

结论​

任务

motivation

方法

增加输入分辨率的做法​

Eagle做的实验：​

结果 - Strong CLIP​

Vision Encoder

结果：​

分析：​

融合策略：

结果：​

Pre-Alignment

Fusion choice

最终和benchmark的比较

高分辨率的文档任务的展示: 红色baseline失败，蓝色eagle成功

结论

motivation​

作者的表​

方法

实验结果​

效果展示: 跑一次它这个Benchmark要60美刀

结论

数据集

Benchmark

创新和方法

检索策略

高效和精度

以模态为中心的检索

文档检索和布局理解

重排序和选择

相关性评估

过滤机制

融合机制

增强技术

生成技术

来源归属

对齐

噪声管理

MRAG解决的任务

未来方向

泛化

推理

长上下文，效率，可拓展

任务

motivation

方法

得到修剪策略

根据策略在推理时修剪

实验结果

结论

增加输入分辨率的做法

Eagle做的实验：

结果 - Strong CLIP

结果：

分析：

结果：

motivation

作者的表

实验结果