紫东太初

【喜报】ACL 2025 SAC Highlights奖|让视觉语言模型学会提问：消解视觉问答中的模糊性

发布时间: 2025-8-11

摘要：随着多模态大模型技术的快速发展，视觉语言模型（Vision-Language Models, VLMs）在视觉问答（Visual Question Answering, VQA）等任务中展现出了卓越的能力。然而，真实世界中的视觉问题往往存在模糊性，例如指代不清、用户意图表达不完整或拼写错误等，使得VLM难以直接给出准确的回答。近日，紫东太初团队提出了一种名为ClearVQA的全新基准与训练方法，首次系统性地研究了VLMs通过主动提问进行交互式澄清，以消解问题中模糊性的能力，获得ACL-2025 SAC Highlights奖项（47/8360）。

视觉问答 (Visual question answering, VQA) 任务要求模型根据给定图像和问题，生成自然语言的答案。然而，用户的语言表达差异和习惯问题，常常导致实际使用中经常出现用户问题模糊的情形。例如，面对如图1所示的视觉问题，用户可能问：“他们站在什么前面？”但实际上，用户可能指的是前景中的食物，也可能是远处的餐车。

图1 在传统的视觉问答场景中，含糊不清的问题可能会让视觉语言模型困惑，导致产生非期望的答案。在这种情况下，我们强调模型应先提出澄清性问题，并根据用户反馈生成符合预期的答案。

在多模态与VQA领域，已有一些工作研究视觉语言模型如何应对模糊的指令或问题。然而，已有工作仅通过推理可能意图来解决模糊性，忽略了实际场景中VLMs可以在与用户交互的过程中消除视觉问题中存在的模糊性，从而更准确、具体地生成答案。然而，这种交互式澄清方法的研究尚处于初步阶段，主要面临两个关键挑战：

● 缺乏一个全面有效的基准来评估模型的交互式澄清能力；

● 现有的大型VLMs更倾向于直接回答问题，而非主动提出澄清问题。

为了有效应对上述挑战，紫东太初团队提出了ClearVQA，一种强调交互式澄清的VQA基准和对应的训练方法。

图2 ClearVQA 基准中强调的视觉问题模糊性。(a) 在 ClearVQA 中，模糊性被归纳为三类：指代模糊、意图不明确和拼写模糊。Q 表示原始问题，IQ 表示用户的真实意图问题，ICQ 表示理想的澄清性问题，GT 表示真实答案。(b) 测试集实验结果表明，与表述清晰的 IQ 相比，现有视觉-语言模型（VLM）难以处理相应的含糊问题，导致 VQA 准确率显著下降。

具体而言，本研究针对视觉语言模型在处理视觉问答任务时遇到的问题模糊性，提出了一个创新的交互式澄清框架，涉及以下两个核心方法：

● ClearVQA基准的构建：研究团队首次提出了ClearVQA基准，以系统性地评估视觉语言模型（VLM）在交互式澄清场景下的表现。如图2（a）所示，ClearVQA强调了三类常见的模糊性问题，包括指代模糊（Referential ambiguity）、意图不明确（Intent underspecification）与拼写模糊（Spelling ambiguity），涵盖广泛的视觉理解、跨模态推理、知识推理和场景文本理解场景，提供了详尽的评估指标用于精确量化模型交互式澄清的能力。如图2（b）所示，相对于表述清晰的原始问题，VLMs往往难以回答ClearVQA中引入模糊性后的问题。

● 针对交互式澄清能力训练方法：为了有效地赋予模型交互式澄清能力，研究团队设计了一个完全自动化的数据生成方法，利用大语言模型（LLM）自动构建了存在模糊性的视觉问题及其对应的澄清性提问对。进一步通过监督微调（Supervised Fine-Tuning, SFT）和直接偏好优化（Direct Preference Optimization, DPO）两个训练阶段，使得模型能够主动识别问题中的模糊性并提出合理的澄清问题，以根据用户反馈精准生成答案。

通过这两个核心方法，研究团队在ClearVQA构建的训练数据上微调了开源视觉语言模型（如LLaVA），如表1所示的结果表明，所提出的方法在存在模糊性的问题上显著优于传统非交互式模型。这证明了交互式澄清在处理现实世界中视觉问题模糊性时的巨大潜力和优势。

表1 基于提出方法训练的，具备交互式模糊性澄清能力的 VLM，在ClearVQA上与通用 VLM的性能对比。

不仅如此，如表2所示的实验结果表明，基于所提出的训练策略，VLMs对于问题是否存在模糊性的判断能力甚至优于GPT-4V, 甚至是GPT-4o。这意味着我们的训练方法也能够做到让VLMs学会对于存在模糊性的问题进行交互式澄清的同时，对表述清晰的问题直接回答。

表2 VLMs区分问题是否存在模糊性的能力的量化结果。

综上所述，本研究提出的ClearVQA基准及相应方法，填补了视觉语言模型在交互式澄清领域的空白。这不仅推动了多模态理解领域的理论研究，也对未来更具人性化和智能化的人工智能系统开发具有一定影响。论文中提出的ClearVQA基准已开源，欢迎社区进一步探索与使用。

论文标题:

Pu Jian, Donglei Yu, Wen Yang, Shuo Ren, Jiajun Zhang. Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions. ACL-2025 (SAC Highlights)

代码仓库:

https://github.com/jian0805/ClearVQA