发布时间: 2025-8-11
摘要:随着多模态大模型技术的快速发展,视觉语言模型(Vision-Language Models, VLMs)在视觉问答(Visual Question Answering, VQA)等任务中展现出了卓越的能力。然而,真实世界中的视觉问题往往存在模糊性,例如指代不清、用户意图表达不完整或拼写错误等,使得VLM难以直接给出准确的回答。近日,紫东太初团队提出了一种名为ClearVQA的全新基准与训练方法,首次系统性地研究了VLMs通过主动提问进行交互式澄清,以消解问题中模糊性的能力,获得ACL-2025 SAC Highlights奖项(47/8360)。
视觉问答 (Visual question answering, VQA) 任务要求模型根据给定图像和问题,生成自然语言的答案。然而,用户的语言表达差异和习惯问题,常常导致实际使用中经常出现用户问题模糊的情形。例如,面对如图1所示的视觉问题,用户可能问:“他们站在什么前面?”但实际上,用户可能指的是前景中的食物,也可能是远处的餐车。
图1 在传统的视觉问答场景中,含糊不清的问题可能会让视觉语言模型困惑,导致产生非期望的答案。在这种情况下,我们强调模型应先提出澄清性问题,并根据用户反馈生成符合预期的答案。
在多模态与VQA领域,已有一些工作研究视觉语言模型如何应对模糊的指令或问题。然而,已有工作仅通过推理可能意图来解决模糊性,忽略了实际场景中VLMs可以在与用户交互的过程中消除视觉问题中存在的模糊性,从而更准确、具体地生成答案。然而,这种交互式澄清方法的研究尚处于初步阶段,主要面临两个关键挑战:
图2 ClearVQA 基准中强调的视觉问题模糊性。(a) 在 ClearVQA 中,模糊性被归纳为三类:指代模糊、意图不明确和拼写模糊。Q 表示原始问题,IQ 表示用户的真实意图问题,ICQ 表示理想的澄清性问题,GT 表示真实答案。(b) 测试集实验结果表明,与表述清晰的 IQ 相比,现有视觉-语言模型(VLM)难以处理相应的含糊问题,导致 VQA 准确率显著下降。
具体而言,本研究针对视觉语言模型在处理视觉问答任务时遇到的问题模糊性,提出了一个创新的交互式澄清框架,涉及以下两个核心方法:
通过这两个核心方法,研究团队在ClearVQA构建的训练数据上微调了开源视觉语言模型(如LLaVA),如表1所示的结果表明,所提出的方法在存在模糊性的问题上显著优于传统非交互式模型。这证明了交互式澄清在处理现实世界中视觉问题模糊性时的巨大潜力和优势。
表1 基于提出方法训练的,具备交互式模糊性澄清能力的 VLM,在ClearVQA上与通用 VLM的性能对比。
不仅如此,如表2所示的实验结果表明,基于所提出的训练策略,VLMs对于问题是否存在模糊性的判断能力甚至优于GPT-4V, 甚至是GPT-4o。这意味着我们的训练方法也能够做到让VLMs学会对于存在模糊性的问题进行交互式澄清的同时,对表述清晰的问题直接回答。
表2 VLMs区分问题是否存在模糊性的能力的量化结果。
综上所述,本研究提出的ClearVQA基准及相应方法,填补了视觉语言模型在交互式澄清领域的空白。这不仅推动了多模态理解领域的理论研究,也对未来更具人性化和智能化的人工智能系统开发具有一定影响。论文中提出的ClearVQA基准已开源,欢迎社区进一步探索与使用。
论文标题:
Pu Jian, Donglei Yu, Wen Yang, Shuo Ren, Jiajun Zhang. Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions. ACL-2025 (SAC Highlights)
代码仓库:
https://github.com/jian0805/ClearVQA