LLM视觉领域存在模型视觉识别不准确、细粒度视觉任务能力不足等科学问题
除了前面提到的数据集,还有一些用于评估视觉推理等能力的经典数据集。目前关于LLM视觉领域经典提示词方面的名校或大公司论文较少,以下是相关科学问题、数据集及部分相关论文介绍:
科学问题
- 视觉推理能力有限:在涉及逻辑推理的视觉任务中,如根据图像中的线索进行演绎推理、归纳推理等,LLM视觉模型表现不佳,与人类的逻辑推理能力有较大差距,难以处理复杂的视觉逻辑关系。
- 跨模态对齐不精准:视觉信息和语言信息的融合存在困难,可能出现图像内容与文本描述无法准确对应的情况,导致模型对图像的理解和生成的文本回答出现偏差。
- 视觉细节捕捉能力弱:对于图像中的一些细微特征、小目标物体等,模型可能无法有效识别和理解,在需要关注细节的任务中,如识别图像中微小的标志、文字等,容易出现错误或遗漏。
经典数据集
- LogicVista:专门用于评估多模态大语言模型在视觉情境下的逻辑推理能力。涵盖演绎、归纳、空间推理、数值推理和机械推理等5种核心逻辑推理任务,共448个选择题,每个题目都有详细的正确答案和