Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance
➡️ 论文标题:Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance
➡️ 论文作者:Zhangwei Gao, Zhe Chen, Erfei Cui, Yiming Ren, Weiyun Wang, Jinguo Zhu, Hao Tian, Shenglong Ye, Junjun He, Xizhou Zhu, Lewei Lu, Tong Lu, Yu Qiao, Jifeng Dai, Wenhai Wang
➡️ 研究机构: Shanghai AI Laboratory, Tsinghua University, Nanjing University, Fudan University, The Chinese University of Hong Kong, SenseTime Research, Shanghai Jiao Tong University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉-语言任务中展现了卓越的性能,但其庞大的模型规模和高昂的计算成本限制了在消费级GPU或边缘设备上的训练和部署,阻碍了其广泛应用。此外,MLLMs在长尾领域特定任务上的表现不佳,进一步限制了其实际应用。
➡️ 研究动机:为了克服现有MLLMs的计算成本高和领域适应性差的问题,研究团队提出了一种轻量级的多模态模型Mini-InternVL,该模型在参数量大幅减少的情况下,仍能保持较高的性能。此外,研究团队还开发了一种统一的迁移学习框架,使Mini-InternVL能够高效地适应各种下游任务,包括自动驾驶、医学图像和遥感等。
➡️ 方法简介:研究团队首先通过知识蒸馏技术,使用InternViT-6B作为教师模型,训练了一个轻量级的视觉编码器InternViT-300M。然后,结合预训练的语言模型(如Qwen2-0.5B、InternLM2-1.8B和Phi-3-Mini),开发了Mini-InternVL系列模型(1B、2B和4B参数量)。此外,研究团队还提出了一种统一的迁移学习框架,通过标准化模型架构、数据格式和训练策略,使模型能够高效地适应特定领域的下游任务。
➡️ 实验设计:研究团队在多个通用和领域特定的基准数据集上进行了广泛的实验,包括AI2D、ChartQA、DocVQA、InfoVQA、MathVista和MMBench等。实验结果表明,Mini-InternVL在通用多模态基准上达到了90%的性能,而参数量仅为大型模型的5%。在特定领域的任务中,通过少量的微调,Mini-InternVL能够与专有商业模型相媲美。研究团队还进行了消融实验,探讨了数据样本量对领域适应性的影响,为MLLMs在特定领域的应用提供了有价值的见解。
IPL: Leveraging Multimodal Large Language Models for Intelligent Product Listing
➡️ 论文标题:IPL: Leveraging Multimodal Large Language Models for Intelligent Product Listing
➡️ 论文作者:Kang Chen, Qingheng Zhang, Chengbao Lian, Yixin Ji, Xuwei Liu, Shuguang Han, Guoqiang Wu, Fei Huang, Jufeng Chen
➡️ 研究机构: Alibaba Group, Fudan University
➡️ 问题背景:在消费者对消费者的(C2C)电子商务平台上,个人卖家通常缺乏足够的电子商务经验,难以创建高质量的产品描述。这不仅影响了产品上市的成功率,还影响了上市产品的整体质量和可发现性。为了解决这些问题,研究团队开发了IPL(Intelligent Product Listing),一个智能产品上市工具,旨在通过上传产品照片自动生成产品描述,从而简化个人卖家的产品上市过程。
➡️ 研究动机:现有的多模态大型语言模型(MLLMs)在视觉理解和自然语言生成方面取得了显著进展,使得基于产品照片自动生成产品描述成为可能。然而,这些模型在生成产品描述时面临几个挑战,包括缺乏领域知识、幻觉问题以及生产部署的挑战。研究团队通过进一步的指令调优和多模态检索增强生成(RAG)方法,旨在提高模型的领域知识理解能力,减少幻觉问题,并确保系统的高效部署。
➡️ 方法简介:研究团队首先通过进一步指令调优,将领域知识注入到一个开源的多模态大型语言模型中,显著增强了模型对领域知识的理解能力。其次,引入了一种创新的多模态RAG方法,通过检索相似产品来增强描述的质量并减少幻觉风险。最后,该系统成功部署在生产环境中,为实际用户提供了智能撰写服务。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括领域特定任务和通用任务。实验评估了不同训练数据量对模型性能的影响,以及RAG方法在减少幻觉问题方面的效果。实验结果表明,经过领域特定训练的模型在多个任务上显著优于基线模型,尤其是在生成符合C2C平台风格的产品描述方面。此外,RAG方法有效减少了模型的幻觉问题,提高了生成内容的准确性。
Order Matters: Exploring Order Sensitivity in Multimodal Large Language Models
➡️ 论文标题:Order Matters: Exploring Order Sensitivity in Multimodal Large Language Models
➡️ 论文作者:Zhijie Tan, Xu Chu, Weiping Li, Tong Mo
➡️ 研究机构: 北京大学软件与微电子学院
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)利用文本、图像或视频等多种模态的上下文来解决各种多模态任务。然而,研究发现,改变多模态输入的顺序会导致模型性能在高级表现和随机猜测之间波动。这种现象不仅存在于单模态(仅文本或仅图像)上下文中,也存在于混合模态(图像-文本对)上下文中。
➡️ 研究动机:现有的研究已经揭示了在大语言模型(LLMs)中,输入顺序对模型性能有显著影响。为了进一步探讨这种顺序敏感性是否也存在于MLLMs中,以及什么样的顺序对MLLMs的性能有益,研究团队设计了一系列实验,旨在全面评估不同模态上下文顺序对MLLMs性能的影响。
➡️ 方法简介:研究团队通过设计一系列实验,包括文本顺序敏感性、图像顺序敏感性以及混合模态顺序敏感性的评估,来探讨MLLMs对不同上下文顺序的敏感性。实验中,研究团队使用了多个公开数据集,如CelebAText-HQ、COCO等,通过改变上下文中的正确选项位置,评估模型在不同位置的性能表现。
➡️ 实验设计:实验设计了三个主要任务,分别评估MLLMs在文本顺序、图像顺序和混合模态顺序上的敏感性。每个任务中,研究团队通过改变正确选项的位置(如开始、中间、结束),统计模型在不同位置的准确率,以评估模型对上下文顺序的依赖程度。此外,研究团队还设计了两个基于顺序敏感性的任务:视频-字幕匹配任务和带有检索增强生成(RAG)的视觉问答任务,以进一步验证特殊位置对模型性能的提升效果。
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
➡️ 论文标题:LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
➡️ 论文作者:Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra
➡️ 研究机构: Meta AI, King Abdullah University of Science and Technology (KAUST), Korea University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在理解和分析视频内容方面取得了显著进展。然而,处理长视频时,由于LLMs的上下文长度限制,仍然面临重大挑战。例如,处理一小时长的视频可能需要超过200k的token,而常用的上下文长度仅为8k。这导致了在视频处理中,尤其是在长视频理解任务中,需要在帧数和每帧token数之间做出权衡。
➡️ 研究动机:为了克服长视频处理中的上下文长度限制,研究团队提出了LongVU,一种时空自适应压缩机制,旨在减少视频token数量的同时,保留视频的视觉细节。通过这种方法,LongVU能够在不超出常用LLMs上下文长度的情况下,处理长达一小时的视频。
➡️ 方法简介:LongVU通过三个步骤实现长视频的有效处理:1) 利用DINOv2特征进行时间维度的帧序列压缩,去除冗余帧;2) 通过跨模态查询选择性地减少某些帧的视觉token,保留关键帧的高分辨率token;3) 基于帧间时间依赖性进行空间token压缩,进一步减少token数量。这种方法能够有效地处理大量帧,同时保持视觉信息的完整性。
➡️ 实验设计:研究团队在多个视频理解基准数据集上进行了实验,包括EgoSchema、MVBench、VideoMME和MLVU。实验评估了LongVU在不同视频长度和内容类型上的表现,结果表明LongVU在多个基准测试中显著优于现有的视频LLMs模型,尤其是在处理长达一小时的视频时。此外,实验还验证了LongVU在轻量级LLM上的有效性,展示了其在小型模型上的优越性能。
Responsible Multilingual Large Language Models: A Survey of Development, Applications, and Societal Impact
➡️ 论文标题:Responsible Multilingual Large Language Models: A Survey of Development, Applications, and Societal Impact
➡️ 论文作者:Junhua Liu, Bin Fu
➡️ 研究机构: Forth AI、Shopee
➡️ 问题背景:多语言大型语言模型(Multilingual Large Language Models, MLLMs)在推动人工智能(AI)的多语言包容性方面具有重要意义。然而,当前的MLLMs主要集中在高资源语言上,如英语,而许多低资源语言在AI技术中被忽视,导致了数字语言鸿沟和技术不平等。
➡️ 研究动机:为了应对多语言支持和语言包容性在最先进的大型语言模型(LLMs)中的不足,本研究探讨了MLLMs的发展趋势和有前景的方向,旨在更好地解决语言多样性和代表性挑战。研究强调了技术、语言和文化视角在MLLMs开发中的重要性,并提出了实际解决方案。
➡️ 方法简介:研究团队提出了一个全面的端到端框架,涵盖了从数据预处理到模型部署的整个MLLM生命周期。此外,通过Llama2的案例研究,提供了详细的优化策略,包括课程学习方法、分词策略和有效的采样方法。研究还从技术、语言和文化角度进行了跨学科分析,以更全面地理解创建有效多语言模型的复杂性。
➡️ 实验设计:研究通过实际应用案例,如客户服务、搜索引擎和机器翻译,探讨了多语言模型在不同场景下的表现。研究分析了不同语言资源类别(从0到5)的特点和挑战,特别是低资源语言(如类别0和1的语言)在数据资源和模型性能上的不足。通过这些分析,研究提出了具体的策略,以提高MLLMs在低资源语言上的表现和包容性。