一、InternVL1.5

1、改进

二、InternVL2

1、渐进式扩展

2、多模态扩展

三、InternVL2.5

1、方法

2、数据优化

四、InternVL3

2、方法

3、训练后处理

4、测试时扩展

五、BLIP-3o

一、InternVL1.5

1、改进

InternVL1.5在InternVL基础上，优化了QLLaMA中间件，转而采用简单的MLP作为图文对齐的桥梁。

视觉编码器：将InternViT-6B的层数从48层优化到45层，并且通过连续学习策略提升视觉理解能力，在高质量图文数据上微调，处理高分辨率图像（448x448）

动态高分辨率：根据输入图像宽高比和分辨率，将图像分割为1到40个448x448的图块，最高支持4K分辨率输入。（低分辨率用于场景描述，高分辨率用于文档理解）。训练过程中先使用224x224的分辨率进行训练，再使用448x448分辨率训练。

Pixel Shuffle：为提升高分辨率的扩展性，将像素随机排列为visual tokens数量降低到原来的四分之一。

训练过程包含预训练+微调两步，预训练数据采用海量互联网公开数据集弱标注图文对，采用双语数据，数亿级别，只训练InternViT-6B和MLP。微调部分数据包含文档解析、数学推理、多轮对话多任务，百万级别数据量，对所有260亿参数进行全参数调整，确保模态对齐。上下文均为4096tokens。

在InternVL1.2与LLaVA-NeXT对比中提到，二者的LLM部分参数量一致均为34B，vision encoder部分InternVL1.2采用InternViT-6B的6B参数量，LLAVA-NeXT采用CLIP-ViT约300M。由于LLAVA-NeXT训练数据集未公开，所以自己做了一个相似数据集，但由于框架本身问题，LLaVA-NeXT采用了672x672的分辨率，InternVL采用448x448的分辨率。经过作者的训练过后，InternVL1.2在更多的Benchmark下更优，证明了大的vision encoder 参数量可以支撑更复杂的推理的特征信息。

InterVL1.5在OCR任务中效果可以与GPT-4V，Qwen-VL-Max，Gemini ultra1.0这些方法竞争，在多模态评估问题上，还是站不太住。

二、InternVL2

InternVL2在InternVL1.5架构基础上，针对更多模态，更多任务，更大参数量进行了扩展。InternVL2系列也是从2B参数量到108B参数量适应不同的场景应用。

1、渐进式扩展

采用从小模型到大模型渐进训练，数据从粗到精迭代的策略。通过这种方式显著降低了大模型训练成本，并且在有限资源下实现高性能。具体来说，先用小规模语言模型（20B参数）训练视觉编码器InternViT，之后将视觉编码器迁移到大规模LLM上，通过这种机制训练效率提升十倍，参数量更大。（这一部分在InternVL2.5论文才提到）

另外提到InternVL2首次实现视觉基础模型与大语言模型的原生对齐。（由于没有论文只有一个technical log不太懂）

2、多模态扩展

支持文本、图像、视频、医疗数据统一输入，并且在以往1.5版本聚焦图文双模态的基础上，增加了视频理解和医疗数据解析。

支持下游任务泛化，通过VisionLLMv2框架链接下游任务解码器支持图像生成、检测框、分割掩码等多样化输出。VisionLLMv2框架图如下。

InternVL2的训练第一阶段应该是冻结了InternViT，只训练MLP，第二阶段依然是全参数微调。

三、InternVL2.5

InternVL2.5的架构如出一辙，他的改进在于训练过程和数据。

1、方法

训练过程：由于InternVL2采用的渐进式训练，所以已经预训练了InternViT。第一部分训练MLP，第二部分训练InternViT+MLP，第三部分训练所有参数。

测试时扩展：test-time scaling，在推理阶段动态调整模型行为，通过多次生成结果优化最终输出。通过CoT+Majority Voting实现。通过这种方式，多步验证降低大模型illusion，尤其是在复杂数学问题，长文档分析上。

思维链推理：CoT，Chain-of-Thought，通过多步逻辑推理生成答案，并模拟人类逐步分析问题的过程。在提示词中要求模型先解释推理步骤，再给出最终答案。

2、数据优化

尽管CoT在推理阶段执行，但是其效果高度依赖训练数据的质量，低质量的数据会导致模型在CoT推理过程中陷入循环错误。以往推理循环的表现如下。

InternVL2.5解决办法，文本数据通过严格过滤训练数据，使用LLM评分来剔除低质量样本，多模态数据采用启发式规则+人工审核的方式。

图像数据

（1）动态切片机制：根据输入图像的宽高比和分辨率，动态划分为448x448的像素切片，范围在1-40，每一张图片根据最接近的最优宽高比进行最小化失真，最优宽高比为预定义的35种组合（1:1，2:1，3:2等）

（2）多模态数据统一：由于在对话中可以输入单图，多图，视频数据，所以进行了统一，对于单图数据，多图数据均进行动态切片划分，单图分割为12个切片+全局缩略图，多图分割为总切片12个切片。视频数据简化操作，固定每帧分辨率448x448保证显存承受压力，由于帧数过多，放弃动态切片，用全局理解替换牺牲细节。

数据量从v1.5到v2.5是逐渐增长的。

通过这一设计InternVL2.5，OCR，多图片理解，多模态理解和幻觉处理，视觉定位，多模态多语言性能，视频理解等任务均达到SOTA。

另外InternViT2.5在图像分类，图像分割指标上也超过以往的1.0,1.2,1.5,2.0，主要是因为参数量，训练数据量扩展。

四、InternVL3

1、概述

以往的InternVL系列都是先训练LLM模块，再将LLM改造成可以支持输入多模态信息的MLLM的“先纯文本预训练->后多模态对齐”的分阶段流程。而InternVL3是通过单阶段联合训练范式的原生预训练，解决了以往MLLM训练后处理的视觉和语言一致性和复杂性挑战，提升了性能和扩展性。这也是第一个原生多模态模型。

创新：可变视觉位置编码，以适应更长的多模态上下文。后训练策略SFT+MPO，test-time缩放原则提升了性能和效率。

InternVL3不仅在原有的多学科推理，文档理解，图像视频理解，现实场景理解，幻觉检测，视觉定位，多语言能力中领先InternVL2.5，同时在工具使用，空间推理，工业图像分析，图形用户界面代理上也取得了新的进展。性能上与开源项目Qwen2.5-VL不相上下，与闭源项目Chatgpt-4o,Gemini-2.5 Pro，Claude3.5-sonnet旗鼓相当。

OpenCompass多模态学术排行榜上不同MLLMs的比较。

2、方法

整体架构

仍然沿用ViT-MLP-LLM的三阶段架构。

视觉编码器：采用两种预训练视觉模型作为基础，InternViT-300M用于轻量级模型InternVL3-1B；InternViT-6B用于大型模型InternVL3-78B。采用高分辨率优化，Pixel Unshuffle将图像分割成448x448像素图块，并编码为256个tokens，显著降低计算开销。（这一波方法跟之前相同）

语言模型：基于开源LLM初始化，预训练Qwen2.5-72B或InternLM3-8B。

MLP：两层全连接网络，随机初始化权重，并将ViT输出的视觉嵌入投影到LLM嵌入空间中，实现模态对齐。

变量视觉位置编码（V2PE)

由于MLLM中的传统位置编码对视觉令牌使用固定增量+1，导致长序列视频，超出模型的位置窗口限制。V2PE中设置动态增量，对文本token仍然+1，视觉token+ $\delta$ ，其中 $\delta$ 在训练中从离散数据集中随机采样。

具体来说，MLLM中一组token记录为 $x=(x_1,x_2,...x_L)$ ，位置编码记录为 $p_i$ 。

$p_i=\left\{\begin{matrix} 0\qquad \qquad if \ i=1\\ f_{pos}(p_{i-1,x_i}) if \ i\neq 1 \end{matrix}\right.$

$f_{pos}$ 函数关系在V2PE中满足：

$p_i=p_{i-1}+\left\{\begin{matrix} 1,\quad if \ x_i \ is \ a \ textual \ token \\ \delta,\quad if \ x_i \ is \ a \ visual \ token \end{matrix}\right.$