Decoder模型 向量模长表示什么
词和其他词的关系的强弱和关联程度;生僻词模长小
从实验结果来看,Qwen2-7B-Instruct的向量模长规律与之前的预期(“模长与语义丰富度、确定性正相关”)完全相反,这反映了Decoder-only模型(尤其是指令微调模型)的表征特性与Encoder-only模型(如BERT)存在显著差异。
一、实验结果的核心矛盾点
预期关系 | 实验结果 |
---|---|
信息量越高 → 模长越大 | 低信息量句子(如“你好。”)模长反而更大(321.00),高信息量句子(如“人工智能…”)模长更小(227.88) |
语义越确定 → 模长越大 | 歧义句(“苹果熟了”)模长(264.25)>明确句(“苹果公司…”)模长(248.75) |
情感越强 → 模长越大 | 强情感句(“太棒了!”)模长(217.00)<弱情感句(“还行吧”)模长(253.63) |