词编码模型怎么进行训练的,输出输入是什么,标签是什么
词编码模型的训练本质是通过数据驱动的方式,将离散的文本符号映射为连续的语义向量。
一、训练机制:从符号到向量的映射逻辑
1. 核心目标
将单词/子词(Token)映射为低维向量,使语义相关的词在向量空间中距离更近。例如:
- “国王”向量 - “男人”向量 + “女人”向量 ≈ “王后”向量
- 中文“**苹果”与英文“apple”**的向量在跨语言模型中具有高相似度
2. 训练范式
- 自监督学习:利用文本自身的共现关系生成标签(如预测上下文词)。
- 监督学习:使用**人工标注数据(如指令-响应对)**调整向量。
- 对比学习:显式拉近正样本对(如“猫”和“狗”),推开负样本对(如“猫”和“桌子”)。