几乎所有大型语言模型(LLM)都有自己独立的词表(Vocabulary)。这是模型设计和训练过程中的核心组件之一。以下是关于词表的关键点:

1. 词表的作用

  • 分词基础:词表定义了模型如何将输入文本拆分成基本单元(如单词、子词、符号等)。
  • 数值化映射:每个词表中的单元对应一个唯一整数(Token ID),模型通过处理这些 ID 进行运算。
  • 模型容量:词表大小直接影响模型的参数量和处理效率。

2. 不同模型的词表差异

  • 语言差异
    • 中文模型(如 ChatGLM、Qwen)包含大量中文字符和常见中文词汇。
    • 多语言模型(如 mBART、NLLB)的词表可能覆盖数十种语言的字符。
  • 训练数据
    • 代码模型(如 CodeLlama)的词表包含编程语言关键词(if, def, {} 等)。
    • 专业领域模型可能包含生物/化学术语(如 AlphaFold 相关的蛋白质序列 token)。
  • 分词算法
    • BPE(Byte Pair Encoding):GPT 系列、RoBERTa。
    • WordPiece:BERT、DistilBERT。
    • Unigram:T5、XLM-R。
    • SentencePiece:LLaMA、Gemini(支持跨语言无空格分词)。

3. 典型模型的词表大小对比

模型词表大小特点
GPT-250,257英文为主,含常见符号
BERT30,522英文+WordPiece 子词
LLaMA 3128,256多语言优化,支持代码
Qwen-1.5152,064中英混合,覆盖数学/代码符号
Claude 3~200k强调多语言和长上下文支持

4. 为什么需要自定义词表?

  • 效率优化:避免对常见词(如英文的 the、中文的 )过度拆分。
  • 语言适配:中文/日文等非空格语言需要不同的分词策略。
  • 领域适配:医学/法律模型需保留专业术语的完整性(如 "冠状动脉" 不应被拆解)。
  • 生僻词处理:通过子词组合(如 "Deep" + "##seek" → "Deepseek")解决未登录词问题。

5. 词表如何影响模型行为?

  • 分词结果差异
    • 输入 "ChatGPT is amazing!"
      • GPT-2 可能拆为 ["Chat", "G", "PT", " is", " amazing", "!"]
      • LLaMA 可能拆为 ["Chat", "GPT", " is", " amazing", "!"]
  • 语言偏误:词表以英文为主时,中文/泰文等语言的效率会下降。
  • 信息损失:过小的词表可能导致专有名词被强制拆解(如 "Transformer" → "Trans" + "##former")。

6. 特殊 Token 示例

除了常见词汇,词表还包含功能性 Token:

  • [CLS][SEP] → BERT 用于句子分类/分隔
  • <|im_start|> → ChatML 格式中的对话开始标记
  • <0x04>(EOS)→ 句子结束符
  • → SentencePiece 表示空格

总结:

词表是每个大模型的身份证语言基因,决定了模型如何看待文本。不同模型因目标语言、领域和算法选择差异,会采用完全不同的词表设计。这也是同一段输入在不同模型中表现各异的原因之一!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/915325.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/915325.shtml
英文地址,请注明出处:http://en.pswp.cn/news/915325.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(一)Eshop(异常处理中间件/grpc)

文章目录项目地址一、异常处理1.1 自定异常1.2 自定义异常处理中间件1.3 注册中间件二、grpc服务2.1 创建protos1. 打折的protos2. 设置grpc server3. program配置服务4. docker-compose2.2 CRUD1. 查询2.3 测试1. 发起查询请求三、grpc服务消费3.1 创建client1. 添加服务2. 选…

BLIP、InternVL Series(下)

目录 一、InternVL1.5 1、改进 二、InternVL2 1、渐进式扩展 2、多模态扩展 三、InternVL2.5 1、方法 2、数据优化 四、InternVL3 2、方法 3、训练后处理 4、测试时扩展 五、BLIP-3o 一、InternVL1.5 1、改进 InternVL1.5在InternVL基础上&#xff0c;优化了QLLa…

【数据结构】二维差分数组

题目链接 【模板】二维差分_牛客题霸_牛客网 牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推&#xff0c;求职就业一站解决_牛客网 描述 给定一个 nmnm 的整数矩阵 bb&#xff0c;矩阵的下标从 11 开始记作 bi,jbi,j​。现在需要支持 qq 次操作&#xff0c;第 tt 次…

【JDK内置工具】常用工具和实战指令

作者&#xff1a;唐叔在学习 专栏&#xff1a;唐叔的Java实践 关键词: #JDK工具 #Java性能调优 #JVM调优 #内存泄漏排查 #线程死锁分析 #Java开发工具 #线上问题排查 #Java诊断工具 Hello&#xff0c;大家好&#xff0c;我是爱学习的唐叔。作为Java开发者&#xff0c;JDK内置工…

一站式PDF转Markdown解决方案PDF3MD

简介 什么是 PDF3MD &#xff1f; PDF3MD 是一个现代化、用户友好的网络应用程序&#xff0c;旨在将 PDF 文档转换为干净、格式化的 Markdown 文本。它提供了高效的转换工具&#xff0c;支持多种文件格式之间的转换。 主要特点 PDF 转 Markdown&#xff1a;能够将 PDF 文档转…

RocketMQ学习系列之——MQ入门概念

一、什么是MQMQ&#xff08;Message Queue&#xff0c;消息队列&#xff09;是一种能够实现跨进程消息传输&#xff0c;并且消息缓存符合队列特性的组件。二、MQ的作用异步&#xff1a;消息发送方无需等待消息接收方收到消息&#xff0c;发送方将消息成功发送到 MQ 之后即可无阻…

血条识别功能实现及原理

从零开始学Python图像处理 - 血条识别 从实际问题中能快速的学习特定技能&#xff0c;通过完成一个能自动刷怪的工具&#xff0c;达成快速学习python图像处理和识别。 自动刷怪需要先识别怪物&#xff0c;在游戏中怪物类型很多&#xff0c;同时在移动中形态会一直发生变化&…

网络地址和主机地址之间进行转换的类

#pragma once #include "Common.hpp" // 网络地址和主机地址之间进行转换的类class InetAddr { public:InetAddr(){}InetAddr(struct sockaddr_in &addr) : _addr(addr){// 网络转主机_port ntohs(_addr.sin_port); // 从网络中拿到的&#xff01;网络序列// _i…

《Python 项目 CI/CD 实战指南:从零构建自动化部署流水线》

🛠《Python 项目 CI/CD 实战指南:从零构建自动化部署流水线》 一、引言:为什么 Python 项目需要 CI/CD? 在现代软件开发中,CI/CD(持续集成 / 持续部署)已成为不可或缺的工程实践。它不仅提升了开发效率,还显著降低了部署风险。对于 Python 项目而言,CI/CD 的价值尤…

AJAX 技术

AJAX全称是 Asynchronous JavaScript and XML ( 异步的JavaScript 和 XML )&#xff0c;使用该技术后&#xff0c;可以实现不刷新整个网页&#xff0c;与服务器进行异步通信并更新部分网页。一&#xff09;为什么需要AJAX?传统网页在与服务器通信时&#xff0c;需要刷新整个页…

Python爬虫实战:研究NLTK库相关技术

1. 引言 1.1 研究背景与意义 随着互联网的快速发展,网络新闻已成为人们获取信息的主要来源之一。每天产生的海量新闻文本蕴含着丰富的信息和知识,但也给信息获取和分析带来了挑战。如何从大量非结构化的新闻文本中自动提取有价值的信息,识别热点话题和趋势,成为当前自然语…

ARM 学习笔记(二)

参考文献&#xff1a;《ARM ArchitectureReference Manual ARMv7-A and ARMv7-R edition》1、MMU 1.1 背景早期的内存是比较小的&#xff0c;一般是几十k&#xff0c;不过相应的程序也是比较小的&#xff0c;这时程序可以直接加载到内存中运行。后来为了支持多个程序的并行&…

Github 贪吃蛇 主页设置

自动化脚本顶部元信息触发条件&#xff08;on:&#xff09;作业&#xff08;jobs:&#xff09;步骤&#xff08;steps:&#xff09;1. 生成 SVG2. 推送到 output 分支Commit & Push在 README 里引用参考&#xff1a;https://github.com/Platane/Platane/tree/master 首先写…

关于Spring RestTemplate

​ 一、概述RestTemplate 是 Spring Framework 提供的一个同步 HTTP 客户端工具&#xff0c;用于简化与 RESTful API 的交互。它封装了底层 HTTP 通信细节&#xff0c;提供了统一的 API 来发送各种 HTTP 请求&#xff08;GET、POST、PUT、DELETE 等&#xff09;&#xff0c;并自…

异步解决一切问题 |消息队列 |减少嵌套 |hadoop |rabbitmq |postsql

设计准则“为什么要考虑这个问题”The forward logic is only about 10% of your code, everything else is 90%.主流逻辑 10%保障扩容和稳健的代码设计90%同步代码就是绑在一个绳上的蚂蚱异步就是实现了解耦这个异步或许有点类似于--一些分布式数据的处理 设计如何实现的呢?…

Spring AI 项目实战(十八):Spring Boot + AI + Vue3 + OSS + DashScope 实现高效语音识别系统(附完整源码)

系列文章 序号 文章名称 1 Spring AI 项目实战(一):Spring AI 核心模块入门 2 Spring AI 项目实战(二):Spring Boot + AI + DeepSeek 深度实战(附完整源码) 3 Spring AI 项目实战(三):Spring Boot + AI + DeepSeek 打造智能客服系统(附完整源码) 4

指针数组和数组指针的应用案例

1. 指针数组应用&#xff1a;查找最长字符串用指针数组存储若干字符串&#xff0c;编写函数找出其中最长的字符串&#xff08;若有多个&#xff0c;返回第一个&#xff09;。#include <stdio.h> #include <string.h>// 函数原型&#xff1a;找出最长字符串 const c…

MCU进入低功耗模式前的引脚处理原则和方法 --> 以最小化低功耗电流

在MCU进入低功耗模式(如Sleep, Stop, Standby, Deep Sleep等)前,精心处理每一个GPIO引脚的状态是最大限度降低功耗电流的关键一步。悬空或配置不当的引脚是导致“漏电”的常见原因。以下是处理引脚以达到最小低功耗电流的原则和方法: 📌 核心原则 避免浮空输入: 浮空(…

张 关于大语言模型(LLM)置信度研究的经典与前沿论文 :温度缩放;语义熵;自一致性;事实与反思;检索增强;黑盒引导;

关于大语言模型(LLM)置信度研究的经典与前沿论文 :温度缩放;语义熵;自一致性;事实与反思;检索增强;黑盒引导; 目录 关于大语言模型(LLM)置信度研究的经典与前沿论文 :温度缩放;语义熵;自一致性;事实与反思;检索增强;黑盒引导; 一、校准方法:让模型概率更贴近真实正确…

ICT测试原理之--什么是假短

ICT测试原理之–什么是假短 文章目录ICT测试原理之--什么是假短一、假短的由来防止假短二、无法检测的短路示例解决无法检测的短路调试短路文件调试意外断路调试意外短路三、调试假短报告短路和断路报告假短报告短路设备/引脚功能性短路测试功能性短路测试的语法一、假短的由来…