文章目录

Lesson1：Introduction to NLP、NLP 基础与文本预处理
- 1.教材
- 2.自然语言处理概述
- - (1)NLP 的定义、发展历程与应用场景
  - (2)NLP 的主要任务：分词、词性标注、命名实体识别、句法分析等
- 2.文本预处理
- 3.文本表示方法：词向量表示/词表征
Lesson2：语言模型与序列建模
- 1.语言模型的介绍、原理、应用场景
- 2.语言模型的类型
- 3.N-gram 模型与马尔可夫假设
- 4.序列模型
- - (1)RNN
  - (2)LSTM
Lesson3：深度学习与预训练模型
- 1.深度学习基础
- 2.Transformer 与自注意力机制
- - (3)注意力机制、自注意力机制、多头自注意力机制
  - - ①注意力机制(Attention)
    - ②自注意力机制(Self-attention)
    - ③多头自注意力机制
    - ④序列到序列模型
    - ⑤Transformer
    - ⑥位置编码
    - ⑦残差连接和层归一化
    - ⑧掩码自注意力
- 3.预训练语言模型
- - (1)预训练和微调 (Pretranin and Fine-Tuning)
  - (2)Prompt-Tuning
Lesson4：NLP 应用与实践
- 1.文本分类与情感分析
- 2.机器翻译与文本生成
- 3.信息抽取与知识图谱
- 4.对话系统与问答系统
Lesson5：跨语言、跨模态、跨任务统一大模型
- 1.T5 (Text-to-Text Transfer Transformer)
- 2.思维链 (Chain-of-Thought，CoT)
- 3.RLHF 基于人类反馈的强化学习
- 4.数据处理
- 5.RoPE 旋转位置编码：绝对位置信息→相对位置信息
- 6.LoRA----高效模型微调：不再全参数微调，而是冻结大部分参数
- 7.模型上下文窗口的扩展：LLaMA模型为例
- 8.指令数据的构建
- 9.强化学习
- - (1)图解
  - (2)概念
  - (3)智能体
  - (4)强化学习与监督学习的区别
Lesson6：NLP论文分享
Lesson7：实践与项目

Lesson1：Introduction to NLP、NLP 基础与文本预处理

1.教材

参考教材：《自然语言处理导论》、《大规模语言模型》(只有第一版有电子版)

2.自然语言处理概述

(1)NLP 的定义、发展历程与应用场景

在这里插入图片描述

(2)NLP 的主要任务：分词、词性标注、命名实体识别、句法分析等

自然语言处理：
自然语言处理(NLP)，目的是使得计算机具备人类的听、说、读、写、译、问、答、搜索、摘要、对话和聊天等能力，并可利用知识和常识进行推理和决策，并支持客服、诊断、法律、教学等场景。

模拟人脑认知的不同特点，比如事件认知，目标行动认知，情绪自我认知，实现推理基础上的行为控制。

自然语言处理包含：分析、理解、转换、生成等。
自然语言处理是结合计算机科学、统计学、语言学以及心理学、医学、法律等的交叉学科。
NLU( Understanding)+ NLG (generation)

理解：
①连接主义
连接主义，机器的理解机制与人相同，强调结构的仿真，用神经网络模仿人脑

②符号主义
符号主义，机器的表现与人相同，强调功能的演绎逻辑，图灵测试

③行为主义
完成正确的反应或者行为

神经元：
ChatGPT：1750亿个神经元
人脑：860亿个神经元

进入机器学习和神经网络之前，必须 向量化。每个词大概有5万维度特征，且是稠密的。

2.文本预处理

1.分词与词性标注。

2.去除停用词、拼写纠错、词干提取与词形还原。

3.文本标准化与编码。

3.文本表示方法：词向量表示/词表征

1.One-Hot Encoding（独热编码）
最早期的词表征方法之一，是将每个词表示为一个高维稀疏向量，其中只有一个维度为1，其余为0。虽然简单，但无法捕捉词语之间的语义关系。

2.Word Embedding（词嵌入）
词嵌入是将词语映射到低维稠密向量空间的技术，能够更有效地捕捉词语的语义信息。常见的词嵌入方法包括：
①Word2Vec：由Google提出的模型，包括CBOW和Skip-gram两种架构，通过上下文信息来学习词向量。
②GloVe：由斯坦福大学提出，结合了全局统计信息和局部上下文信息来学习词向量。
③FastText：由Facebook提出，考虑了词的子词信息，能够更好地处理未登录词和拼写错误。

3.上下文相关的词表征
传统的词嵌入方法为每个词分配一个固定的向量，而上下文相关的词表征方法根据词语在不同上下文中的含义动态生成词向量，能够更好地处理多义词等问题。代表性的方法包括：
①ELMo：使用双向LSTM模型，根据上下文生成词向量。
②BERT：基于Transformer架构，使用双向编码器来捕捉上下文信息，生成动态词向量。
③GPT：基于Transformer的自回归模型，能够生成上下文相关的词向量。

4.TF-IDF

Lesson2：语言模型与序列建模

1.语言模型的介绍、原理、应用场景

1.介绍
语言模型（Language Model，LM）是一种能够对自然语言中词语序列进行概率分布估计的模型，用于计算给定序列的整体概率或预测下一个词的条件概率分布。

2.原理
语言模型的核心目标是在给定前文上下文的条件下估计词序列的概率。（联合概率）
在这里插入图片描述
这一假设大幅降低了计算复杂度，但也限制了模型捕捉长距离依赖的能力。

3.应用场景
(1)机器翻译：预测目标语言词序列，提高译文流畅度和准确性
(2)语音识别：结合声学模型对候选词序列进行语言约束，减少识别错误
(3)文本生成：自动写作、聊天机器人中根据上下文生成连贯文本
(4)信息检索：评估查询与文档的语言相似度，提升检索相关性
(5)拼写纠错：利用上下文概率判断并纠正文本中的拼写或语法错误

2.语言模型的类型

1.统计语言模型 (N-gram 模型)
原理：依据语料中词序列出现的频率进行概率估计，典型有 unigram、bigram、trigram 等。
优点：实现简单，计算高效。
缺点：高阶模型组合稀疏，且上下文窗口有限，难以捕获长距离依赖。

2.神经语言模型
代表：Bengio 等人在2003年提出的神经概率语言模型(Neural Probabilistic Language Model)。
原理：通过多层神经网络学习词的分布式表示(词嵌入)，并在此基础上进行概率建模，有效缓解“维度灾难”问题。

3.预训练大型语言模型
代表：BERT、GPT 系列、T5 等。
架构：基于 Transformer 自注意力机制，在大规模语料上预训练生成通用的语言表示。
优势：能够捕获更长距离依赖关系，通过微调适配多种下游任务，显著提升了 NLP 各项指标的表现

3.N-gram 模型与马尔可夫假设

1.N-gram 模型将文本划分为连续的 n 个词（或字符）组成的序列。例如：
①Unigram（1-gram）：每个词独立出现，例如“我”，“喜欢”，“学习”。
②Bigram（2-gram）：连续两个词的组合，例如“我喜欢”，“喜欢学习”。
③Trigram（3-gram）：连续三个词的组合，例如“我喜欢学习”。

N元语言模型的问题：
当上下文变长，时间复杂度指数级升高。

N元语言模型是基于 词袋编码(bag-of-words) 的

2.马尔可夫假设（Markov Assumption）是概率论和统计学中的一个基本假设，广泛应用于自然语言处理、机器学习、经济学等领域。该假设由俄国数学家安德烈·马尔可夫（Andrey Markov）提出，核心思想是：
“在已知当前状态的前提下，未来状态与过去状态条件独立。”
换言之，当前状态包含了预测未来所需的所有信息，过去的状态对未来的影响被“遗忘”。

3.语言模型的评估指标：困惑度(Perplexity)、交叉熵(Cross-Entropy)
(1)困惑度(Perplexity)
在自然语言处理（NLP）中，困惑度（Perplexity，简称 PPL）是衡量语言模型性能的常用指标。它反映了模型对测试数据预测的“困惑”程度，即模型在生成或理解文本时的预测能力。
困惑度源自信息论，表示一个概率模型对样本的不确定性程度。在语言模型中，困惑度衡量模型对测试集的预测能力，数值越低表示模型越精确。
具体而言，困惑度是模型对测试集上所有词的条件概率的几何平均数的倒数。

在这里插入图片描述

4.生成方法
(1)贪婪策略
(2)Top-k：k=4
(3)Top-p：p=0.75

5.数据平滑(Data Smoothing)
旨在降低数据中的噪声，揭示潜在的趋势或模式。它通过对数据进行处理，使得数据曲线更加平滑，减少了随机波动的影响。

4.序列模型

1.循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)

(1)RNN

RNN：适用于处理时序数据，但存在梯度消失和长期依赖问题。
①梯度消失/爆炸问题：随着序列长度增加，反向传播时梯度可能会消失或爆炸，导致模型训练困难。
②长期依赖问题：RNN 难以捕捉长期依赖，尤其是对于序列中较远时间步的依赖关系。

(2)LSTM

LSTM加了门控，不存在梯度消失和梯度爆炸问题。

2.双向RNN与双向LSTM

序列标注任务：命名实体识别(NER)、词性标注(POS Tagging)

Lesson3：深度学习与预训练模型

1.深度学习基础

1.神经网络基础：感知机、多层感知机(MLP)

2.激活函数、损失函数与优化算法。

3.反向传播算法与梯度下降。

2.Transformer 与自注意力机制

详情见：Transformer

1.Transformer架构概述

2.自注意力机制(Self-Attention)与多头注意力(Multi-Head Attention)

3.位置编码与位置嵌入

(3)注意力机制、自注意力机制、多头自注意力机制

①注意力机制(Attention)

2015，允许语言模型在每个时间步关注观察到的上下文的特定部分。

解决梯度爆炸和梯度消失问题

②自注意力机制(Self-attention)

2017
QKV

③多头自注意力机制

多头，增加参数量

④序列到序列模型

序列到序列模型(Seq2Seq，Sequence-to-Sequence Learning)

序列到序列模型是一种将输入序列映射到输出序列的模型架构，通常由编码器和解码器组成。

工作原理：
编码器：处理输入序列，生成一个上下文向量（或一系列隐藏状态）。
解码器：根据上下文向量，逐步生成输出序列。

⑤Transformer

Transformer结构是由谷歌在2017年提出并首先应用于机器翻译。
Transformer结构完全通过注意力机制完成对源语言序列和目标语言序列全局依赖的建模。

在这里插入图片描述

⑥位置编码

位置编码（Positional Encoding）是解决Transformer模型中一个核心问题的技术：Transformer模型本身不具备处理序列中词语顺序的能力。

输入序列:        [词向量1]  [词向量2]  [词向量3]  ...  [词向量N]|          |          |             |
位置编码:         [PE1]      [PE2]      [PE3]     ...  [PEN]相加后作为输入:   [词向量1+PE1] [词向量2+PE2] [词向量3+PE3] ... [词向量N+PEN]↓          ↓          ↓             ↓送入Transformer的自注意力层等后续网络

⑦残差连接和层归一化

残差连接主要是指使用一条直连通道直接将对应子层的输入连接到输出上去，从而避免由于网络过深在优化过程中潜在的梯度消失问题。

⑧掩码自注意力

BERT做分类。如果要用BERT做生成，

3.预训练语言模型

1.BERT、GPT、T5、RoBERTa 等模型的原理与应用

BERT是Encoder
GPT是单解码器 (Decoder only)
T5：prefix

2.Masked Language Model(MLM)与自回归语言模型

3.模型微调与迁移学习

(1)预训练和微调 (Pretranin and Fine-Tuning)

(2)Prompt-Tuning

旨在通过添加模板的方法来避免引入额外的参数，从而让语言模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想的效果。

降低语义差异(Bridge the gap between Pre-training and Fine-tuning)：预训练任务主要以Masked Language Modeling (MLM)为主，而下游任务则重新引入新的训练参数，因此两个阶段的模板通常有较大差异。因此需要解决如何缩小 Pre-training 和 Fine-tuning 两个阶段目标差距过大的问题。
避免过拟合(Overfitting of the head)：由于在 Fine-tuning 阶段需要新引入额外的参数以适配相应的任务需要，因此在样本数量有限的情况容易发生过拟合，降低了模型的泛化能力。因此需要面对预训练语言模型的过拟合问题。

Lesson4：NLP 应用与实践

1.文本分类与情感分析

1.文本分类任务概述
2.情感分析方法与应用
3.模型评估指标：准确率、精确率、召回率、F1 值

2.机器翻译与文本生成

1.序列到序列模型(Seq2Seq)

2.注意力机制与指针生成网络

3.文本生成任务：摘要生成、对话生成

3.信息抽取与知识图谱

1.命名实体识别(NER)与关系抽取

2.事件抽取与三元组提取

3.知识图谱构建与推理

4.对话系统与问答系统

1.任务导向对话系统与开放域对话系统

2.问答系统的类型：基于检索的问答、生成式问答

3.对话管理与上下文建模

Lesson5：跨语言、跨模态、跨任务统一大模型

1.T5 (Text-to-Text Transfer Transformer)

1.T5介绍
T5 (Text-to-Text Transfer Transformer) 是由Google Research团队于2019 年提出的一种统一的文本生成模型、预训练语言模型，旨在统一处理多种自然语言处理任务。其核心思想是将所有NLP任务(如翻译、摘要、问答、文本分类等) 统一转化为 文本到文本 的生成任务，即输入一段文本，输出另一段文本。从而实现任务无关的模型架构设计。这种设计简化了模型的应用流程，并提升了多任务学习的灵活性。

2.T5的核心特点
(1)文本到文本的统一框架：所有任务都转换为“输入文本→输出文本”的形式
(2)基于Transformer架构：使用标准的自注意力机制和前馈网络，但进行了改进以适应大规模预训练。
(3)预训练与微调：
①预训练：在C4（Common Crawl Corpus）数据集上进行去噪任务（如Span Corruption），即随机掩盖输入文本中的连续片段并要求模型重建。
②微调：针对具体任务调整模型参数，使用特定任务的标注数据。

3.T5 的训练分为两个阶段：
①预训练：在大规模文本数据集 C4（Colossal Clean Crawled Corpus）上进行自监督训练，采用 Span Corruption 目标，即随机遮蔽文本中的连续子串，模型需要恢复被遮蔽的部分。
②微调：在特定任务的数据集上进行有监督微调，任务通过在输入文本前添加特定前缀来指示，如 summarize:、translate English to French: 等。

2.思维链 (Chain-of-Thought，CoT)

1.CoT的介绍
思维链（Chain-of-Thought，简称CoT）是一种提升大语言模型（LLM）推理能力的技术。其核心思想是引导模型在回答复杂问题时，不是直接给出答案，而是通过逐步推理、分步骤地展示中间逻辑过程，从而更有效地解决问题。

2.CoT的提出
思维链(Chain-of-Thought，CoT) 提示技术首次由Google Research团队在于2022年11月提出。具体来说，这项技术首次系统性地被介绍是在一篇题为：
该团队在论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中，展示了通过引导大型语言模型生成中间推理步骤(即“思维链”)，能够显著提升其在复杂推理任务中的表现。
作者：Jason Wei, Xuezhi Wang, Dale Schuurmans等
发布时间：2022年1月(arXiv出版)
arXiv链接：https://arxiv.org/abs/2201.11903

3.CoT的原理
传统的提示方法通常是输入一个指令加一个问题，期望模型直接输出答案。但在处理多步骤推理问题时，这种方式往往效果不佳。
而 CoT 的做法是：
在提示中加入一些示例，这些示例不仅包含问题和答案，还包含详细的推理步骤。
模型被训练或引导去模仿这种“推理链条”的形式。
当遇到新问题时，模型会尝试按照类似的思路一步步分析问题，而不是直接跳跃到答案。

4.CoT的优势
①提升推理能力：特别适用于数学、逻辑、编程等需要多步推理的任务
②可解释性强：推理过程透明，便于人类理解与验证
③减少错误：分步处理可以减少整体错误率
④易于调试：如果某一步出错，更容易定位问题所在

5.CoT的应用场景
①数学题求解(如代数、几何)
②逻辑推理题(如真假话问题、排列组合)
③自然语言推理(NLI)
④编程问题分析
⑤决策树式问题(如策略选择)

3.RLHF 基于人类反馈的强化学习

1.RLHF介绍
RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）是一种用于训练人工智能模型（尤其是大语言模型）的方法，旨在让模型更好地对齐人类的价值观、偏好和意图。它被广泛应用于提升语言模型输出的质量与可控性，例如在 ChatGPT、Claude、Bard 等主流对话系统中。

2.RLHF的核心思想
RLHF 的核心是通过人类反馈来指导模型学习“什么是好的回答” ，而不是仅仅依靠预训练数据或固定的目标函数。
其基本流程包括三个主要阶段：
(1)阶段一：监督微调(Supervised Fine-Tuning, SFT)
目的：让模型学会根据输入生成符合预期的回答。
做法：
收集大量的人类写的问题(prompt)及其对应的好回答。
使用这些数据对预训练语言模型进行微调。
结果：得到一个初步能生成高质量回答的模型。
(2)阶段二：训练奖励模型(Reward Model, RM)
目的：学习人类偏好的打分标准。
做法：
对于同一个问题，让模型生成多个不同回答。
让人类标注者对这些回答进行排序(如从好到差)。
利用这些排序数据训练一个奖励模型，使其能够为任意回答打分。
结果：奖励模型可以预测人类对某个回答的满意度。
(3)阶段三：强化学习微调（Reinforcement Learning Fine-Tuning, RLFT）
目的：利用奖励模型作为“老师”，引导模型生成更受人类欢迎的回答。
做法：
将微调后的模型作为强化学习中的智能体（agent）。
每次生成回答后，用奖励模型给这个回答打分。
使用强化学习算法（如 PPO）更新模型参数，使得未来生成的回答获得更高的分数。
结果：最终得到一个与人类偏好高度一致的语言模型。

预训练模型↓
监督微调（SFT）↓
收集人类偏好数据 → 训练奖励模型（RM）↓
使用奖励模型进行强化学习优化（PPO等）↓
最终部署的对齐模型（如 ChatGPT）

3.RLHF的优缺点
(1)优点(优势)
①更贴近人类价值观：模型输出更符合人类期望，减少有害、误导性内容
②可控性强：能引导模型在多种维度上表现良好（如有用性、无害性、诚实性）
③提升泛化能力：奖励模型可推广到未见过的任务和场景
④不依赖人工规则：相比传统规则方法，更具灵活性和扩展性

(2)缺点(挑战/局限)
①数据获取成本高：需要大量高质量的人类反馈数据
②标注偏差：人类评价可能带有主观性和不一致性
③强化学习不稳定：RL 训练过程复杂，容易出现过拟合或崩溃
④幻觉与对齐风险：模型可能为了得分而“取悦”人类，而非提供真实信息

4.数据处理

训练模型，70-80%的工作都是在处理数据。

5.RoPE 旋转位置编码：绝对位置信息→相对位置信息

RoPE（Rotary Position Embedding，旋转位置编码）是一种在 Transformer 架构中用于表示序列中位置信息的技术。它通过对查询（query）和键（key）向量应用旋转变换，将绝对位置信息编码为相对位置信息，从而提高模型对长序列的处理能力。
在这里插入图片描述

6.LoRA----高效模型微调：不再全参数微调，而是冻结大部分参数

1.LoRA介绍
LoRA（Low-Rank Adaptation）是一种高效的微调技术，旨在降低大型语言模型（LLM）在特定任务上的训练成本。它通过在冻结预训练模型参数的基础上，注入可训练的低秩矩阵，实现了参数高效的微调。

2.LoRA的工作原理
在传统的全参数微调中，模型的所有参数都会被更新，这对于大型模型而言，计算资源和显存消耗巨大。LoRA提出了一种新的方法：冻结预训练模型的参数，只在每个Transformer层中插入两个低秩矩阵(A和B)，通过这两个矩阵的乘积来近似原始参数的更新。具体而言，原始参数矩阵W被分解为W+A×B，其中A和B的秩远小于W，从而大幅减少了需要训练的参数量。
这种方法的关键优势在于，它仅增加了少量的可训练参数，同时保持了推理时与全参数微调相同的效率。例如，在GPT-3 175B的微调中，LoRA将需要训练的参数数量减少了约10,000倍，GPU显存需求也降低了三倍。

7.模型上下文窗口的扩展：LLaMA模型为例

LLaMA(Large Language Model Meta AI) 系列模型在处理长文本方面的能力是其重要特性之一。随着模型版本的升级，其上下文窗口（context window）的长度也在不断扩展。以下是 LLaMA 模型上下文窗口扩展的概述：
(1)LLaMA 1 (2023年发布)
上下文窗口：2048 tokens (2K)
架构：仅解码器 Transformer，使用绝对位置编码。
(2)LLaMA 2 (2023年发布)
上下文窗口：4096 tokens
架构：与 LLaMA 1 相似，但进行了优化。
(3)LLaMA 3 系列 (2024年发布)
①LLaMA 3.0：上下文窗口：8192 tokens
②LLaMA 3.1：上下文窗口：128,000 tokens(128K)；架构：引入了 RoPE（旋转位置编码）来处理更长的上下文
③LLaMA 3.2：上下文窗口：保持在 128K；架构：进一步优化了长上下文处理能力
(4)LLaMA 4 系列 (2025年发布)
①LLaMA 4 Scout：上下文窗口：10,000,000 tokens(10M)；架构：混合专家模型(Mixture of Experts)，支持多模态输入(文本和图像)
②LLaMA 4 Maverick：上下文窗口：1,000,000 tokens(1M)；架构：同上，具有更高的参数量。

8.指令数据的构建

1.构建指令：LIMA指令数据的质量和多样性通常被认为是最重要的。LIMA(Less Is More for Alignment)模型的研究表明，在指令微调(Instruction Tuning)过程中，训练数据的质量和多样性比数量更为重要。通过精心挑选少量高质量且具有多样性的指令-响应对，LIMA 在多个任务上表现出色，甚至超过了使用更大数据集的模型。

2.自动生成指令

3.开源指令数据集

9.强化学习

(1)图解

强化学习(Reinforcement Learning，RL) 研究的问题是 智能体(Agent) 与 环境(Envirorment) 交互的问题，其目标是使智能体在复杂且不确定的环境中最大化奖励(Reward)

在这里插入图片描述

(2)概念

(1)智能体与环境
(3)状态、行为与奖励
(3)策略与价值

(3)智能体

1.分类
(1)基于价值的智能体 (Value-based Agent) 显式地学习价值函数，隐式地学习策略。其策略是从所学到的价值函数推算得到的
(2)基于策略的智能体 ( Policy-based Agent) 则是直接学习策略函数。策略函数的输入为一个状态，输出为对应动作的概率。基于策略的智能体并不学习价值函数，价值函数隐式的表达在策略函数中。
(3)演员-评论员智能体 (Actor-critic Agent) 则是把基于价值的智能体和基于策略的智能体结合起来，既学习策略函数又学习价值函数，通过两者的交互得到最佳的动作。

2.智能体发展历史
(1)符号智能体
将感知数据转化为符号表示，并基于符号进行高效推理。它具备清晰可解释的推理能力和良好的表达效果，专家模型是典型应用

(2)基于强化学习的智能体
核心在于通过环境互动学习，最大化任务奖励。早期方法入 Q-learning 和 SARSA，依赖策略搜索与值函数优化随着深度学习发展，深度强化学习结合神经网络，使智能体能从高维数据中学习复杂策略，广泛应用于游戏、机器人等领域，催生了 AlphaGo、DQN等成果。但强化学习仍面临训练慢、效率低、稳定性差等问题。

(3)基于大模型的智能体
自 2023 年起，大模型因其强大能力受到广泛关注，基于其构建的智能体也迅速兴起。大模型智能体集感知、决策、行动与记忆于一体，以大模型为核心大脑，结合多模态感知与工具使用，拓展感知与行动能力。借助思维链和问题分解等技术，它们展现出接近符号智能体的推理能力，并能通过反馈持续学习、与环境互动。目前已在编程、科研、电商、医疗等领域取得显著成效，尤其凭借自然语言能力，推动了多智能体间的高效协作与交流。

3.规划模块、记忆模块、推理规划
(1)规划模块
(2)记忆模块(短期记忆、长期记忆)
(3)推理规划(大任务分解为小任务，大问题分解为子问题并得到解决方案，解决了上一个再拼接上来辅助解决下一个问题)

4.大模型智能体范式
(1)无反馈规划
(2)带反馈规划

(4)强化学习与监督学习的区别

(1)监督学习：给你正确答案
(2)强化学习：没有答案，只有反馈

强化学习比监督学习的优势：
①数据集不需要打标签，不需要像监督学习那样穷举学习所有正确情况，只要不错误就可以了
②可以动态调整

Lesson6：NLP论文分享

大量调研
发现问题比解决问题更重要
先了解基础框架，原理、代码搞明白。再读一些论文，复现文章，做一些改进(体现工作量)。实现了bashline，在此基础上，提出改进方向，改进思路，效果。

①写综述
②topic下实验项目改进 / 有具体应用需求的项目，写项目报告

分享流程：
1.第一页上，一定要介绍自己，有自己的名字。让别人知道你是谁。
2.介绍这篇的主题、目的是什么

1.《DeepSeek-v2: A strong, Economical, and Efficient Mixture-of-Experts Language Model》
①多层潜空间
②旋转位置编码 RoPE
③MLA
④混合专家模型 MoE

2.《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reionforcement Learning》
①纯强化学习，没有监督微调(SFT)

DeepSeek-V3/R1 能大幅度降低训练成本的核心原理是什么？
分布式训练创新：
①混合专家模型 MoE架构
②DualPipe并行架构：双向管道并行算法，通过重叠计算与通信操作，将流水线气泡时间压缩至传统方法的15%以下。
③NVLink+InfiniBand双通道传输：采用NVLink+InfiniBand双通道传输技术，通信效率提升了65%。
2.算法创新：
①采用强化学习而非传统的监督学习+微调(SFT)。创新性地开发了群体相对策略优化（GRPO）算法，将内存消耗降低至传统PPO算法的三分之一。
②混合训练流程：采用了“SFT → RL → SFT → RL”的混合训练流程，结合监督学习与强化学习双重优势，使训练效率提升了约40%。
3.数据效率突破：数据蒸馏技术
4.计算优化：
①FP8混合精度训练：将权重存储精度降至FP8，内存占用减少50%，计算吞吐量提升30%。
②动态序列长度调整：能够根据输入文本的实际长度，动态地调整计算资源分配，相比固定长度处理方式，能够降低20%的计算开销。
5.国产化算力芯片，降低硬件成本
在这里插入图片描述

3.《SpatialBot: Precise Spatial Understanding with Vision Language Models》

4.《ShapeLLM: Universal 3D Object Understanding for Embodied Interaction》
(1)总结
这篇论文提出了ShapeLLM，这是首个专为具身交互设计的三维多模态大语言模型（LLM）。该模型旨在通过结合三维点云和自然语言，实现对三维物体的通用理解，推动机器人与物理环境的交互能力
(2)贡献
①ReCon++ 编码器：ShapeLLM 基于改进的三维点云编码器 ReCon++，该编码器通过多视角图像蒸馏提升了几何理解能力，为模型提供了更精确的空间信息
②3D MM-Vet 基准测试：论文提出了一个新的三维多模态理解评估基准——3D MM-Vet，涵盖从基础感知到控制语句生成等四个层次的任务，用于全面评估模型在具身交互场景中的表现

5.《ReLearn: Unlearning via Learning for Large Language Models》
遗忘无用的上下文

6.《Improving Contextual Faithfulness of Large Language Models via Retrieval Heads-Induced Optimization》
提出 RHIO 框架：RHIO（Retrieval Heads-Induced Optimization）
旨在提高大型语言模型(LLM)在检索增强生成(RAG)任务中的上下文忠实性，特别是在长篇问答(LFQA)场景中

7.《BadAgent：Inserting and Activating Backdoor Attacks in LLM Agents》

8.《Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-Based Agents》

9.《Linear Recurrent Units for Sequential Recommendation》

10.《Rentive Network：A Successor to Transformer for Large Language Models》

11.《MetaICL: Learning to Learn In Context》

12.《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》
元学习

智能体 Agent：
13.《Web pliot》
14.《Ego-R1》：处理一周长的第一视角超长视频
工具：H-RAG、Video-LLM、VLM