文章目录

  • Lesson1:Introduction to NLP、NLP 基础与文本预处理
    • 1.教材
    • 2.自然语言处理概述
      • (1)NLP 的定义、发展历程与应用场景
      • (2)NLP 的主要任务:分词、词性标注、命名实体识别、句法分析等
    • 2.文本预处理
    • 3.文本表示方法:词向量表示/词表征
  • Lesson2:语言模型与序列建模
    • 1.语言模型的介绍、原理、应用场景
    • 2.语言模型的类型
    • 3.N-gram 模型 与 马尔可夫假设
    • 4.序列模型
      • (1)RNN
      • (2)LSTM
  • Lesson3:深度学习与预训练模型
    • 1.深度学习基础
    • 2.Transformer 与自注意力机制
      • (3)注意力机制、自注意力机制、多头自注意力机制
        • ①注意力机制(Attention)
        • ②自注意力机制(Self-attention)
        • ③多头自注意力机制
        • ④序列到序列模型
        • ⑤Transformer
        • ⑥位置编码
        • ⑦残差连接和层归一化
        • ⑧掩码自注意力
    • 3.预训练语言模型
      • (1)预训练和微调 (Pretranin and Fine-Tuning)
      • (2)Prompt-Tuning
  • Lesson4:NLP 应用与实践
    • 1.文本分类与情感分析
    • 2.机器翻译与文本生成
    • 3.信息抽取与知识图谱
    • 4.对话系统与问答系统
  • Lesson5:跨语言、跨模态、跨任务统一大模型
    • 1.T5 (Text-to-Text Transfer Transformer)
    • 2.思维链 (Chain-of-Thought,CoT)
    • 3.RLHF 基于人类反馈的强化学习
    • 4.数据处理
    • 5.RoPE 旋转位置编码:绝对位置信息→相对位置信息
    • 6.LoRA----高效模型微调:不再全参数微调,而是冻结大部分参数
    • 7.模型上下文窗口的扩展:LLaMA模型为例
    • 8.指令数据的构建
    • 9.强化学习
      • (1)图解
      • (2)概念
      • (3)智能体
      • (4)强化学习与监督学习的区别
  • Lesson6:NLP论文分享
  • Lesson7:实践与项目

Lesson1:Introduction to NLP、NLP 基础与文本预处理

1.教材

参考教材:《自然语言处理导论》、《大规模语言模型》(只有第一版有电子版)


2.自然语言处理概述

(1)NLP 的定义、发展历程与应用场景

在这里插入图片描述


(2)NLP 的主要任务:分词、词性标注、命名实体识别、句法分析等

自然语言处理:
自然语言处理(NLP),目的是使得计算机具备人类的听、说、读、写、译、问、答、搜索、摘要、对话和聊天等能力,并可利用知识和常识进行推理和决策,并支持客服、诊断、法律、教学等场景。

模拟人脑认知的不同特点,比如事件认知,目标行动认知,情绪自我认知,实现推理基础上的行为控制。

自然语言处理包含:分析、理解、转换、生成等。
自然语言处理是结合计算机科学、统计学、语言学以及心理学、医学、法律等的交叉学科。
NLU( Understanding)+ NLG (generation)


理解:
①连接主义
连接主义,机器的理解机制与人相同,强调结构的仿真,用神经网络模仿人脑

②符号主义
符号主义,机器的表现与人相同,强调功能的演绎逻辑,图灵测试

③行为主义
完成正确的反应或者行为


神经元:
ChatGPT:1750亿个神经元
人脑:860亿个神经元


进入机器学习和神经网络之前,必须 向量化。每个词大概有5万维度特征,且是稠密的。


2.文本预处理

1.分词与词性标注。

2.去除停用词、拼写纠错、词干提取与词形还原。

3.文本标准化与编码。


3.文本表示方法:词向量表示/词表征

1.One-Hot Encoding(独热编码)
最早期的词表征方法之一,是将每个词表示为一个高维稀疏向量,其中只有一个维度为1,其余为0。虽然简单,但无法捕捉词语之间的语义关系。

2.Word Embedding(词嵌入)
词嵌入是将词语映射到低维稠密向量空间的技术,能够更有效地捕捉词语的语义信息。常见的词嵌入方法包括:
Word2Vec:由Google提出的模型,包括CBOW和Skip-gram两种架构,通过上下文信息来学习词向量。
②GloVe:由斯坦福大学提出,结合了全局统计信息和局部上下文信息来学习词向量。
③FastText:由Facebook提出,考虑了词的子词信息,能够更好地处理未登录词和拼写错误。

3.上下文相关的词表征
传统的词嵌入方法为每个词分配一个固定的向量,而上下文相关的词表征方法根据词语在不同上下文中的含义动态生成词向量,能够更好地处理多义词等问题。代表性的方法包括:
①ELMo:使用双向LSTM模型,根据上下文生成词向量。
BERT:基于Transformer架构,使用双向编码器来捕捉上下文信息,生成动态词向量。
GPT:基于Transformer的自回归模型,能够生成上下文相关的词向量。

4.TF-IDF



Lesson2:语言模型与序列建模

1.语言模型的介绍、原理、应用场景

1.介绍
语言模型(Language Model,LM)是一种能够对自然语言中词语序列进行概率分布估计的模型,用于计算给定序列的整体概率或预测下一个词的条件概率分布。


2.原理
语言模型的核心目标是在给定前文上下文的条件下估计词序列的概率。 (联合概率)
在这里插入图片描述
这一假设大幅降低了计算复杂度,但也限制了模型捕捉长距离依赖的能力。


3.应用场景
(1)机器翻译:预测目标语言词序列,提高译文流畅度和准确性
(2)语音识别:结合声学模型对候选词序列进行语言约束,减少识别错误
(3)文本生成:自动写作、聊天机器人中根据上下文生成连贯文本
(4)信息检索:评估查询与文档的语言相似度,提升检索相关性
(5)拼写纠错:利用上下文概率判断并纠正文本中的拼写或语法错误


2.语言模型的类型

1.统计语言模型 (N-gram 模型)
原理:依据语料中词序列出现的频率进行概率估计,典型有 unigram、bigram、trigram 等。
优点:实现简单,计算高效。
缺点:高阶模型组合稀疏,且上下文窗口有限,难以捕获长距离依赖。

2.神经语言模型
代表:Bengio 等人在2003年提出的神经概率语言模型(Neural Probabilistic Language Model)。
原理:通过多层神经网络学习词的分布式表示(词嵌入),并在此基础上进行概率建模,有效缓解“维度灾难”问题。

3.预训练大型语言模型
代表:BERT、GPT 系列、T5 等。
架构:基于 Transformer 自注意力机制,在大规模语料上预训练生成通用的语言表示。
优势:能够捕获更长距离依赖关系,通过微调适配多种下游任务,显著提升了 NLP 各项指标的表现


3.N-gram 模型 与 马尔可夫假设

1.N-gram 模型将文本划分为连续的 n 个词(或字符)组成的序列。例如:
①Unigram(1-gram):每个词独立出现,例如“我”,“喜欢”,“学习”。
②Bigram(2-gram):连续两个词的组合,例如“我 喜欢”,“喜欢 学习”。
③Trigram(3-gram):连续三个词的组合,例如“我 喜欢 学习”。

N元语言模型的问题:
当上下文变长,时间复杂度指数级升高。

N元语言模型是基于 词袋编码(bag-of-words)


2.马尔可夫假设(Markov Assumption)是概率论和统计学中的一个基本假设,广泛应用于自然语言处理、机器学习、经济学等领域。该假设由俄国数学家安德烈·马尔可夫(Andrey Markov)提出,核心思想是:
“在已知当前状态的前提下,未来状态与过去状态条件独立。”
换言之,当前状态包含了预测未来所需的所有信息,过去的状态对未来的影响被“遗忘”。


3.语言模型的评估指标:困惑度(Perplexity)、交叉熵(Cross-Entropy)
(1)困惑度(Perplexity)
在自然语言处理(NLP)中,困惑度(Perplexity,简称 PPL) 是衡量语言模型性能的常用指标。它反映了模型对测试数据预测的“困惑”程度,即模型在生成或理解文本时的预测能力。
困惑度源自信息论,表示一个概率模型对样本的不确定性程度。在语言模型中,困惑度衡量模型对测试集的预测能力,数值越低表示模型越精确。
具体而言,困惑度是模型对测试集上所有词的条件概率的几何平均数的倒数。

在这里插入图片描述


4.生成方法
(1)贪婪策略
(2)Top-k:k=4
(3)Top-p:p=0.75


5.数据平滑(Data Smoothing)
旨在降低数据中的噪声,揭示潜在的趋势或模式。它通过对数据进行处理,使得数据曲线更加平滑,减少了随机波动的影响。


4.序列模型

1.循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)

(1)RNN

RNN:适用于处理时序数据,但存在梯度消失和长期依赖问题。
①梯度消失/爆炸问题:随着序列长度增加,反向传播时梯度可能会消失或爆炸,导致模型训练困难。
②长期依赖问题:RNN 难以捕捉长期依赖,尤其是对于序列中较远时间步的依赖关系。

(2)LSTM

LSTM加了门控,不存在梯度消失和梯度爆炸问题。


2.双向RNN与双向LSTM

序列标注任务:命名实体识别(NER)、词性标注(POS Tagging)



Lesson3:深度学习与预训练模型

1.深度学习基础

1.神经网络基础:感知机、多层感知机(MLP)


2.激活函数、损失函数与优化算法。


3.反向传播算法与梯度下降。


2.Transformer 与自注意力机制

详情见:Transformer


1.Transformer架构概述


2.自注意力机制(Self-Attention)与多头注意力(Multi-Head Attention)


3.位置编码与位置嵌入

(3)注意力机制、自注意力机制、多头自注意力机制

①注意力机制(Attention)

2015,允许语言模型在每个时间步关注观察到的上下文的特定部分。

解决梯度爆炸和梯度消失问题


②自注意力机制(Self-attention)

2017
QKV


③多头自注意力机制

多头,增加参数量


④序列到序列模型

序列到序列模型(Seq2Seq,Sequence-to-Sequence Learning)

序列到序列模型是一种将输入序列映射到输出序列的模型架构,通常由编码器和解码器组成。

工作原理:
编码器: 处理输入序列,生成一个上下文向量(或一系列隐藏状态)。
解码器: 根据上下文向量,逐步生成输出序列。


⑤Transformer

Transformer结构是由谷歌在2017年提出并首先应用于机器翻译。
Transformer结构完全通过注意力机制完成对源语言序列和目标语言序列全局依赖的建模。

在这里插入图片描述
在这里插入图片描述


⑥位置编码

位置编码(Positional Encoding)是解决Transformer模型中一个核心问题的技术:Transformer模型本身不具备处理序列中词语顺序的能力。

输入序列:        [词向量1]  [词向量2]  [词向量3]  ...  [词向量N]|          |          |             |
位置编码:         [PE1]      [PE2]      [PE3]     ...  [PEN]相加后作为输入:   [词向量1+PE1] [词向量2+PE2] [词向量3+PE3] ... [词向量N+PEN]↓          ↓          ↓             ↓送入Transformer的自注意力层等后续网络

⑦残差连接和层归一化

残差连接主要是指使用一条直连通道直接将对应子层的输入连接到输出上去,从而避免由于网络过深在优化过程中潜在的梯度消失问题。


⑧掩码自注意力

BERT做分类。如果要用BERT做生成,


3.预训练语言模型

1.BERT、GPT、T5、RoBERTa 等模型的原理与应用

BERT是Encoder
GPT是单解码器 (Decoder only)
T5:prefix


2.Masked Language Model(MLM)与自回归语言模型


3.模型微调与迁移学习


(1)预训练和微调 (Pretranin and Fine-Tuning)


(2)Prompt-Tuning

旨在通过添加模板的方法来避免引入额外的参数,从而让语言模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想的效果。

  • 降低语义差异(Bridge the gap between Pre-training and Fine-tuning):预训练任务主要以Masked Language Modeling (MLM)为主,而下游任务则重新引入新的训练参数,因此两个阶段的模板通常有较大差异。因此需要解决如何缩小 Pre-training 和 Fine-tuning 两个阶段目标差距过大的问题。
  • 避免过拟合(Overfitting of the head):由于在 Fine-tuning 阶段需要新引入额外的参数以适配相应的任务需要,因此在样本数量有限的情况容易发生过拟合,降低了模型的泛化能力。因此需要面对预训练语言模型的过拟合问题。



Lesson4:NLP 应用与实践

1.文本分类与情感分析

1.文本分类任务概述
2.情感分析方法与应用
3.模型评估指标:准确率、精确率、召回率、F1 值


2.机器翻译与文本生成

1.序列到序列模型(Seq2Seq)

2.注意力机制与指针生成网络

3.文本生成任务:摘要生成、对话生成


3.信息抽取与知识图谱

1.命名实体识别(NER)与关系抽取

2.事件抽取与三元组提取

3.知识图谱构建与推理


4.对话系统与问答系统

1.任务导向对话系统与开放域对话系统

2.问答系统的类型:基于检索的问答、生成式问答

3.对话管理与上下文建模



Lesson5:跨语言、跨模态、跨任务统一大模型

1.T5 (Text-to-Text Transfer Transformer)

1.T5介绍
T5 (Text-to-Text Transfer Transformer) 是由Google Research团队2019 年提出的一种统一的文本生成模型、预训练语言模型,旨在统一处理多种自然语言处理任务。其核心思想是将所有NLP任务(如翻译、摘要、问答、文本分类等) 统一转化为 文本到文本 的生成任务,即输入一段文本,输出另一段文本。从而实现任务无关的模型架构设计。这种设计简化了模型的应用流程,并提升了多任务学习的灵活性。


2.T5的核心特点
(1)文本到文本的统一框架:所有任务都转换为“输入文本→输出文本”的形式
(2)基于Transformer架构:使用标准的自注意力机制和前馈网络,但进行了改进以适应大规模预训练。
(3)预训练与微调:
预训练:在C4(Common Crawl Corpus)数据集上进行去噪任务(如Span Corruption),即随机掩盖输入文本中的连续片段并要求模型重建。
微调:针对具体任务调整模型参数,使用特定任务的标注数据。

3.T5 的训练分为两个阶段:
①预训练:在大规模文本数据集 C4(Colossal Clean Crawled Corpus)上进行自监督训练,采用 Span Corruption 目标,即随机遮蔽文本中的连续子串,模型需要恢复被遮蔽的部分。
②微调:在特定任务的数据集上进行有监督微调,任务通过在输入文本前添加特定前缀来指示,如 summarize:、translate English to French: 等。


2.思维链 (Chain-of-Thought,CoT)

1.CoT的介绍
思维链(Chain-of-Thought,简称CoT)是一种提升大语言模型(LLM)推理能力的技术。其核心思想是引导模型在回答复杂问题时,不是直接给出答案,而是通过逐步推理、分步骤地展示中间逻辑过程,从而更有效地解决问题。


2.CoT的提出
思维链(Chain-of-Thought,CoT) 提示技术首次由Google Research团队在于2022年11月提出。具体来说,这项技术首次系统性地被介绍是在一篇题为:
该团队在论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中,展示了通过引导大型语言模型生成中间推理步骤(即“思维链”),能够显著提升其在复杂推理任务中的表现。
作者:Jason Wei, Xuezhi Wang, Dale Schuurmans等
发布时间:2022年1月(arXiv出版)
arXiv链接:https://arxiv.org/abs/2201.11903


3.CoT的原理
传统的提示方法通常是输入一个指令加一个问题,期望模型直接输出答案。但在处理多步骤推理问题时,这种方式往往效果不佳。
而 CoT 的做法是:
在提示中加入一些示例,这些示例不仅包含问题和答案,还包含详细的推理步骤 。
模型被训练或引导去模仿这种“推理链条”的形式。
当遇到新问题时,模型会尝试按照类似的思路一步步分析问题,而不是直接跳跃到答案。


4.CoT的优势
①提升推理能力:特别适用于数学、逻辑、编程等需要多步推理的任务
②可解释性强:推理过程透明,便于人类理解与验证
③减少错误:分步处理可以减少整体错误率
④易于调试:如果某一步出错,更容易定位问题所在


5.CoT的应用场景
①数学题求解(如代数、几何)
②逻辑推理题(如真假话问题、排列组合)
③自然语言推理(NLI)
④编程问题分析
⑤决策树式问题(如策略选择)


3.RLHF 基于人类反馈的强化学习

1.RLHF介绍
RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习 )是一种用于训练人工智能模型(尤其是大语言模型)的方法,旨在让模型更好地对齐人类的价值观、偏好和意图。它被广泛应用于提升语言模型输出的质量与可控性,例如在 ChatGPT、Claude、Bard 等主流对话系统中。


2.RLHF的核心思想
RLHF 的核心是通过人类反馈来指导模型学习“什么是好的回答” ,而不是仅仅依靠预训练数据或固定的目标函数。
其基本流程包括三个主要阶段:
(1)阶段一:监督微调(Supervised Fine-Tuning, SFT)
目的 :让模型学会根据输入生成符合预期的回答。
做法 :
收集大量的人类写的问题(prompt)及其对应的好回答。
使用这些数据对预训练语言模型进行微调。
结果 :得到一个初步能生成高质量回答的模型。
(2)阶段二:训练奖励模型(Reward Model, RM)
目的:学习人类偏好的打分标准。
做法:
对于同一个问题,让模型生成多个不同回答。
让人类标注者对这些回答进行排序(如从好到差)。
利用这些排序数据训练一个奖励模型,使其能够为任意回答打分。
结果:奖励模型可以预测人类对某个回答的满意度。
(3)阶段三:强化学习微调(Reinforcement Learning Fine-Tuning, RLFT)
目的 :利用奖励模型作为“老师”,引导模型生成更受人类欢迎的回答。
做法 :
将微调后的模型作为强化学习中的智能体(agent)。
每次生成回答后,用奖励模型给这个回答打分。
使用强化学习算法(如 PPO)更新模型参数,使得未来生成的回答获得更高的分数。
结果 :最终得到一个与人类偏好高度一致的语言模型。

预训练模型↓
监督微调(SFT)↓
收集人类偏好数据 → 训练奖励模型(RM)↓
使用奖励模型进行强化学习优化(PPO等)↓
最终部署的对齐模型(如 ChatGPT)

3.RLHF的优缺点
(1)优点(优势)
①更贴近人类价值观:模型输出更符合人类期望,减少有害、误导性内容
②可控性强:能引导模型在多种维度上表现良好(如有用性、无害性、诚实性)
③提升泛化能力:奖励模型可推广到未见过的任务和场景
④不依赖人工规则:相比传统规则方法,更具灵活性和扩展性

(2)缺点(挑战/局限)
①数据获取成本高:需要大量高质量的人类反馈数据
②标注偏差:人类评价可能带有主观性和不一致性
③强化学习不稳定:RL 训练过程复杂,容易出现过拟合或崩溃
④幻觉与对齐风险:模型可能为了得分而“取悦”人类,而非提供真实信息


4.数据处理

训练模型,70-80%的工作都是在处理数据。


5.RoPE 旋转位置编码:绝对位置信息→相对位置信息

RoPE(Rotary Position Embedding,旋转位置编码)是一种在 Transformer 架构中用于表示序列中位置信息的技术。它通过对查询(query)和键(key)向量应用旋转变换,将绝对位置信息编码为相对位置信息,从而提高模型对长序列的处理能力。
在这里插入图片描述


6.LoRA----高效模型微调:不再全参数微调,而是冻结大部分参数

1.LoRA介绍
LoRA(Low-Rank Adaptation)是一种高效的微调技术,旨在降低大型语言模型(LLM)在特定任务上的训练成本。它通过在冻结预训练模型参数的基础上,注入可训练的低秩矩阵,实现了参数高效的微调。


2.LoRA的工作原理
在传统的全参数微调中,模型的所有参数都会被更新,这对于大型模型而言,计算资源和显存消耗巨大。LoRA提出了一种新的方法:冻结预训练模型的参数,只在每个Transformer层中插入两个低秩矩阵(A和B),通过这两个矩阵的乘积来近似原始参数的更新。具体而言,原始参数矩阵W被分解为W+A×B,其中A和B的秩远小于W,从而大幅减少了需要训练的参数量。
这种方法的关键优势在于,它仅增加了少量的可训练参数,同时保持了推理时与全参数微调相同的效率。例如,在GPT-3 175B的微调中,LoRA将需要训练的参数数量减少了约10,000倍,GPU显存需求也降低了三倍。


7.模型上下文窗口的扩展:LLaMA模型为例

LLaMA(Large Language Model Meta AI) 系列模型在处理长文本方面的能力是其重要特性之一。随着模型版本的升级,其上下文窗口(context window)的长度也在不断扩展。以下是 LLaMA 模型上下文窗口扩展的概述:
(1)LLaMA 1 (2023年发布)
上下文窗口:2048 tokens (2K)
架构:仅解码器 Transformer,使用绝对位置编码。
(2)LLaMA 2 (2023年发布)
上下文窗口:4096 tokens
架构:与 LLaMA 1 相似,但进行了优化。
(3)LLaMA 3 系列 (2024年发布)
①LLaMA 3.0:上下文窗口:8192 tokens
②LLaMA 3.1:上下文窗口:128,000 tokens(128K);架构:引入了 RoPE(旋转位置编码)来处理更长的上下文
③LLaMA 3.2:上下文窗口:保持在 128K;架构:进一步优化了长上下文处理能力
(4)LLaMA 4 系列 (2025年发布)
①LLaMA 4 Scout:上下文窗口:10,000,000 tokens(10M);架构:混合专家模型(Mixture of Experts),支持多模态输入(文本和图像)
②LLaMA 4 Maverick:上下文窗口:1,000,000 tokens(1M);架构:同上,具有更高的参数量。


8.指令数据的构建

1.构建指令:LIMA指令数据的质量和多样性通常被认为是最重要的。LIMA(Less Is More for Alignment)模型的研究表明,在指令微调(Instruction Tuning)过程中,训练数据的质量和多样性比数量更为重要。通过精心挑选少量高质量且具有多样性的指令-响应对,LIMA 在多个任务上表现出色,甚至超过了使用更大数据集的模型。

2.自动生成指令

3.开源指令数据集


9.强化学习

(1)图解

强化学习(Reinforcement Learning,RL) 研究的问题是 智能体(Agent)环境(Envirorment) 交互的问题,其目标是使智能体在复杂且不确定的环境中最大化奖励(Reward)

在这里插入图片描述


(2)概念

(1)智能体与环境
(3)状态、行为与奖励
(3)策略与价值


(3)智能体

1.分类
(1)基于价值的智能体 (Value-based Agent) 显式地学习价值函数,隐式地学习策略。其策略是从所学到的价值函数推算得到的
(2)基于策略的智能体 ( Policy-based Agent) 则是直接学习策略函数。策略函数的输入为一个状态,输出为对应动作的概率。基于策略的智能体并不学习价值函数,价值函数隐式的表达在策略函数中。
(3)演员-评论员智能体 (Actor-critic Agent) 则是把基于价值的智能体和基于策略的智能体结合起来,既学习策略函数又学习价值函数,通过两者的交互得到最佳的动作。


2.智能体发展历史
(1)符号智能体
将感知数据转化为符号表示,并基于符号进行高效推理。它具备清晰可解释的推理能力和良好的表达效果,专家模型是典型应用

(2)基于强化学习的智能体
核心在于通过环境互动学习,最大化任务奖励。早期方法入 Q-learning 和 SARSA,依赖策略搜索与值函数优化随着深度学习发展,深度强化学习结合神经网络,使智能体能从高维数据中学习复杂策略,广泛应用于游戏、机器人等领域,催生了 AlphaGo、DQN等成果。但强化学习仍面临训练慢、效率低、稳定性差等问题。

(3)基于大模型的智能体
自 2023 年起,大模型因其强大能力受到广泛关注,基于其构建的智能体也迅速兴起。大模型智能体集感知、决策、行动与记忆于一体,以大模型为核心大脑,结合多模态感知与工具使用,拓展感知与行动能力。借助思维链和问题分解等技术,它们展现出接近符号智能体的推理能力并能通过反馈持续学习、与环境互动。目前已在编程、科研、电商、医疗等领域取得显著成效,尤其凭借自然语言能力,推动了多智能体间的高效协作与交流。


3.规划模块、记忆模块、推理规划
(1)规划模块
(2)记忆模块(短期记忆、长期记忆)
(3)推理规划(大任务分解为小任务,大问题分解为子问题并得到解决方案,解决了上一个再拼接上来辅助解决下一个问题)


4.大模型智能体范式
(1)无反馈规划
(2)带反馈规划


(4)强化学习与监督学习的区别

(1)监督学习:给你正确答案
(2)强化学习:没有答案,只有反馈

强化学习比监督学习的优势:
①数据集不需要打标签,不需要像监督学习那样穷举学习所有正确情况,只要不错误就可以了
②可以动态调整



Lesson6:NLP论文分享

大量调研
发现问题比解决问题更重要
先了解基础框架,原理、代码搞明白。再读一些论文,复现文章,做一些改进(体现工作量)。实现了bashline,在此基础上,提出改进方向,改进思路,效果。

①写综述
②topic下实验项目改进 / 有具体应用需求的项目,写项目报告


分享流程:
1.第一页上,一定要介绍自己,有自己的名字。让别人知道你是谁。
2.介绍这篇的主题、目的是什么


1.《DeepSeek-v2: A strong, Economical, and Efficient Mixture-of-Experts Language Model》
①多层潜空间
②旋转位置编码 RoPE
③MLA
④混合专家模型 MoE

2.《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reionforcement Learning》
①纯强化学习,没有监督微调(SFT)

DeepSeek-V3/R1 能大幅度降低训练成本的核心原理是什么?
分布式训练创新:
①混合专家模型 MoE架构
②DualPipe并行架构:双向管道并行算法,通过重叠计算与通信操作,将流水线气泡时间压缩至传统方法的15%以下。
③NVLink+InfiniBand双通道传输:采用NVLink+InfiniBand双通道传输技术,通信效率提升了65%。
2.算法创新:
①采用强化学习而非传统的监督学习+微调(SFT)。创新性地开发了群体相对策略优化(GRPO)算法,将内存消耗降低至传统PPO算法的三分之一。
②混合训练流程:采用了“SFT → RL → SFT → RL”的混合训练流程,结合监督学习与强化学习双重优势,使训练效率提升了约40%。
3.数据效率突破:数据蒸馏技术
4.计算优化:
①FP8混合精度训练:将权重存储精度降至FP8,内存占用减少50%,计算吞吐量提升30%。
②动态序列长度调整:能够根据输入文本的实际长度,动态地调整计算资源分配,相比固定长度处理方式,能够降低20%的计算开销。
5.国产化算力芯片,降低硬件成本
在这里插入图片描述


3.《SpatialBot: Precise Spatial Understanding with Vision Language Models》

4.《ShapeLLM: Universal 3D Object Understanding for Embodied Interaction》
(1)总结
这篇论文提出了ShapeLLM,这是首个专为具身交互设计的三维多模态大语言模型(LLM)。该模型旨在通过结合三维点云和自然语言,实现对三维物体的通用理解,推动机器人与物理环境的交互能力
(2)贡献
①ReCon++ 编码器:ShapeLLM 基于改进的三维点云编码器 ReCon++,该编码器通过多视角图像蒸馏提升了几何理解能力,为模型提供了更精确的空间信息
②3D MM-Vet 基准测试:论文提出了一个新的三维多模态理解评估基准——3D MM-Vet,涵盖从基础感知到控制语句生成等四个层次的任务,用于全面评估模型在具身交互场景中的表现


5.《ReLearn: Unlearning via Learning for Large Language Models》
遗忘无用的上下文

6.《Improving Contextual Faithfulness of Large Language Models via Retrieval Heads-Induced Optimization》
提出 RHIO 框架:RHIO(Retrieval Heads-Induced Optimization)
旨在提高大型语言模型(LLM)在检索增强生成(RAG)任务中的上下文忠实性,特别是在长篇问答(LFQA)场景中


7.《BadAgent:Inserting and Activating Backdoor Attacks in LLM Agents》

8.《Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-Based Agents》


9.《Linear Recurrent Units for Sequential Recommendation》

10.《Rentive Network:A Successor to Transformer for Large Language Models》


11.《MetaICL: Learning to Learn In Context》

12.《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》
元学习


智能体 Agent:
13.《Web pliot》
14.《Ego-R1》:处理一周长的第一视角超长视频
工具:H-RAG、Video-LLM、VLM



Lesson7:实践与项目

1.实验与作业
(1)使用 Python 和 NLP 工具库(如 NLTK、spaCy、Transformers)进行文本处理与建模。
(2)完成文本分类、命名实体识别、情感分析等任务的实验。


2.课程项目
(1)选择一个 NLP 任务(如情感分析、机器翻译、对话系统等),进行数据收集、模型训练、评估与优化。
(2)撰写项目报告,展示研究过程与结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/88182.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/88182.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/88182.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS揭秘:9.自适应的椭圆

前置知识:border-radius 用法前言 本篇目标是实现一个椭圆,半椭圆,四分之一椭圆。 一、圆形和椭圆 当我们想实现一个圆形时,通常只要指定 border-radius 为 width/height 的一半就可以了。 当我们指定的border-radius的值超过了 w…

善用关系网络:开源AI大模型、AI智能名片与S2B2C商城小程序赋能下的成功新路径

摘要:本文聚焦于关系在个人成功中的关键作用,指出关系即财富,善用关系、拓展人脉是成功的重要途径。在此基础上,引入开源AI大模型、AI智能名片以及S2B2C商城小程序等新兴技术工具,探讨它们如何助力个体在复杂的关系网络…

2025年渗透测试面试题总结-2025年HW(护网面试) 34(题目+回答)

安全领域各种资源,学习文档,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具,欢迎关注。 目录 2025年HW(护网面试) 34 一、网站信息收集 核心步骤与工具 二、CDN绕过与真实IP获取 6大实战方法 三、常…

萤石全新上线企业AI对话智能体,开启IoT人机交互新体验

一、什么是萤石AI对话智能体?如何让设备听得到、听得懂?这次萤石发布的AI对话Agent,让设备能进行自然、流畅、真人感的AI对话智能体,帮助开发者打造符合业务场景的AI对话智能体能力,实现全双工、实时打断、可扩展、对话…

智绅科技:以科技为翼,构建养老安全守护网

随着我国老龄化进程加速,2025年60岁以上人口突破3.2亿,养老安全问题成为社会关注的焦点。智绅科技作为智慧养老领域的领军企业,以“科技赋能健康,智慧守护晚年”为核心理念,通过人工智能、物联网、大数据等技术融合&am…

矩阵系统源码部署实操指南:搭建全解析,支持OEM

矩阵系统源码部署指南矩阵系统是一种高效的数据处理框架,适用于大规模分布式计算。以下为详细部署步骤,包含OEM支持方案。环境准备确保服务器满足以下要求:操作系统:Linux(推荐Ubuntu 18.04/CentOS 7)硬件配…

基于python的个人财务记账系统

博主介绍:java高级开发,从事互联网行业多年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了多年的毕业设计程序开发,开发过上千套毕业设计程序,没有什么华丽的语言&#xff0…

从 CODING 停服到极狐 GitLab “接棒”,软件研发工具市场风云再起

CODING DevOps 产品即将停服的消息,如同一颗重磅炸弹,在软件研发工具市场炸开了锅。从今年 9 月开始,CODING 将陆续下线其 DevOps 产品,直至 2028 年 9 月 30 日完全停服。这一变动让众多依赖 CODING 平台的企业和个人开发者陷入了…

#渗透测试#批量漏洞挖掘#HSC Mailinspector 任意文件读取漏洞(CVE-2024-34470)

免责声明 本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停…

深入解析C++驱动开发实战:优化高效稳定的驱动应用

深入解析C驱动开发实战:优化高效稳定的驱动应用 在现代计算机系统中,驱动程序(Driver)扮演着至关重要的角色,作为操作系统与硬件设备之间的桥梁,驱动程序负责管理和控制硬件资源,确保系统的稳定…

SNIProxy 轻量级匿名CDN代理架构与实现

🌐 SNIProxy 轻量级匿名CDN代理架构与实现 🏗️ 1. 整体架构设计 🔹 1.1 系统架构概览 #mermaid-svg-S4n74I2nPLGityDB {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-S4n74I2nP…

Qt的信号与槽(一)

Qt的信号与槽(一)1.信号和槽的基本认识2.connect3.关闭窗口的按钮4.函数的根源5.形参和实参的类型🌟hello,各位读者大大们你们好呀🌟🌟 🚀🚀系列专栏:【Qt的学习】 &…

springMVC02-视图解析器、RESTful设计风格,静态资源访问配置

一、SpringMVC 的视图在 SpringMVC 中,视图的作用渲染数据,将模型 Model (将控制器(Controller))中的数据展示给用户。在 Java 代码中,视图由接口 org.springframework.web.servlet.View 表示SpringMVC 视图的种类很多…

Go中使用Google Authenticator

现在为了安全Google二次验证使用越来越平凡了,所以我们自己做的一些产品中,也会用到Google Authenticator。 介绍 Google Authenticator采用的算法是TOTP(Time-Based One-Time Password基于时间的一次性密码),其核心内…

ReactNative【实战系列教程】我的小红书 4 -- 首页(含顶栏tab切换,横向滚动频道,频道编辑弹窗,瀑布流布局列表等)

最终效果 顶栏 modules/index/components/topBar.tsx import icon_daily from "/assets/images/icon_daily.png"; import MaterialIcons from "expo/vector-icons/MaterialIcons"; import { useCallback, useState } from "react"; import { Im…

告别Root风险:四步构建安全高效的服务器管理体系

当整个开发团队都使用root账号操作服务器,且重要数据无备份时,系统如同行走在悬崖边缘。本文将分享一套经过验证的四步解决方案,帮助团队快速提升主机安全性。 为什么必须告别Root账号? 直接使用root账号的风险: &am…

【IM项目笔记】1、WebSocket协议和服务端推送Web方案

这里写自定义目录标题 1、HTTP和WebSocket协议2、WebSocket3、Http VS WebSocket4、WebSocket - 建立连接5、服务端推送Web方案(1) 短轮询(2) 长轮询(3) WebSocket长连接1、HTTP和WebSocket协议 📕 HTTP请求的特点:通信只能由客户端发起。所以,早期很多网站为了实现推送技…

【深度学习新浪潮】什么是上下文长度?

大型语言模型(LLM)的上下文长度是指模型在处理当前输入时能够有效利用的历史文本长度,通常以token(如单词、子词或标点)为单位衡量。例如,GPT-4支持128K token的上下文,而Llama 4 Scout甚至达到了10M token的惊人规模。这一指标直接影响模型在长文档理解、多轮对话等复杂…

Modbus TCP转Profibus网关轻松让流量计与DCS通讯

Modbus TCP转Profibus网关轻松让流量计与DCS通讯工业自动化系统中,协议差异常成为设备互联的“语言障碍”。例如,当流量计采用Modbus TCP协议,而DCS系统仅支持Profibus DP时,如何实现无缝通信?本文将结合技术原理与真实…

云时代下的IT资产管理自动化实践

前言伴随着企业数字化转型进程的加快,IT资产规模日益庞大且复杂。传统的手工IT资产登记、跟踪与管理方式,效率低下且容易出错,已经无法满足现代企业对于敏捷化、可视化和自动化运维的需求。云计算、容器化、微服务架构的普及又进一步加快了资…