一、注意力和transformer
一、选择题
-
注意力机制的核心步骤不包括?
A. 计算注意力分布
B. 加权平均输入信息
C. 随机丢弃部分输入
D. 打分函数计算相关性
答案:C(硬性注意力虽随机选择输入,但核心步骤仍为分布计算与加权) -
Transformer 中使用的注意力打分函数是?
A. 加性模型
B. 缩放点积模型
C. 双线性模型
D. 余弦相似度
答案:B(公式为dkQ⋅KT,避免高维梯度消失) -
以下哪项不是 Transformer 编码器的组件?
A. 掩码自注意力
B. 层归一化
C. 残差连接
D. 前馈神经网络
答案:A(掩码自注意力属于解码器,用于屏蔽未来位置)
二、填空题
-
注意力机制中,softmax 函数的作用是将打分函数输出转化为__________。
答案:概率分布(注意力权重) -
自注意力模型中,输入序列通过线性变换生成 Q、K、__________三个向量。
答案:V(Value) -
Transformer 的位置编码分为绝对位置编码和__________,前者基于__________函数实现。
答案:相对位置编码;正弦和余弦
三、简答题
-
简述软性注意力与硬性注意力的区别。
答:- 软性注意力对所有输入加权求和,可微,如机器翻译中对齐所有单词;
- 硬性注意力随机选择部分输入(如聚焦图像某区域),不可微,需用强化学习训练,计算效率更高但稳定性差。
-
为什么 Transformer 需要位置编码?自注意力如何结合位置信息?
答:- 自注意力本身不具备序列顺序感知能力,位置编码通过正弦 / 余弦函数为每个位置生成唯一向量,与词嵌入相加后输入模型,让模型理解单词顺序(如 “我吃饭” 和 “吃饭我” 的差异)。
-
解释残差连接在 Transformer 中的作用。
答:- 残差连接通过x+SubLayer(x)避免深层网络退化,当子层输出为 0 时,直接传递输入x(恒等映射),保证梯度流通,解决梯度消失问题,允许模型堆叠更多层(如 BERT 的 12 层 / 24 层结构)。
二、绪论
一、选择题
-
下列关于人工智能、机器学习、深度学习的关系描述正确的是?
A. 机器学习包含人工智能,深度学习是机器学习的子集
B. 深度学习包含机器学习,机器学习是人工智能的子集
C. 人工智能包含机器学习,深度学习是机器学习的子集
D. 人工智能包含深度学习,机器学习是深度学习的子集
答案:C -
人工神经元的输出计算不包括以下哪个步骤?
A. 输入信号加权求和
B. 激活函数非线性变换
C. 反馈连接记忆存储
D. 偏置项添加
答案:C -
深度学习与传统机器学习的核心区别在于?
A. 是否使用 GPU 加速
B. 是否自动学习特征表示
C. 是否需要标注数据
D. 是否处理图像数据
答案:B
二、填空题
-
1956 年的________会议首次提出 “人工智能” 概念,被视为 AI 学科诞生的标志。
答案:达特茅斯 -
人工神经网络的三要素包括激活规则、________和学习算法。
答案:拓扑结构 -
深度学习中,通过多层网络自动提取特征的过程称为________。
答案:表示学习
三、机器学习概述
一、选择题
-
下列属于无监督学习的是?
A. 图像分类
B. 客户分群聚类
C. 房价预测
D. 围棋策略学习
答案:B(聚类属于无监督学习,其他选项为监督学习或强化学习) -
线性回归中,L2 正则化的作用是?
A. 使参数稀疏化(变为 0)
B. 防止过拟合,平滑参数
C. 加速收敛速度
D. 提高模型拟合能力
答案:B(L2 正则化通过惩罚大参数,减少方差,防止过拟合) -
极大似然估计假设数据服从某种分布,其核心目标是?
A. 最大化先验概率
B. 最小化预测误差
C. 最大化观测数据出现的概率
D. 最小化结构风险
答案:C
二、填空题
-
机器学习四要素包括数据、模型、________和优化算法。
答案:学习准则(或损失函数 / 风险函数) -
监督学习的优化目标是拟合函数 y=f(x) 或________。
答案:条件概率 p(y∣x) -
线性回归中,当特征矩阵 X 不可逆时,可通过________方法求解参数。
答案:岭回归(或 L2 正则化)
四、 前馈神经网络
一、选择题
-
下列激活函数中,哪一个存在 “死亡神经元” 问题?
A. tanh
B. ReLU
C. sigmoid
D. GELU
答案:B(ReLU 在负输入时输出为 0,若梯度长期为 0 则神经元 “死亡”) -
前向传播中,隐藏层节点的输出计算顺序是?
A. 先激活函数,再线性变换
B. 先线性变换,再激活函数
C. 仅线性变换
D. 仅激活函数
答案:B(先计算净输入z=Wx+b,再应用激活函数) -
反向传播算法的核心依据是?
A. 链式法则
B. 奥卡姆剃刀
C. 大数定律
D. 中心极限定理
答案:A(通过链式法则计算复合函数梯度)
二、填空题
-
通用近似定理表明,多层感知器可通过增加______层神经元数量,以任意精度拟合复杂函数。
答案:隐藏 -
sigmoid 函数的导数表达式为______。
答案:σ′(x)=σ(x)(1−σ(x)) -
前馈神经网络中,输入层到隐藏层的权重矩阵维度为m×n,则输入特征维度为______,隐藏层节点数为______。
答案:n;m
五、卷积神经网络
一、选择题
-
下列哪项不属于卷积神经网络的结构特征?
A. 局部连接
B. 权重共享
C. 全连接层
D. 空间次采样
答案:C(全连接层是 CNN 的组成部分,但非结构特征) -
等宽卷积的填充量计算方式为?
A. P=0
B. P=K−1
C. P=(K−1)/2
D. P=K
答案:C(等宽卷积通过填充 (K−1)/2 保持输出尺寸与输入一致) -
残差网络解决的核心问题是?
A. 梯度爆炸
B. 网络退化
C. 过拟合
D. 计算量过大
答案:B(残差连接通过恒等映射避免深层网络训练误差上升)
二、填空题
-
卷积神经网络中,权重共享的作用是__________。
答案:减少参数数量,提取通用特征 -
空洞卷积通过插入__________来扩大感受野。
答案:空洞(或零) -
ResNet 的残差单元输出公式为__________。
答案:y=x+F(x)
六、循环神经网络
一、选择题
-
RNN 在反向传播时梯度消失的主要原因是?
A. 激活函数导数累乘小于 1
B. 学习率设置过小
C. 输入序列过长
D. 权重矩阵初始化过大
答案:A(激活函数导数如 tanh'∈[0,1],累乘导致梯度衰减) -
LSTM 中控制历史信息丢弃比例的门是?
A. 输入门
B. 遗忘门
C. 输出门
D. 重置门
答案:B -
GRU 与 LSTM 的主要区别是?
A. GRU 没有记忆单元
B. GRU 合并了遗忘门和输入门
C. GRU 使用双向传播
D. GRU 参数更多
答案:B -
RNN 前向传播中,隐层状态更新公式正确的是?
A. ht=σ(Uxt+Wht−1)
B. ht=Uxt+Wht−1
C. ht=tanh(Uxt⋅Wht−1)
D. ht=tanh(Uxt+Wht−1)
答案:D
二、填空题
-
RNN 反向传播算法的全称是__________。
答案:反向传播通过时间(BPTT) -
LSTM 的记忆单元更新公式为__________。
答案:ct=ft⋅ct−1+it⋅c~t -
梯度爆炸的解决方案通常是__________。
答案:梯度截断 -
GRU 中的 “更新门” 作用是控制__________。
答案:历史信息保留和新信息输入的比例
七、网络优化与正则化
一、选择题
-
下列哪项不是网络优化的难点?
A. 非凸优化问题
B. 梯度消失 / 爆炸
C. 凸优化目标函数
D. 超参数敏感
答案:C -
小批量梯度下降(MBGD)的主要优势是?
A. 计算效率与梯度稳定性平衡
B. 绝对收敛到全局最优
C. 无需调参
D. 适合所有规模数据集
答案:A -
Adam 优化算法结合了哪些技术?
A. 动量法与 Adagrad
B. 动量法与 RMSprop
C. SGD 与 Adadelta
D. 梯度截断与早停
答案:B
二、填空题
-
网络优化中,梯度消失的主要原因是__________和__________的累乘。
答案:激活函数导数、权重矩阵 -
批量归一化(BN)的主要目的是解决__________问题。
答案:内部协变量偏移 -
Dropout 通过随机丢弃神经元,等效于__________训练,提升模型泛化性。
答案:集成
八、模型的学习方式
一、选择题
-
下列属于集成学习中 Boosting 框架的算法是?
A. 随机森林
B. AdaBoost
C. Stacking
D. Bagging
答案:B -
多任务学习中,硬共享模式的特点是?
A. 各任务独立训练,无参数共享
B. 共享底层网络,顶层任务特定
C. 通过正则化约束参数相似
D. 按任务相关性分层共享
答案:B -
迁移学习中,源域与目标域特征空间相同但分布不同的场景属于?
A. 异构迁移
B. 同构迁移
C. 元学习
D. 终身学习
答案:B
二、填空题
-
集成学习的三大框架包括 Boosting、和。
答案:Bagging、Stacking -
多视角学习中,通过交替标注未标记数据的方法称为__________。
答案:协同训练(Co-Training) -
迁移学习中,利用预训练模型在目标任务微调的方法属于__________策略。
答案:预训练 - 微调
九、深度生成模型
一、选择题
-
下列属于生成模型的是?
A. 逻辑回归
B. 支持向量机
C. 生成对抗网络(GAN)
D. 随机森林
答案:C -
GAN 的核心架构包含哪两个网络?
A. 编码器与解码器
B. 生成器与判别器
C. 前向网络与反向网络
D. 特征提取器与分类器
答案:B -
生成模型学习的目标是?
A. 直接拟合条件概率 p(y∣x)
B. 学习数据的联合概率 p(x,y) 或边缘概率 p(x)
C. 寻找最优决策边界
D. 最大化分类准确率
答案:B
二、填空题
-
机器学习的两种范式是__________和__________。
答案:判别模型、生成模型 -
GAN 的目标函数设计遵循__________与__________的对抗优化原则。
答案:生成器、判别器 -
生成模型的两大核心步骤是__________和__________。
答案:密度估计、采样