TensorFlow深度学习实战——Transformer模型评价指标
- 0. 前言
- 1. 质量
- 1.1 GLUE
- 1.2 SuperGLUE
- 1.3 SQuAD
- 1.4 RACE
- 1.5 NLP-progress
- 2. 参数规模
- 3. 服务成本
- 相关链接
0. 前言
可以使用多种类型的指标评估 Transformer
模型。在本节中,我们将学习一些用于评估 Transformer
的关键因素,即质量、规模和服务成本,通常,需要在这些指标间进行权衡。
1. 质量
Transformer
模型的质量 (Quality
) 可以通过一系列可用的数据集进行衡量,接下来,将介绍一些常用的数据集。
1.1 GLUE
通用语言理解评估 (General Language Understanding Evaluation, GLUE) 基准是一个用于训练、评估和分析自然语言理解系统的资源集合。GLUE
包含:
- 九个基于已有数据集的句子或句子对语言理解任务的基准,旨在覆盖不同的数据集规模、文本类型和难度等级
- 一个诊断数据集,旨在评估和分析模型在自然语言中发现的各种语言现象方面的表现
- 一个公共排行榜,用于跟踪基准测试的性能,以及一个用于可视化模型在诊断集上表现的仪表盘
下图显示了 GLUE
排行榜&#x