一、引言：蛋白质生成模型面临的评估挑战

近年来，AI驱动的蛋白质结构生成模型取得了令人瞩目的进展，但如何有效评估这些模型的质量却一直是一个悬而未决的问题。虽然实验验证仍然是金标准，但计算机模拟评估对于快速开发和比较机器学习模型至关重要。然而，尽管最先进的模型在当前评估指标上表现卓越，但它们在实际设计应用中的成功率仍然相对有限。例如，有研究报告显示生成结构的实验成功率仅为3%，而计算机模拟评分却远高于此。

MIT CSAIL的Felix Faltings等研究人员在论文《Protein FID: Improved Evaluation of Protein Structure Generative Models》中提出了一个革命性的评估指标——Protein FID (Frechet Inception Distance)，该指标能够在有意义的潜在空间中衡量分布相似性，为蛋白质结构生成模型的评估提供了新的视角。

二、现有评估指标的局限性

目前，蛋白质设计领域最常用的体外评估指标包括可设计性(designability)、新颖性(novelty)和多样性(diversity)。

可设计性指的是一个结构是否存在一个能够折叠成该结构的序列。在实践中，可设计性是通过生成基于给定结构的序列，然后检查这些序列是否能够折叠回原始结构来评估的。多样性则通过考察模型生成的输出之间的差异性来评估，通常是通过查看输出空间中不同聚类的数量。而新颖性则检查模型产生的记忆样本的数量。

然而，这些指标都没有捕捉到模型对训练数据中代表的设计空间的采样情况。例如，一个模型可能会生成高度多样化、新颖且可设计的蛋白质，但却从不生成任何β折叠结构，而β折叠结构可能对解决某些设计问题至关重要。事实上，许多生成模型被观察到过度采样α螺旋，而牺牲了其他二级结构。如下图所示，即使是在PDB数据库中的天然蛋白质，其可设计性也只有80%左右，远低于当前生成模型声称的接近99%的可设计性。

图1：PDB蛋白质的可设计性。按长度划分的PDB条目中可设计结构的比例，包括由ProteinMPNN设计的序列和天然序列。红色水平线表示整个集合的平均值。

由图1可见，在所有长度范围内，约有四分之一的PDB结构不被认为是可设计的。即使对于较短的蛋白质，可设计性也远低于生成模型所达到的水平，而当考虑原生蛋白质序列而不是由ProteinMPNN生成的序列时，这个数字甚至更低。这表明像Multiflow这样声称在类似长度范围内达到99%可设计性的最先进蛋白质结构生成模型可能过度优化了这一指标。

参考链接：https://mp.weixin.qq.com/s/-4DMDXmpc-QAHE2OKHk-QQ