一、引言:蛋白质生成模型面临的评估挑战

近年来,AI驱动的蛋白质结构生成模型取得了令人瞩目的进展,但如何有效评估这些模型的质量却一直是一个悬而未决的问题。虽然实验验证仍然是金标准,但计算机模拟评估对于快速开发和比较机器学习模型至关重要。然而,尽管最先进的模型在当前评估指标上表现卓越,但它们在实际设计应用中的成功率仍然相对有限。例如,有研究报告显示生成结构的实验成功率仅为3%,而计算机模拟评分却远高于此。

MIT CSAIL的Felix Faltings等研究人员在论文《Protein FID: Improved Evaluation of Protein Structure Generative Models》中提出了一个革命性的评估指标——Protein FID (Frechet Inception Distance),该指标能够在有意义的潜在空间中衡量分布相似性,为蛋白质结构生成模型的评估提供了新的视角。

二、现有评估指标的局限性

目前,蛋白质设计领域最常用的体外评估指标包括可设计性(designability)、新颖性(novelty)和多样性(diversity)。

可设计性指的是一个结构是否存在一个能够折叠成该结构的序列。在实践中,可设计性是通过生成基于给定结构的序列,然后检查这些序列是否能够折叠回原始结构来评估的。多样性则通过考察模型生成的输出之间的差异性来评估,通常是通过查看输出空间中不同聚类的数量。而新颖性则检查模型产生的记忆样本的数量。

然而,这些指标都没有捕捉到模型对训练数据中代表的设计空间的采样情况。例如,一个模型可能会生成高度多样化、新颖且可设计的蛋白质,但却从不生成任何β折叠结构,而β折叠结构可能对解决某些设计问题至关重要。事实上,许多生成模型被观察到过度采样α螺旋,而牺牲了其他二级结构。如下图所示,即使是在PDB数据库中的天然蛋白质,其可设计性也只有80%左右,远低于当前生成模型声称的接近99%的可设计性。

图片

图1:PDB蛋白质的可设计性。按长度划分的PDB条目中可设计结构的比例,包括由ProteinMPNN设计的序列和天然序列。红色水平线表示整个集合的平均值。

由图1可见,在所有长度范围内,约有四分之一的PDB结构不被认为是可设计的。即使对于较短的蛋白质,可设计性也远低于生成模型所达到的水平,而当考虑原生蛋白质序列而不是由ProteinMPNN生成的序列时,这个数字甚至更低。这表明像Multiflow这样声称在类似长度范围内达到99%可设计性的最先进蛋白质结构生成模型可能过度优化了这一指标。

参考链接:https://mp.weixin.qq.com/s/-4DMDXmpc-QAHE2OKHk-QQ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/913021.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/913021.shtml
英文地址,请注明出处:http://en.pswp.cn/news/913021.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vim 高效编辑指南:从基础操作到块编辑的进阶之路

文章目录🔠 一、基础编辑命令(生存必备)⚡ 二、进阶操作:可视化块模式 (Ctrl+v)典型应用场景🚀 三、效率提升技巧💡 四、配置建议(~/.vimrc)结语作为开发者最强大的文本编辑器之一,Vim 的高效操作离不开其命令模式(Normal Mode)。本文将系统性地介绍 Vim 的核心编…

docker学习第一天框架学习以及在redhat7.9安装操作

一.docker是什么。 Docker 是一个开源的容器化平台,通过将应用程序及其依赖项(如代码、运行时环境、系统工具等)打包到轻量级、可移植的容器中,实现「一次构建,处处运行」的现代化开发模式。它利用了 Linux 内核特性来…

QT控件 使用Font Awesome开源图标库修改QWidget和QML两种界面框架的控件图标

又一个月快要结束了,在这里总结下分别在QWidget和QML两种界面设计模式中应用Font Awesome开源图标库,修改界面的显示图标效果, AriaNg是aria2的可视化web界面工具,其中的图标大都是Font AWesome中的字体图标,某位曾经尝试将AriaNg…

Qt Quick 与 QML(四)qml中的Delegate系列委托组件

一、概念 在QML中,Delegate是一种非常重要的组件,特别是在使用ListView、GridView、PathView等视图组件时。Delegate用于定义每个列表或网格中的项目是如何展示的。通过自定义Delegate,你可以控制每个项目的外观和行为。 Delegate通常是一个…

android图片优化

在 Android 中加载大图时,如果不进行优化处理,很容易导致内存溢出(OOM)和应用卡顿。以下是几种高效处理大图加载的方法和最佳实践: 1. 使用图片加载库(推荐) 成熟的第三方库已经处理了内存管理…

【机器人】复现 DOV-SG 机器人导航 | 动态开放词汇 | 3D 场景图

DOV-SG 建了动态 3D 场景图,并使用LLM大型语言模型进行任务分解,从而能够在交互式探索过程中对 3D 场景图进行局部更新。 来自RA-L 2025,适合长时间的 语言引导移动操作,动态开放词汇 3D 场景图。 论文地址:Dynamic …

mongodb 中dbs 时,local代表的是什么

在 MongoDB 中,local 是一个内置的系统数据库,用于存储当前 MongoDB 实例(或副本集节点)的元数据和内部数据,与其他数据库不同,local 数据库的数据不会被复制到副本集的其他成员。 local 数据库的核心作用 …

Spring Cloud(微服务部署与监控)

📌 摘要 在微服务架构中,随着服务数量的增长和部署复杂度的提升,如何高效部署、持续监控、快速定位问题并实现自动化运维成为保障系统稳定性的关键。 本文将围绕 Spring Cloud 微服务的部署与监控 展开,深入讲解: 微…

音频动态压缩算法曲线实现

Juce实现动态压缩曲线绘制 动态范围压缩算法(Dynamic Range Compression,DRC)是将音频信号的动态范围映射到一个较小的范围内的过程,即降低较高的峰值的信号电平,而不处理较安静的部分。DRC被广泛用于音频录制、制作工…

技术视界 | OpenLoong 控制框架:打造通用人形机器人智能系统的中枢基座

在人形机器人向通用性、智能化方向加速演进的当下,控制系统的角色正在发生根本变化:它不再只是底层驱动的接口适配层,也不只是策略调用的转译引擎,而是成为连接具身模型、异构本体与多样化任务的“中枢神经系统”。 在 2025 年张…

IOS 蓝牙连接

最近做一个硬件设备,写IOS相应的数据连接/分析代码时;发现一个问题,如果是开机,每次都能连接上。连接断开后,发现再也扫描不到了。通过第三方工具LightBlue,发现信号是-127。 此时进入设置查看蓝牙设备&am…

【硬核数学 · LLM篇】3.1 Transformer之心:自注意力机制的线性代数解构《从零构建机器学习、深度学习到LLM的数学认知》

我们已经完成了对机器学习和深度学习核心数学理论的全面探索。我们从第一阶段的经典机器学习理论,走到了第二阶段的深度学习“黑盒”内部,用线性代数、微积分、概率论、优化理论等一系列数学工具,将神经网络的每一个部件都拆解得淋漓尽致。 …

flutter封装vlcplayer的控制器

import dart:async;import package:flutter_vlc_player/flutter_vlc_player.dart; import package:flutter/material.dart;class GlobalVlcController extends ChangeNotifier {//设置单例/*static final GlobalVlcController _instance GlobalVlcController._internal();fact…

SEO-滥用元机器人、规范或 hreflang 标签

&#x1f9f1; 一、滥用 Meta Robots 标签 ❌ 常见问题&#xff1a; 问题描述设置了 noindex 不该屏蔽的页面比如产品页、分类页被意外 noindex&#xff0c;导致不被收录设置 nofollow 导致内链失效所有链接都被 nofollow&#xff0c;影响爬虫抓取路径在 <meta> 标签和…

笨方法学python -练习14

程序&#xff1a; from sys import argv script, user_name argv prompt > print(f"Hi {user_name}, Im the {script} script.") print("Id like to ask you a few questions.") print(f"Do you like me {user_name}?") likes in…

Frida:配置自动补全 in VSCode

1. 前言 编写 frida JavaScript 脚本是一件 very 普遍的事情在 Android Reverse 中。为了方便编写&#xff0c;配置相关的环境使其能够自动补全是很关键的&#xff0c;即通过类名就能够获取该类的所有对外接口信息&#xff0c;这是面向对象编程的核心优势&#xff0c;可惜我没…

FPGA矩阵算法实现

简介 现如今设计上对速度的要求越来越高&#xff0c;而矩阵相乘含有大量的乘法和加法计算&#xff0c;造成计算时间长从而影响性能&#xff0c;本章节利用FPGA实现浮点型矩阵运算&#xff0c;可在极短时间内完成矩阵运算。 知识介绍 矩阵计算公式如下&#xff1a; 需要保证A的…

C#可空类型详解:从基础到高级应用

C#可空类型详解&#xff1a;从基础到高级应用 在C#编程中&#xff0c;可空类型是一个非常重要的概念&#xff0c;它允许我们为值类型&#xff08;如int、bool、DateTime等&#xff09;分配null值&#xff0c;从而增强了代码的表达能力和灵活性。本文将详细介绍C#中可空类型的各…

Elasticsearch:异常检测入门

在我之前的文章里&#xff0c;我有讲述很多有关使用机器学习来针对数据做异常监测的文章。你可以在 “开发者上手指南” 里的 “机器学习” 章节中找到。在今天的练习中&#xff0c;我将使用最新的 Elastic Stack 9.0.2 来展示如何在 Elasticsearch 中使用机器学习的方法来进行…

ARuler3.1.3 | 高级版测量应用,利用AR技术测量所有

ARuler是一款非常便捷的测量应用程序&#xff0c;专为需要精确测量的用户设计。它不仅具备强大的3D测量功能&#xff0c;还利用增强现实&#xff08;AR&#xff09;技术&#xff0c;为用户提供多种测量选项&#xff0c;包括角度、长度、宽度、高度、面积和体积等。无论是日常生…