最近看到 Google AI 发布了一个叫 MLE-STAR(Machine Learning Engineering via Search and Targeted Refinement)的新系统,说实话,第一眼看完论文和相关介绍后,我是有点震撼的。这不只是一次简单的“LLM + 自动化”拼凑,而是真正把机器学习工程(ML Engineering)这个复杂流程,用智能代理(agent)的方式往前推了一大步。

  咱们平时做项目的时候都知道,一个完整的 ML pipeline 涉及数据预处理、特征工程、模型选择、调参、集成学习,还有各种 bug 调试和数据泄露检查。这些活儿不仅琐碎,还特别考验经验。以前我们也用过一些自动化工具,比如 AutoML,或者基于 LLM 的代码生成 agent,但总觉得“差点意思”——要么太依赖模型自己“记住”的东西,要么改代码像“一把梭”,整个脚本重写一遍,效率低,效果也不稳定。

Image

  而这次 Google Cloud 团队推出的 MLE-STAR,我觉得是真正抓住了痛点。

它到底解决了什么问题?

  文章里提到几个关键瓶颈,我深有体会:

  1. 1. LLM 记忆的局限性:很多 agent 写代码时,总是习惯性地用 scikit-learn 套个 Random Forest 或 XGBoost 就完事了。不是不好,但在某些任务上,比如图像、音频,明明有更先进的模型(比如 ViT、EfficientNet),但它“想不起来”或者“不敢用”。这就导致方案不够前沿。

  2. 2. 粗粒度的迭代方式:以前的 agent 往往是“全盘重写”——跑一次结果不好,就整个代码重新生成一遍。这种“all-at-once”的修改,缺乏针对性,很难深入优化某个模块,比如特征编码方式或者归一化策略。

  3. 3. 容易出错,还难发现:生成的代码经常有运行错误、数据泄露(比如在训练时不小心用了 test set 的统计信息),或者干脆漏掉了某个数据文件。这些问题在真实项目中是致命的,但很多 agent 根本不检查。

  MLE-STAR 正是在这几个方面做了系统性的突破。

它的核心创新,我觉得可以用“搜、改、合、查”四个字来概括

1. 搜:Web Search–Guided Model Selection

  这是让我眼前一亮的设计。MLE-STAR 不再只靠 LLM 自己“脑补”模型,而是会主动调用 web-scale search,去检索当前任务最相关的模型和代码片段。比如你给它一个图像分类任务,它会去搜最新的 model cards、Kaggle kernels、GitHub 项目,然后把 EfficientNet、ViT 这些真正 state-of-the-art 的架构纳入候选。

  这就相当于,它不是靠“背书”做题,而是开卷考试,还能查资料——你说这优势多大?

2. 改:Nested, Targeted Code Refinement(嵌套式、针对性代码优化)

  这个机制特别聪明。它用了双层循环优化

  • • 外层循环(Ablation-driven):它会做“消融实验”(ablation study),自动分析当前 pipeline 中哪个模块对性能影响最大——是数据预处理?特征工程?还是模型结构?

  • • 内层循环(Focused Exploration):一旦锁定关键模块,它就只针对那一块做精细化迭代。比如发现 categorical feature 的编码方式是瓶颈,它就会尝试 One-Hot、Target Encoding、Embedding 等多种方式,逐一测试。

  这种“先定位,再攻坚”的策略,比盲目重写整个脚本高效太多了,也更接近人类专家的思维方式。

3. 合:Self-Improving Ensembling Strategy(自进化的集成策略)

  集成学习(Ensemble)一直是 Kaggle 拿奖的利器,但大多数 agent 只会简单地“投票”或“平均”。MLE-STAR 不一样,它能主动设计复杂的集成方案,比如 stacking,甚至自己构建 meta-learner(元学习器),或者搜索最优权重组合。

  更关键的是,它是在多个候选方案的基础上动态组合,而不是只挑一个“最好”的。这就大大提升了鲁棒性和上限。

4. 查:Robustness through Specialized Agents(专项检查机制)

  这一点在工程上太重要了。MLE-STAR 内置了三个“质检员”:

  • • Debugging Agent:遇到 Python 报错,它会自动修复,直到代码能跑通,最多试几次;

  • • Data Leakage Checker:专门检查有没有数据泄露,比如标准化时用了 test set 的均值;

  • • Data Usage Checker:确保所有提供的数据文件都被充分利用,避免遗漏重要信息。

  这些检查机制,看似“辅助”,实则是保证结果可信的关键。没有它们,再好的模型也可能因为一个小 bug 而前功尽弃。

效果怎么样?数据说话

  他们在 MLE-Bench-Lite 这个 benchmark 上做了测试,包含 22 个来自 Kaggle 的真实竞赛任务,涵盖表格、图像、音频、文本等多种模态。结果非常亮眼:

指标

MLE-STAR (Gemini-2.5-Pro)

最佳基线 AIDE

获奖率(Any Medal)

63.6%

25.8%

金牌率(Gold Medal)

36.4%

12.1%

超过中位数

83.3%

39.4%

有效提交率

100%

78.8%

  你看,获奖率直接翻了两倍多,金牌率更是三倍以上。尤其是在图像任务上,MLE-STAR 主动选择了 ViT、EfficientNet 这些现代架构,而不是守着 ResNet 不放,说明它真的“跟上了时代”。

  而且,它的有效提交率是 100%,意味着生成的代码都能跑通,没有语法错误或文件缺失——这对自动化系统来说,是个巨大的工程胜利。

Image

Image

我的一些思考

  说实话,看到这个系统,我第一反应是:“这已经不只是工具,而是一个会学习、会反思、会协作的 ML 工程伙伴了。”

  它不像传统的 AutoML 那样“黑箱”,也不像纯 LLM 生成那样“随性”,而是建立了一套有逻辑、有反馈、有安全边界的工作流。特别是那个“ablation-driven”的外层循环,让我觉得它有点像人类研究员在做实验设计——先分析瓶颈,再集中突破。

  另外,它还支持 human-in-the-loop,比如专家可以手动注入最新的模型描述,帮助系统更快采纳前沿技术。这种“人机协同”的设计,既保留了自动化效率,又不失灵活性,非常务实。

  更让人高兴的是,Google 把这套系统基于 Agent Development Kit (ADK) 构建,并且开源了代码和教程。这意味着我们普通研究者和工程师也能上手试用、二次开发,甚至把它集成到自己的 pipeline 中。这种开放态度,对整个社区都是好事。


总结一下

  MLE-STAR 真的代表了当前 ML 自动化的一个新高度。 它通过“搜索打底、聚焦优化、智能集成、严格检查”这一整套机制,不仅提升了性能,更重要的是提升了可靠性可解释性

  如果你在做 AutoML、智能 agent、或者 MLOps 相关的工作,这个项目非常值得深入研究。我已经在 GitHub 上 star 了他们的 repo,也打算用他们的 notebook 先跑一个 demo 试试。

  未来,也许我们不再需要从头写每一个 pipeline,而是和像 MLE-STAR 这样的 agent 一起协作——它负责执行和迭代,我们负责定义问题和把控方向。这或许就是下一代机器学习工程的样子。

详见

  1. 1. 论文:https://www.arxiv.org/abs/2506.15692

  2. 2. 代码:https://github.com/google/adk-samples/tree/main/python/agents/machine-learning-engineering

  3. 3. 相关文档:https://research.google/blog/mle-star-a-state-of-the-art-machine-learning-engineering-agents/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/94730.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/94730.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/94730.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

3-防火墙

防火墙 一 防火墙概述防火墙概述防火墙是一个位于内部网络与外部网络之间的安全系统(网络中不同区域之间),是按照一定的安全策略建立起来的硬件或软件系统,用于流量控制的系统(隔离),保护内部网…

python opencv 调用 海康威视工业相机(又全又细又简洁)

1.准备工作 准备一个海康相机 下载MVS 和SDK 海康机器人-机器视觉-下载中心 2.python MVS示例 (说明:MVS里有很多python示例,可以直接运行,但没有用opencv) 下载完MVS后,我们打开路径安装路径 我的&#…

计算机基础·linux系统

Finalshell 用于远程操控vmware中的linux系统 获取虚拟机的IP地址 ifconfig命令,重启系统后IP地址可能会变化!问题:vmware子系统没有网络连接 winRservices.msc启动这些服务问题:配置正确但是finalshell连接失败 更新子系统中的ss…

8.结构健康监测选自动化:实时数据 + 智能分析,远超人工

第一次接触结构健康自动化监测系统,感觉成本很高,比人工好在哪里? 人工检测是依靠目测检查或借助于便携式仪器测量得到的信息,但是随着整个行业的发展,传统的人工检测方法已经不能满足检测需求,从人工检测到…

【慕伏白】Android Studio 配置国内镜像源

文章目录配置HTTP代理修改 gradle 镜像地址修改 maven 镜像源重新同步配置HTTP代理 进入File --> Settings --> Appearance & Behavior --> System Settings --> HTTP Proxy 勾选 Auto-detect proxy settings --> Automatic proxy configuration URL &…

Spring Cloud系列—LoadBalance负载均衡

上篇文章: Spring Cloud系列—Eureka服务注册/发现https://blog.csdn.net/sniper_fandc/article/details/149937589?fromshareblogdetail&sharetypeblogdetail&sharerId149937589&sharereferPC&sharesourcesniper_fandc&sharefromfrom_link …

如何使用 pnpm创建Vue 3 项目

✅ 一、什么是 pnpm? pnpm 是一种更快、更高效的 Node 包管理工具,替代 npm 或 yarn,具有: 更快的安装速度更节省磁盘空间(包复用)严格的依赖管理二、使用 pnpm 创建 Vue 项目的完整流程 ✅ 第一步&#xf…

Vite vs. vue-cli 创建 Vue 3 项目的区别与使用场景

Vite vs. vue-cli 创建 Vue 3 项目的区别与使用场景 Vite 和 vue-cli 都是 Vue 官方推荐的脚手架工具,但它们的架构、构建方式和适用场景有所不同。以下是它们的对比:1. 核心区别对比项Vite (推荐🔥)vue-cli (传统)构建工具基于 ESM Rollup基…

VC6800智能相机:赋能智能制造,开启AI视觉新纪元

在工业自动化与智能化浪潮奔涌的今天,精准、高效、智能的视觉检测已成为提升生产力和品质的关键核心。VC6800智能相机应运而生,它不仅仅是一部相机,更是一个集强大视觉硬件与前沿AI算法于一身的 “工业智眼”,正深刻改变着各个领域…

(Python)Python爬虫入门教程:从零开始学习网页抓取(爬虫教学)(Python教学)

一、爬虫基础概念 什么是爬虫? 网络爬虫(Web Crawler)是一种自动获取网页内容的程序,它像蜘蛛一样在互联网上"爬行",收集和提取数据。 爬虫应用场景: 搜索引擎(Google、百度&#…

dify前端源码部署详细教程

这两天突发奇想,能不能dify源码部署我只部署个前端,后端、数据库什么的还是原来docker部署dify的本地部署和遇到的问题。按逻辑来说应该是行得通的,我就亲自操作了下试下。 我这边就以我以前使用docker部署好的1.3.1版本为例。docker安装参考…

Web地图服务规范,WMS服务是什么

Web地图服务规范,WMS服务是什么? WMS,全称 Web Map Service (网络地图服务),是有OGC(开放地理空间信息联盟)制定的一项标准化协议。他的核心功能是允许客户端(比如网页浏览器或者GIS桌面软件)通过互联网或者…

北京手机基站数据分享:9.3万点位+双格式,解锁城市通信「基础设施地图」

今天分享的是——​​2023年7月北京市手机基站数据(shpcsv双格式)​​。92,785个基站点位(覆盖全市16区),WGS84坐标系直接能用,shp格式适配GIS软件,csv格式方便Excel/Pandas分析!文末…

Druid学习笔记 01、快速了解Druid中SqlParser实现

文章目录前言介绍Druid代码目录介绍模块一:Parser模块二:Druid_SQL_AST在Druid SQL Parser中有哪些AST节点类型?熟悉常用的AST节点组成常用的SQLExpr有哪些?常用的SQLStatemment?SQLTableSourceSQLSelect & SQLSelectQuerySQ…

Rust中生命周期的理解与应用

在学习Rust编程语言时,理解生命周期(Lifetime)是非常关键的,因为它直接影响到代码的安全性和性能。今天我们来深入探讨Rust中的一个常见问题——生命周期的误解和正确应用,结合实际代码实例来说明。 生命周期的基本概念 Rust中的生命周期是用来确保引用(Reference)在其…

智慧感知新体验:英飞凌雷达在智能家居的创新应用

随着智慧家居快速发展,感知技术成为实现高效、便捷生活的关键。雷达作为非接触、高精度的感测方案,正在家居应用中展现出巨大潜力。 本次研讨会将由英飞凌大中华区雷达应用产品经理 Tommy Wan主讲,分享他在智能门铃、门锁与安防摄像头等应用…

AI:新书预告—从机器学习避坑指南(分类/回归/聚类/可解释性)到大语言模型落地手记(RAG/Agent/MCP),一场耗时5+3年的技术沉淀—“代码可跑,经验可抄”—【一个处女座的程序猿】携两本AI

AI:新书预告—从机器学习避坑指南(分类/回归/聚类/可解释性)到大语言模型落地手记(RAG/Agent/MCP),一场耗时53年的技术沉淀—“代码可跑,经验可抄”—【一个处女座的程序猿】携两本AI实战书终于正式来了! 导读:大家好&…

数据结构:栈、队列

一、栈和队列与链表的区别1.链表可以在任意位置插入和删除元素2.栈和队列只允许在指定位置插入和删除元素3.栈只允许在栈顶位置入栈和出栈元素3.相同点:表、栈、队列都是一种线性结构(一对一)4.栈和队列是一种特殊的表状结构二、栈&#xff0…

cuda编程笔记(13)--使用CUB库实现基本功能

CUB 是 NVIDIA 提供的 高性能 CUDA 基础库&#xff0c;包含常用的并行原语&#xff08;Reduction、Scan、Histogram 等&#xff09;&#xff0c;可以极大简化代码&#xff0c;并且比手写版本更优化。CUB无需链接&#xff0c;只用包含<cub/cub.cuh>头文件即可需要先临时获…

LabVIEW滤波器测控系统

​基于LabVIEW 平台的高频滤波器测控系统&#xff0c;通过整合控制与测试功能&#xff0c;替代传统分离式测控模式。系统以 LabVIEW 为核心&#xff0c;借助标准化接口实现对滤波器的自动化参数调节与性能测试&#xff0c;显著提升测试效率与数据处理能力&#xff0c;适用于高频…