每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

上周,马克·扎克伯格宣布,Meta的目标是实现“比人类更聪明的人工智能”。他似乎已经有了实现这一目标的“配方”,而第一种关键原料就是人类人才。据报道,扎克伯格曾试图以九位数的薪酬吸引顶尖研究人员加入Meta超级智能实验室。第二种原料则是人工智能本身。扎克伯格在一次财报电话会议上表示,Meta超级智能实验室将专注于打造能够自我提升的AI系统——这些系统可以自我引导,不断提升性能。

自我改进的可能性让人工智能区别于其他革命性技术。比如,CRISPR基因编辑无法自己提升DNA序列靶向能力,核聚变反应堆也不能自行找到商业化的突破口。但大型语言模型(LLM)却能优化运行所依赖的计算芯片、廉价高效地训练其他LLM,甚至可能提出全新的AI研究思路。在这些领域,AI已经取得了不小的进展。

扎克伯格认为,AI的自我提升可能会带来一个人类摆脱日常琐事、在超高效智能伙伴的支持下追求更高目标的世界。然而,非营利AI研究机构METR的政策主管克里斯·佩因特(Chris Painter)警告说,自我改进也伴随着根本性风险。如果AI能够加速自身能力发展,它可能会迅速提升黑客攻击、武器设计和操纵人类的能力。一些研究人员甚至推测,这种正反馈循环可能导致所谓的“智能爆炸”,即AI在短时间内将自身能力提升到远超人类的水平。

即便不是最悲观的预测者,也不得不认真对待自我改进AI的潜在影响。OpenAI、Anthropic和谷歌在各自的AI安全框架中,都提到了自动化AI研究这一概念,与化学武器、网络安全等熟悉的风险类别并列。英属哥伦比亚大学计算机科学教授、谷歌DeepMind高级研究顾问杰夫·克鲁恩(Jeff Clune)指出:“我认为这是通往强大AI的最快路径,可能是我们最应该关注的事情。”

克鲁恩同时表示,自动化AI研发也可能带来巨大好处。单凭人类,可能无法想到那些能让AI有朝一日解决癌症、气候变化等巨大难题的创新与改进。

目前,人类的创造力仍然是AI进步的主要引擎,否则Meta也不会用如此高昂的待遇去吸引研究人员进入其超级智能实验室。但AI已经开始参与自身的研发过程,而且在未来几年中,这种参与度有望进一步增加。以下是AI正在“让自己变得更好”的五种方式。

1. 提升生产力
目前,LLM对AI研发最重要的贡献或许也是最平凡的:编程辅助。“最大作用就是编程帮助。”AI研究机构Forethought的高级研究员汤姆·戴维森(Tom Davidson)表示。像Claude Code和Cursor这样的工具能帮助工程师更快地编写代码,已在AI行业广受欢迎。谷歌CEO桑达尔·皮查伊(Sundar Pichai)在2024年10月透露,公司四分之一的新代码由AI生成。Anthropic也记录了其员工使用Claude Code的多种方式。如果工程师因此提高了生产效率,就能更快设计、测试和部署新的AI系统。

然而,这些工具的生产力优势仍有待验证。如果工程师花大量时间纠正AI的错误,那么即使手动写代码的时间减少,整体效率也未必提高。METR最近的一项研究发现,经验极其丰富的开发人员在使用AI编程助手时,完成任务的时间反而延长了约20%。不过,研究联合负责人内特·拉什(Nate Rush)强调,该研究针对的是在大型代码库上工作的资深开发者,结论未必适用于那些只是写简短脚本来跑实验的AI研究人员。

在前沿实验室中开展类似研究,可能更清楚地揭示编程助手是否真的能提升顶尖AI研究人员的生产效率。但目前,这样的研究尚未开展。同时,仅凭软件工程师的主观感受并不可靠——METR的研究对象虽然觉得AI编程工具让自己更高效,实际却被显著拖慢了速度。

2. 优化基础设施
如果运行代码需要等待数小时、数天甚至数周,再快的编写速度也无济于事。LLM训练尤其缓慢,而最先进的推理模型生成一次响应就可能需要几分钟。这些延迟是AI研发的重大瓶颈。斯坦福大学计算机科学助理教授、谷歌DeepMind高级科学家阿扎利娅·米尔霍赛尼(Azalia Mirhoseini)表示:“如果我们能让AI运行得更快,我们就能更快创新。”

早在2021年,米尔霍赛尼和谷歌的同事就构建了一个非LLM AI系统,用来优化芯片组件布局,从而提升效率。尽管有研究者未能复现其结果,米尔霍赛尼表示,《自然》杂志已对论文进行调查并确认其有效性,而且谷歌确实在多代自研AI芯片设计中采用了该系统的成果。

最近,她将LLM应用于芯片内核(kernel)编写——这些低层函数决定了矩阵乘法等操作的执行方式。结果显示,即便是通用LLM,有时也能写出比人类版本更快的内核。

谷歌的另一支团队开发了名为AlphaEvolve的系统,用Gemini LLM生成解决问题的算法,对算法进行评估,并反复迭代改进。AlphaEvolve设计了一种新的数据中心运行方法,为谷歌节省了0.7%的计算资源,还改进了定制芯片设计,并开发出一个让Gemini训练速度提升1%的新内核。

虽然1%的提升看似微小,但在谷歌这样的大公司,这意味着巨大的时间、资金和能源节约。AlphaEvolve项目负责人马泰·巴洛格(Matej Balog)指出,该系统目前只优化了Gemini训练流程的一个小环节,若更广泛应用,节省空间会更大。

3. 自动化训练
LLM以数据“胃口大”著称,训练成本高昂。在某些领域(如冷门编程语言),现实世界数据稀缺,难以有效训练LLM。人类反馈强化学习(RLHF)是训练LLM符合人类标准的关键技术,但获取人类反馈既慢又贵。

如今,LLM正被用于填补这一空白。只要提供足够示例,LLM就能在未训练过的领域生成可信的合成数据,用于模型训练。在“LLM评判者”(LLM as a judge)方法中,由LLM而非人类来评估模型输出,这也是Anthropic在2022年提出的“宪法AI”框架的核心。

数据稀缺对AI智能体尤其是难题,因为高效的智能体必须能执行多步计划,而这种完整成功案例在网上极少。为此,米尔霍赛尼团队尝试让一个LLM智能体生成任务分步方案,由另一个LLM评判每步有效性,再用这些步骤训练新的智能体。“数据不再是限制,因为模型可以无限生成新的经验。”她表示。

4. 完善智能体设计
在LLM自身架构设计方面,AI贡献尚不显著。如今的LLM都基于2017年人类提出的Transformer结构,后续改进也由人类完成。但LLM智能体的兴起开辟了新的设计空间,尤其是与外部世界交互的工具和使用指令的优化。

克鲁恩与Sakana AI研究人员共同开发了“达尔文-哥德尔机”(Darwin Gödel Machine)——一种能迭代修改自身提示词、工具及代码以提升任务表现的LLM智能体。它不仅通过自我修改获得更高分,还能发现原始版本无法找到的新改进,实现了真正的自我改进循环。

5. 推动科研
尽管LLM加快了研发流程的诸多环节,人类或许仍将在相当长时间内主导AI科研。许多专家认为,科研“品味”——即挑选有前景研究方向的能力——是AI面临的重大挑战。

但克鲁恩认为,这一挑战未必如想象般大。他与Sakana AI正在研发名为“AI科学家”的端到端科研系统,能自主在文献中寻找研究问题、运行实验并撰写论文。今年早些时候,该系统提出并测试了一种新的训练策略,旨在让神经网络更好地组合训练数据中的示例,论文匿名提交至国际机器学习大会(ICML)某研讨会,并获得足够高的评分进入录取范围(尽管研讨会的录取标准低于主会)。另一次,该系统的科研想法后来被一位人类研究者独立提出,并在社交平台上引发关注。

克鲁恩表示:“我们正处在AI科学家的GPT-1时刻。几年后,它将撰写能被顶级期刊和会议接收的论文,甚至作出全新的科学发现。”

超级智能会很快到来吗?
随着对AI自我提升的热情不断高涨,未来数月乃至数年,AI在自身发展中的作用可能会越来越大。扎克伯格认为,这意味着超越人类能力的超级智能模型或许就在眼前。然而,现实中自我提升AI的影响尚不确定。

例如,AlphaEvolve确实让核心LLM系统Gemini的训练速度提升了1%,但这未必会显著加快谷歌的AI进展。巴洛格指出:“这是一个非常缓慢的反馈循环。Gemini的训练周期很长,所以目前只是看到这种良性循环的开端。”

如果每一代Gemini都能在训练速度上再加1%,这种加速效应会复利增长。而且随着能力提升,每一代都可能带来更大的速度提升及其他自我优化方法。在这种情况下,超级智能支持者认为“智能爆炸”似乎不可避免。

然而,这种推论忽略了一个关键事实:创新会随着时间变得更加困难。任何科学领域的早期阶段,发现往往来得又快又容易;而随着深度学习科学的成熟,额外改进可能需要投入更多人力和AI协作。等到AI达到人类水平的科研能力时,可能“容易摘的果子”已经被人类和弱AI摘光。

因此,准确评估AI自我提升的实际影响非常困难。更棘手的是,最关键的AI系统——那些在前沿公司内部使用的——往往比公开发布的版本更先进,外部研究者难以直接判断内部情况。

即便如此,外部研究者仍在努力,例如通过监测AI完成任务的速度来推测发展趋势。METR的研究显示,自2019年GPT-2发布以来,AI能独立完成的任务长度大约每7个月翻一倍;自2024年以来,这一倍增周期缩短为4个月,表明AI发展确实在加速。这一加速可能源于充足的投资,也可能部分得益于AI的自我提升。

戴维森表示,METR的研究暗示,目前低垂果效尚未显著拖慢人类研究速度,或者说投资增长抵消了减速。如果AI显著提升人类研究人员的生产力,甚至直接接手部分研究工作,那么研究加速的天平将进一步倾向于AI一方。“完全可以预期会有一段时间,AI进展会加快,”戴维森说,“关键问题是,这段加速会持续多久。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/95030.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/95030.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/95030.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Numpy基础(广播机制)

广播机制 Numpy的Universal functions中要求输入的数组shape是一致的,当数组的shape不相等 时,则会使用广播机制。不过,调整数组使得shape一样,需要满足一定的规则,否则将 出错。这些规则可归纳为以下4条。 1&#xff…

reuse: for booting my spring project with mvn in Windows command line

boot.bat echo off setlocal enabledelayedexpansion:: 定义帮助信息 set HELP_MSG使用方法: %0 [选项,可选-m,-j,-h] [参数...]:: 默认启动方式为 mvn set MODEmvn set ARGS:: 解析命令行参数 :parse_args if "%~1""" goto end_parseif "%~1"&q…

NodeJs学习日志(4):路由合并_环境配置_常用文件目录

路由合并_环境配置_常用文件目录 路由合并 // routes/routes.js const express require(express); const router express.Router();// 合并子路由 var indexRouter require(../routes/index); var usersRouter require(../routes/users);router.use(/, indexRouter); route…

✨TRAE SOLO + Holopix AI | 轻松实现 “虚假广告“-转[特殊字符]割草小游戏

引言 😶 两周前 (7.21) Trae-国际版 正式发布「SOLO」模式,需要 Pro 账户,邀请码一度 “难求”,海鲜市场还有人挂出 500块的 “天价”,这都能炒?我是无法理解的🤷‍♀️,目前一个月…

redis集群-本地环境

* Linux 本地集群:3主3从yum install -y gccyum install -y wgetyum install -y vimwget http://download.redis.io/releases/redis-7.2.5.tar.gztar -zxvf redis-7.2.5.tar.gzcd redis-7.2.5/makemake PREFIX/usr/local/redis install# 配置系统环境变量vim /etc/p…

海关 瑞数 失信企业 逆向 分析 后缀 rs

声明: 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!部分python代码headers {Accept: appl…

用 Postman 的 Tests 脚本,这行代码断言接口返回,自动化测试省一半事

本文聚焦 Postman 的 Tests 脚本在接口自动化测试中的核心作用,阐述如何通过编写 Tests 脚本实现接口返回的自动断言,从而大幅提升测试效率。文中详细介绍了 Tests 脚本的基础语法、常用断言方法、实战案例及优化技巧,涵盖从简单响应状态码校…

7、西门子PLC基础术语:数据单位、存储区域、寻址方式、字节序

一、数据单位(数据长度类型)术语名称位数所占字节说明Bit位1 bit1/8 Byte最小数据单位(0或1)BByte 字节8 bit1 Byte字节单位WWord 字16 bit2 Byte通常用于整数、状态字等DWDouble Word 双字32 bit4 Byte常用于浮点、双整数 1双字 …

大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案

现代企业运营中,重复性任务的自动化处理已成为提升组织效率的核心需求。从基础数据录入到复杂工作流管理,企业持续寻求技术创新来降低人工成本、减少操作错误,并将人力资源重新配置到更具价值的战略性工作中。大型动作模型(Large …

部署Web UI自动化测试平台:SeleniumFlaskTester

1. Python环境准备 推荐Python3.11,可从https://www.python.org/downloads/release/python-3119/ 下载,见下图: 安装后,cmd命令行查看版本:python --version 2. 下载源码包 从 https://gitee.com/ligaopan/SeleniumFlaskTester…

计算机网络:到底什么是可变长子网掩码VLSM?

VLSM 是可变长子网掩码,对应的是 FLSM(固定长子网掩码) FLSM 中,子网掩码是固定的,比如一个 C 类地址用 255.255.255.128(/25)划分,每个子网只能有 126 台主机,但如果实际需要的主机数不同,比如有的子网需要 20 台,有的需要 50 台,FLSM 会导致地址浪费。所以 VLSM …

太极行业观察:从传统技艺到数字化转型的演变|创客匠人

太极拳作为中华传统文化的重要组成部分,在全球范围内具有广泛影响力。目前全球太极习练者已超过一亿人,仅中国大陆就有约千万固定练习者。每年与太极相关的赛事、培训、教学、养生旅游等活动,形成了数百亿元的市场规模。尽管如此,…

Kafka服务端NIO操作原理解析(二)

Kafka系列文章 基于Kafka2.1解读Producer原理 基于Kafka2.1解读Consumer原理 Kafka服务端NIO操作原理解析(一) 文章目录Kafka系列文章前言一、基本认知二、Acceptor的主体流程2.1 run方法源码2.2 acceptNewConnections方法源码2.3 主体逻辑流程示意图三…

当服务器负载过高时该怎么办?

当服务器出现负载过高时,要对内存、网络等硬件设备进行查看,其中CPU是重中之重,对CPU使用率进行查看和了解,确定哪些进程占用了大量CPU资源,如果是某个应用程序进程导致CPU高负载,需分析该程序是否存在算法…

跨境电商增长突围:多维变局下的战略重构与技术赋能

在全球化商业浪潮与数字技术迭代的双重驱动下,跨境电商行业正经历前所未有的变革。平台规则的动态调整、市场需求的非线性波动、技术工具的持续革新,共同构成了复杂多变的竞争格局。对于卖家而言,如何在不确定性中锚定增长路径,已…

软件运行时 ffmpeg.dll 丢失怎么办?从原因排查到完美修复的完整方案

在计算机的软件生态系统中,ffmpeg.dll 扮演着一个至关重要却又常被普通用户忽视的角色。这个看似普通的文件,实际上是众多多媒体相关软件能够正常运行的基石之一。当你的视频剪辑软件突然无法导入特定格式的视频,或者心爱的游戏在启动时弹出令…

Axure 11

下载 Axure RP - UX Prototypes, Specifications, and Diagrams in One Tool 激活 Axure RP11 2025-8-7日亲测有效: 49bb9513c40444b9bcc3ce49a7a022f9 汉化 Axure Rp 11 安装、汉化、授权_axure11汉化包-CSDN博客 中文社区 https://www.axure.com.cn/

论文阅读:User Behavior Simulation with Large Language Model-based Agents

https://dl.acm.org/doi/pdf/10.1145/3708985 https://www.doubao.com/chat/15495707526837250 Advances and Challenges in Foundation Agents–Memory调研 论文翻译 基于大型语言模型代理的用户行为模拟 摘要 在推荐系统、社交网络等以人为中心的应用中,高质…

基于ECharts的智慧社区数据可视化

引言数据可视化是现代Web应用的重要组成部分,它能将复杂的数据以直观的图形方式呈现,帮助用户快速理解数据背后的信息。本文将介绍如何使用ECharts库实现智慧社区住户数据的可视化展示,包括柱状图和饼图两种常见图表类型的实现与优化。技术栈…

Qt 综述:从基础到一般应用

摘要: Qt,作为久经考验的跨平台C开发框架,以其强大的功能、丰富的类库和灵活的机制,在桌面应用、嵌入式系统、网络编程等领域占据重要地位。本文将深入解析Qt的核心技术体系,涵盖基础架构、核心机制、UI开发、外观定制…