在这里插入图片描述

Agent S: An Open Agentic Framework that Uses Computers Like a Human

➡️ 论文标题:Agent S: An Open Agentic Framework that Uses Computers Like a Human
➡️ 论文作者:Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang
➡️ 研究机构: Simular Research
➡️ 问题背景:当前的自动化GUI代理在处理复杂的多步骤任务时面临三大挑战:获取特定领域的知识、进行长期任务规划、以及处理动态的非均匀界面。这些问题限制了代理在不同操作系统和应用中的通用性和效率。
➡️ 研究动机:为了克服上述挑战,研究团队开发了Agent S,一个开放的代理框架,旨在通过图形用户界面(GUI)实现与计算机的自主交互,从而自动化复杂的多步骤任务。Agent S通过整合经验增强的层次规划、自我监督的持续记忆更新和代理-计算机接口(ACI),提高了代理在执行任务时的效率和适应性。
➡️ 方法简介:研究团队提出了经验增强的层次规划方法,该方法利用外部网络知识和代理的内部记忆,将复杂的长期任务分解为可执行的子任务。此外,团队还扩展了ACI的概念,允许基于多模态大语言模型(MLLMs)的代理更精确地操作计算机,使用一组高级预定义的原始动作。ACI通过视觉增强的可访问性树观察和有界的动作空间,确保了代理的精确感知和行动。
➡️ 实验设计:研究团队在OSWorld基准上进行了实验,该基准测试了多模态代理在真实计算机环境中执行广泛计算机任务的能力。实验涵盖了操作系统、办公软件、日常应用、专业软件和工作流程等多个类别。此外,团队还在WindowsAgentArena基准上评估了Agent S的性能,以验证其在不同操作系统上的通用性。实验结果表明,Agent S在OSWorld上的成功率提高了83.6%,并在WindowsAgentArena上也表现出显著的性能提升。

Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models

➡️ 论文标题:Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models
➡️ 论文作者:Qingni Wang, Tiantian Geng, Zhiyuan Wang, Teng Wang, Bo Fu, Feng Zheng
➡️ 研究机构: University of Electronic Science and Technology of China、Southern University of Science and Technology, China、University of Birmingham、The University of Hong Kong
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在各种任务中展现了显著的进步,但它们在可信度方面仍面临重大问题,如幻觉(hallucination)和生成偏差。这些问题导致了非事实信息和有偏见的生成,引发了社会对基础模型在面向消费者应用中可靠部署的担忧。现有的不确定性估计方法虽然提供了有价值的见解,但无法保证错误率,且在动态、开放的环境中适应性较差。
➡️ 研究动机:为了应对这些挑战,研究团队开发了一个两步框架TRON,用于风险控制和评估,适用于支持采样的任何MLLM,无论是开放性任务还是封闭性任务。TRON通过引入新的符合性评分和非符合性评分,解决了现有方法的局限性,如依赖内部模型logits或仅限于多项选择设置。此外,研究团队还首次探讨了开放性任务中预测集的语义冗余对风险评估的影响。
➡️ 方法简介:TRON框架包含两个主要部分:(1)一种新的符合性评分,用于确定最小响应样本数量,以控制错误率;(2)一种非符合性评分,基于自一致性理论,用于识别高质量响应,控制两个特定风险水平下的错误率。此外,研究团队还探讨了预测集在开放性任务中的语义冗余对风险评估的影响,发现去重后的预测集大小可以更稳定地估计模型的不确定性。
➡️ 实验设计:研究团队在四个视频问答(VideoQA)数据集上进行了实验,包括两个封闭性任务数据集(Video-MME和NExT-QA)和两个开放性任务数据集(MUSIC-AVQA和MSVD),使用了五个开源MLLMs和三个闭源MLLMs。实验结果表明,TRON能够在不同用户指定的风险水平下保证错误率,并且去重后的平均预测集大小提供了稳定的不确定性估计,适用于不同风险水平下的MLLM评估。此外,研究团队还探讨了音频模态对MLLM性能的影响,发现引入音频信息可以提高模型的准确性并降低不确定性。

Baichuan-Omni Technical Report

➡️ 论文标题:Baichuan-Omni Technical Report
➡️ 论文作者:Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen
➡️ 研究机构: Baichuan Inc., Westlake University, Zhejiang University
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理和分析图像、视频、音频和文本等多模态数据方面展现出了显著的能力,但开源解决方案在多模态能力和用户体验质量方面仍存在明显不足。这些不足限制了模型在自然语言处理、计算机视觉等领域的广泛应用。
➡️ 研究动机:为了解决现有开源多模态模型的不足,研究团队开发了Baichuan-omni,这是一个开源的7B多模态大语言模型,能够同时处理文本、图像、视频和音频输入,并提供先进的多模态交互体验。研究旨在通过提供一个强大的开源基线模型,促进多模态理解和实时交互的发展。
➡️ 方法简介:研究团队提出了一种有效的多模态训练方案,包括三个核心阶段:1) 高质量多模态数据的构建,2) 多模态对齐预训练,3) 多模态监督微调。该方案利用了大量的高质量多模态数据,通过图像-语言、视频-语言和音频-语言分支的训练,使模型能够有效地处理视觉和音频数据。
➡️ 实验设计:在多个公开数据集上进行了实验,包括图像、视频和音频模态的基准测试。实验设计了多种任务,如视觉-语言理解、视频问答、音频识别等,以全面评估模型在不同模态下的性能。此外,还通过多任务微调进一步增强了模型的多模态指令跟随能力。

Dual-AEB: Synergizing Rule-Based and Multimodal Large Language Models for Effective Emergency Braking

➡️ 论文标题:Dual-AEB: Synergizing Rule-Based and Multimodal Large Language Models for Effective Emergency Braking
➡️ 论文作者:Wei Zhang, Pengfei Li, Junli Wang, Bingchuan Sun, Qihao Jin, Guangjun Bao, Shibo Rui, Yang Yu, Wenchao Ding, Peng Li, Yilun Chen
➡️ 研究机构: Tsinghua University, Lenovo Research, Harbin Institute of Technology, University of Chinese Academy of Sciences, Fudan University
➡️ 问题背景:自动紧急制动(AEB)系统是自动驾驶车辆中的关键安全功能,旨在通过自动激活刹车来减轻或防止碰撞。传统的AEB系统主要依赖于封闭集感知模块来识别交通状况和评估碰撞风险。然而,这些系统在处理复杂驾驶情况时的能力有限,因为缺乏对场景的全面理解。
➡️ 研究动机:为了提高AEB系统在开放场景中的适应性,研究团队提出了Dual-AEB系统,该系统结合了先进的多模态大语言模型(MLLM)以实现对驾驶环境的深入理解,并结合传统的基于规则的快速AEB模块以确保快速响应时间。这是首次将MLLMs整合到AEB系统中的尝试,旨在通过全面的场景理解来改善制动决策。
➡️ 方法简介:Dual-AEB系统由两个主要组件组成:快速模块(基于规则的AEB)和慢速模块(MLLM驱动的AEB)。快速模块负责初始决策,当触发时,将此初始决策打包成文本(AEB-Prompt),并发送给慢速模块。慢速模块利用MLLM分析接收到的信息,做出最终决策,确认或调整快速模块的初始决策。
➡️ 实验设计:研究团队在两个数据集上进行了实验,包括开放环路评估和闭合环路评估。开放环路评估使用了MM-AU和Bench2Drive数据集,闭合环路评估则使用了Bench2Drive基准。实验评估了模型预测的制动信号的准确性和生成文本的质量,以及模型的整体驾驶性能。主要指标包括精度(Precision)、召回率(Recall)、驾驶得分(Driving Score)、成功率(Success Rate)和碰撞率(Collision Rate)。实验结果表明,Dual-AEB系统在提高驾驶性能和减少碰撞率方面表现出色。

Skipping Computations in Multimodal LLMs

➡️ 论文标题:Skipping Computations in Multimodal LLMs
➡️ 论文作者:Mustafa Shukor, Matthieu Cord
➡️ 研究机构: Sorbonne University, Valeo.ai
➡️ 问题背景:大型语言模型(LLMs)在文本和多模态领域取得了显著的成功,但这种成功往往伴随着处理长序列多模态输入时的大量计算成本。这引发了对提高训练和推理效率的众多研究。本研究探讨了多模态大型语言模型(MLLMs)在推理过程中的计算冗余,并提出了不同的方法来跳过计算,如跳过整个块、前馈网络(FFN)或自注意力(SA)层,以及并行化某些层,如FFN和SA层。
➡️ 研究动机:现有的研究已经表明,LLMs在处理多模态任务时存在大量的计算冗余。为了进一步验证这一点,并探索减少计算成本的方法,研究团队通过实验验证了在推理过程中跳过计算的可能性,特别是在视觉问答(VQA)等任务中。研究还探讨了在训练过程中跳过计算,以同时减少训练和推理成本。
➡️ 方法简介:研究团队提出了一种框架,用于研究和比较不同的任务无关压缩方法,适用于图像、视频和音频语言任务。该框架包括冻结的LLM、可训练的映射模块(C)和冻结的感知编码器(EM),用于处理不同模态的输入。研究团队通过实验验证了跳过计算和并行化计算的效果,包括跳过整个块、FFN或SA层,以及并行化FFN和SA层。
➡️ 实验设计:实验在多个公开数据集上进行,包括视觉问答(VQA)和图像、视频、音频的描述任务。实验设计了不同的跳过策略,如跳过整个块、FFN或SA层,以及并行化FFN和SA层,以评估模型在不同条件下的性能变化。实验结果表明,跳过计算可以在保持性能的同时显著减少计算成本,特别是在VQA任务中。此外,研究还探讨了使用更小的LLMs进行训练的可能性,结果显示,适当训练的小型LLMs可以达到与大型LLMs相当的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/911837.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/911837.shtml
英文地址,请注明出处:http://en.pswp.cn/news/911837.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

wpa_supplicant连接到了路由,但是 udhcpc会分配到不同网段的ip,路由器ip为192.168.0网段,板子分配ip为192.168.1的网段

wpa_supplicant连接到了路由,但是 udhcpc会分配到不同网段的ip,路由器ip为192.168.0网段,板子分配ip为192.168.1的网段 你提到的情况: 使用 wpa_supplicant 成功连接到路由器; 然后通过 udhcpc(DHCP客户端&#xff09…

[Hestia]开源网络服务器控制面板,快速、可靠、开源

测评介绍 本期测评试用一下Hestia这款面板。Hestia是一个由国际社区支持开发的开源项目,2019年正式发布,目前已积累1.1万余次代码提交,几乎每周都有十多次的代码提交,更新热度很高。仅支持比较新的debian和ubuntu,对于…

Windows 安装 Redis8.0.2

1.下载 Releases redis-windows/redis-windowshttps://github.com/redis-windows/redis-windows/releases 下载后直接解压到想要的安装目录就行了,启动Redis直接双击 redis-server.exe 文件就行了,Redis启动后双击 redis-cli.exe 就可以直接连接到Redi…

GitHub中openmmlab和Detectron2的区别

MMDetection 和 Detectron2 都是计算机视觉领域中流行的开源目标检测框架,它们有许多相似之处,但也存在一些关键差异。以下是两者的主要区别: 1. 开发团队与社区 MMDetection 由中国开源组织 OpenMMLab 开发维护,社区以中文用户为…

开疆智能CCLinkIE转ModbusTCP网关连接施耐德TCP从站配置案例

本案例是三菱PLC通过CCLinkIE转ModbusTCP网关连接施耐德Modicon M262 Logic/Motion Controller的配置案例 配置方法: 首先设置Modicon M262 Logic/Motion Controller Modbus TCP 从站设备 I/O 映射选项卡 I/O 以如下方式从主站视角映射到 Modbus 寄存器&#xff1…

【源码】Reactive 源码

前言 用了很长时间的 componsition-api 了,最近想看看源码,抱着单纯的学习心态先从 reactive 开始吧。 个人习惯: 看代码要带着问题去看,不要盲目的去看问题就是这次看源码的主线,要围绕着主线去展开,过…

银河麒麟 | ubuntu 安装国产达梦DM8数据库(安装+外网通+IDEA连接)

目录 官网下载安装 下载安装包 创建安装用户组dinstall 创建安装用户dmdba并指定组 创建DM8软件安装目录修改权限 检查、修改系统资源限制 解压.zip的压缩包 安装mount数据库 图形化安装 清除之前的挂载 开启Disql服务 修改dmdba的环境变量 检查状态 进入数据库 …

MySQL与Oracle视图:深入解析与全面对比

视图概念 视图在 MySQL 与Oracle中本质上是一种虚拟表,其数据并非实际存储,而是基于一个或多个基础表的查询结果动态生成。它像是对复杂查询的一种封装,极大地简化了数据的查询操作。例如,当我们需要频繁从多个关联表中获取特定数…

uniapp通过webview套h5时使用plus调取蓝牙/usb打印

安卓使用usb调取打印机 /*** 安卓usb调取打印机*param { string | bytes[] } html 传入的打印内容*传入一段文本或一个bytes数组* returns*/ export const printUsb (html) > {return new Promise((resolve, reject) > {if (!window.plus) return reject(new Error(&qu…

吃透 Golang 基础:基于共享变量的并发

文章目录 sync.Mutex 互斥锁sync.RWMutex 读写锁sync.Once 惰性初始化Goroutine 与线程动态栈Goroutine 调度GOMAXPROCSGoroutine 没有 ID 号 上一篇文章当中我们已经系统性地回顾了在 Go 当中基于 Goroutine 和 Channel 进行并发控制的方法,Goroutine 指的是 Golan…

智绅科技丨如何选择一家好的养老机构?

居家养老、社区养老和机构养老是我们在养老相关消息中常常听到的3个词。在地方文件中,居家养老和社区养老还经常被统称为居家社区养老或 社区居家养老。那么,这三者之间到底有什么不同呢? 居家养老服务涵盖生活照料、家政服务、康复护理、医…

【支持向量机】SVM线性支持向量机学习算法——软间隔最大化支持向量机

支特向量机(support vector machines, SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器。包含线性可分支持向量机、 线性支持向量机、非线性支持向量机。 当训练数据近似线性可分时,通过软间隔最大化学习线性分类器, 即为…

面试 — 预准备 — 面试前准备攻略

好记忆不如烂笔头,能记下点东西,就记下点,有时间拿出来看看,也会发觉不一样的感受. 只讲干货,不罗里吧嗦! 作为一个软件从业者,在面试前的准备工作至关重要,能大幅提升你的求职成功…

Oracle停库shutdown长时间无反应

Oracle停库shutdown长时间无反应 现象:Oracle停库卡住,长时间没有反应。 SQL> shutdown immediate;注:此时切记不可Ctrl+C直接取消!切记不可Ctrl+C直接取消!切记不可Ctrl+C直接取消! 检查alert_SID.log日志看是哪些会话进程导致的: Shutting down instance (immed…

使用ZYNQ芯片和LVGL框架实现用户高刷新UI设计系列教程(第十八讲

列表部件基本上是一个采用垂直布局的矩形,可向其中添加按钮和文本。 部件包含: LV_PART_MAIN - 主要的属性,大部分是这个部件。 LV_PART_SCROLLBAR - 滚动条的属性。 (1) 添加文本 lv_obj_t * lv_list_add_text(lv_o…

Android Navigation 原理解析

1. nav_graph.xml 如何生成路由表 NavGraph 解析流程与原理 关键技术点&#xff1a; XML 解析&#xff1a; 使用 XmlResourceParser 解析 XML 文件 遍历所有节点&#xff08;<fragment>, <activity>, <navigation>等&#xff09; Destination 创建&#…

HarmonyOS 应用权限管控流程

HarmonyOS 应用权限管控流程详解 一、权限管控概述 HarmonyOS 通过多层次的安全机制保护用户数据和系统资源&#xff0c;其中应用权限管控是核心组成部分。系统通过以下机制实现权限管控&#xff1a; 应用沙箱&#xff1a;每个应用运行在独立沙箱中&#xff0c;通过TokenID识…

Python训练营-Day33

import torch torch.cudaimport torch# 检查CUDA是否可用 if torch.cuda.is_available():print("CUDA可用&#xff01;")# 获取可用的CUDA设备数量device_count torch.cuda.device_count()print(f"可用的CUDA设备数量: {device_count}")# 获取当前使用的C…

【STM32】中断优先级管理 NVIC

这篇文章是对 Cortex-M3 内核中断系统 和 STM32F1 系列 NVIC(嵌套向量中断控制器) 的解析说明。我将从结构清晰、层次分明的角度,对 NVIC 中断优先级分组的概念和 STM32F103 的实际情况做一个系统性的总结与叙述。 参考资料: STM32F1xx官方资料:《STM32中文参考手册V10》…

Angular2--高级特性(TODO)

1 基础 关于Angular的基础部分&#xff0c;几个核心部分和框架&#xff0c;在之前都写过了。Angular1--Hello-CSDN博客 Angular的几个核心部分和框架&#xff1a; 模板就是组件中的template&#xff0c;对应MVC的V。 组件类就是Component类&#xff0c;对应对应MVC的C。 服…