摘要:尽管基于推理的大型语言模型(LLM)在数学和编程方面表现出色,但它们在知识密集型医疗问题回答方面的能力仍未得到充分探索。为解决这一问题,我们推出了ReasonMed,这是最大的医疗推理数据集,包含从各种LLM生成的170万条初始推理路径中提炼出的37万个高质量示例。ReasonMed是通过多代理验证和细化过程构建的,我们设计了一个错误细化器,通过识别和纠正验证器标记的易出错步骤来增强推理路径。借助ReasonMed,我们系统地研究了训练医疗推理模型的最佳实践,发现将详细的思维链(CoT)推理与简洁的答案摘要相结合,能产生最有效的微调策略。基于这一策略,我们训练了ReasonMed-7B,它为10B以下的模型设定了新的基准,比之前的最佳模型高出4.17%,甚至在PubMedQA上比LLaMA3.1-70B高出4.60%。Huggingface链接:Paper page,论文链接:2506.09513

研究背景和目的

研究背景

近年来,基于推理的大型语言模型(LLMs)在逻辑推理、数学和编程等领域取得了显著进展,如Deepseek-R1和QwQ等模型在相关任务中展现出了卓越的能力(Liu et al., 2025a; Ahn et al., 2024; OpenAI et al., 2025)。然而,在医疗领域,这些模型的应用仍面临诸多挑战。医学知识具有高度的专业性和复杂性,要求模型不仅具备广泛的知识覆盖,还需能够进行深入、准确的推理。然而,现有的医疗推理数据集规模有限,且通常来源于单一的教师模型,这限制了模型的知识覆盖和推理能力。

具体而言,现有的医疗推理数据集存在以下几个主要问题:

  1. 规模有限:现有数据集的大小通常不足以支撑大规模模型的训练,导致模型在处理复杂医疗问题时表现不佳。
  2. 知识覆盖不足:由于数据集通常来源于单一模型,其知识覆盖有限,难以涵盖医学领域的各个方面。
  3. 缺乏系统性分析:现有研究缺乏对多步思维链(Chain-of-Thought, CoT)推理与简洁答案摘要之间权衡的系统性分析,导致难以确定哪种策略在医疗问答系统中更为有效。
研究目的

为解决上述问题,本研究旨在开发一个大规模、高质量的医疗推理数据集ReasonMed,并通过系统分析不同推理训练策略对模型性能的影响,提出最有效的微调方法。具体目标包括:

  1. 构建大规模医疗推理数据集:通过多智能体系统生成并验证超过170万条初始推理路径,最终提炼出37万个高质量示例,形成ReasonMed数据集。
  2. 探索最佳推理训练策略:通过对比传统思维链(CoT)推理、简洁答案摘要以及两者结合的混合方法,确定哪种策略在医疗问答任务中表现最佳。
  3. 训练并评估医疗推理模型:基于确定的最佳策略,训练ReasonMed-7B模型,并在多个医疗问答基准数据集上评估其性能,验证其有效性。

研究方法

数据集构建
  1. 数据收集:从MedQA、MMLU、PubMedQA和MedMCQA等现有医疗问答基准数据集中收集约19.5万个问题。
  2. 多智能体系统生成推理路径:结合Qwen-2.5-72B、DeepSeek-R1-Distill-Llama-70B和HuatuoGPT-o1-70B三个LLM,通过调整采样超参数(如温度、top-p),生成约175万条多样化的多步推理路径。
  3. 质量验证与细化:设计验证器(Verifier)检查每条推理路径的正确性、逻辑连贯性和医学事实性,并根据验证结果将问题分为简单、中等和困难三个等级。针对不同等级的问题,采用不同的细化策略:简单问题直接保留前两条最优路径;中等问题使用错误细化器(Error Refiner)修正并扩展路径;困难问题则直接利用GPT-o1生成准确路径。
推理训练策略分析
  1. 数据准备:利用响应摘要器(Response Summarizer)将每条思维链压缩成简洁的答案解释,生成三种不同粒度的数据实例:CoT实例(包含完整思维链)、Response实例(仅包含答案摘要)和Reason实例(结合思维链与答案摘要)。
  2. 模型微调:使用LlamaFactory框架对Qwen2.5-7B模型进行三轮监督微调,分别基于CoTMed-7B(仅CoT实例)、ResponseMed-7B(仅Response实例)和ReasonMed-7B(Reason实例)数据集。
  3. 性能评估:在MedQA、MedMCQA、PubMedQA和MMLU等医疗问答基准数据集上评估微调后模型的性能,分析不同训练策略对模型性能的影响。

研究结果

数据集质量
  1. 规模与多样性:ReasonMed数据集包含37万个高质量医疗推理示例,规模远超现有数据集,且通过多智能体系统生成,确保了数据的多样性和覆盖面。
  2. 质量验证:通过严格的验证和细化流程,确保了数据集中每条推理路径的正确性和逻辑连贯性。实验结果表明,经过细化后的数据集在质量上显著优于原始数据集。
模型性能
  1. CoTMed-7B:基于完整思维链进行微调的模型,在大多数基准数据集上表现出色,尤其在MedQA、MedMCQA和PubMedQA等复杂医疗问答任务中取得了显著成绩。
  2. ResponseMed-7B:仅基于答案摘要进行微调的模型,在保持较低计算成本的同时,仍能在MedQA等数据集上取得竞争性结果,表明简洁答案摘要在医疗问答中的有效性。
  3. ReasonMed-7B:结合完整思维链与答案摘要的混合策略进行微调的模型,在所有基准数据集上均取得了最佳性能,尤其在MedMCQA和PubMedQA等复杂任务中表现突出,验证了混合策略的有效性。
训练策略分析
  1. 多步思维链的重要性:实验结果表明,包含完整思维链的微调策略能显著提升模型在复杂医疗问答任务中的性能,表明多步推理在医疗领域的重要性。
  2. 简洁答案摘要的潜力:尽管ResponseMed-7B在整体准确性上略低于CoTMed-7B,但其计算成本更低,且在某些任务中仍能取得竞争性结果,表明简洁答案摘要在医疗问答中具有一定的应用潜力。
  3. 混合策略的优势:ReasonMed-7B通过结合完整思维链与答案摘要,实现了性能与效率的平衡,为医疗推理模型的训练提供了新的思路。

研究局限

  1. 计算资源限制:由于计算资源的限制,本研究未将多尺度微调实验扩展到7B参数以上的模型。因此,对于更大规模模型在医疗推理任务中的表现仍需进一步探索。
  2. 数据过滤与评估的依赖性:本研究的数据过滤(验证器和质量排名器)和最终质量评估(评分评估器)均依赖于其他大型语言模型(如Qwen-2.5-72B和GPT-4o),这些模型可能存在偏差或系统错误,偶尔会导致误判。
  3. 模型泛化能力:尽管ReasonMed-7B在多个基准数据集上表现出色,但其在实际医疗场景中的泛化能力仍需进一步验证。医疗领域的复杂性和多样性要求模型具备更强的泛化能力,以应对各种未知情况。

未来研究方向

  1. 扩展数据集规模与多样性:未来研究可进一步扩展ReasonMed数据集的规模和多样性,纳入更多医疗领域的知识和案例,以提升模型的覆盖面和推理能力。
  2. 探索更大规模模型的微调:随着计算资源的不断增加,未来研究可尝试将多尺度微调策略应用于更大规模的模型(如10B-100B参数范围),以探索其在医疗推理任务中的潜力。
  3. 增强模型的泛化能力:通过引入更多样化的训练数据和更先进的微调策略,增强模型在复杂医疗场景中的泛化能力,提高其在实际应用中的可靠性和准确性。
  4. 结合多模态信息:医疗领域不仅包含文本信息,还涉及图像、视频等多种模态的数据。未来研究可探索如何将多模态信息融入医疗推理模型中,以进一步提升其性能和应用范围。
  5. 伦理与安全性研究:随着医疗推理模型在实际应用中的不断推广,其伦理和安全性问题也日益凸显。未来研究需关注模型的伦理和安全性问题,制定相应的规范和标准,确保其在医疗领域的健康、可持续发展。

综上所述,本研究通过构建大规模、高质量的医疗推理数据集ReasonMed,并系统分析不同推理训练策略对模型性能的影响,为医疗推理模型的训练和应用提供了新的思路和方法。未来研究可在此基础上进一步探索数据集扩展、模型微调、泛化能力提升以及多模态信息融合等方面的问题,推动医疗推理模型在医疗领域的广泛应用和发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/85242.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/85242.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/85242.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

singlefligt使用方法和源码解读

singlefligt使用方法和源码解读 介绍 sync.once保证其整个生命周期内只调用一次;而singleflight则可以保证在一定范围内其只调用一次。 背景|使用场景 应对缓存击穿:加锁可以解决这个问题,但是加锁不太灵活(不能控制访问频率之…

HTTP 协议的基本概念(请求/响应流程、状态码、Header、方法)问题解决方案大全

HTTP 协议的基本概念(请求/响应流程、状态码、Header、方法)问题解决方案大全 一. 摘要 HTTP 协议是 Web 开发的基石,但初学者往往只停留在 GET、POST 的层面,对重定向机制、缓存控制、请求体解析等概念缺乏深入理解,…

Python中常用的函数

以下是Python中常用的函数分类整理,涵盖基础操作、数据处理、文件操作、面向对象等场景,并附上示例说明: --- ### **一、基础内置函数** | 函数 | 作用 | 示例 | |----…

【Windows】删除鼠标右键多余菜单的方法

要删除鼠标右键菜单中的多余菜单,如:“打开抖音壁纸”选项,通常需要通过修改注册表或使用第三方工具来清理残留的注册表项。以下是详细步骤(操作注册表前务必备份!): 方法一:通过注册…

【性能优化】启用zram

性能优化 系统内存不足时,可以考虑启动ZRAM功能(压缩内存)。关于ZRAM的概念,可自行学习。这里记录一下,启用ZRAM的方式。 启用ZRAM,可能会导致CPU升高,以及低内存时的恶性循环。是否启用需要综…

深度解析YOLOv8:CSPHet卷积结构如何实现极致轻量化

文章目录 一、背景介绍1.1 YOLOv8的现状1.2 降参数的必要性 二、相关技术介绍2.1 Dual思想2.2 HetConv 三、CSPHet结构设计3.1 CSP模块的改进3.2 结合HetConv3.3 参数量的下降 四、CSPHet的代码实现五、实验结果六、总结与展望 在目标检测领域,YOLO系列算法一直以其…

适配器模式demo

#include <QCoreApplication> #include <iostream>using namespace std;class XmCom { public:void ComByXm(){cout << "XM电源适配器只适用于小米笔记本电脑" << endl;} };class LxCom { public:virtual void ComByLx() 0;virtual ~LxCom…

数据处理考核要求-SQL测试的答案

在一个团队中&#xff0c;有业务人员。如业务人员深入理解数据处理的内容&#xff0c;会大幅度增强相互配合的效率。 针对业务人员进行针对性培训&#xff0c;还是比较容易掌握SQL的数据处理。类似与大学里面开的一门选修课。数据集选择帆软的Demo数据集。 业务人员学会SQL的…

第十七届全国大学生数学竞赛(数学类)初赛模拟试题

上周组委会发布了第十七届全国大学生数学竞赛通知&#xff0c;初赛暂定于2025年11月8日(星期六)上午9:00-11:30举行&#xff0c;同时今年新增了个亮点&#xff0c;针对与数学类的同学&#xff0c;即&#xff1a; 为提升全国大学生数学竞赛的含金量和公平性&#xff0c;并进一步…

解决: React Native iOS webview 空白页

iOS react-native-webview 之前是正常的, 升级了 react-native / react-native-webview 等 之后, 就变成了空白页. 通过下面的修改, 可以修复, 回到正常的状态. 来源: https://github.com/react-native-webview/react-native-webview/issues/3697 diff --git a/node_modules/…

VMware安装Ubuntu并实现root远程登录

前置信息 垃圾Ubuntu系统默认ssh、vim都没有&#xff01;&#xff01;&#xff01; 已踩坑cnmUbuntu处于sb安全机制要求&#xff0c;默认是禁用root直接登录的 1、修改root密码 sudo -sH &#xff08;可以让一个具有sudo权限的普通用户进入 root&#xff09; 然后就是pas…

量化面试绿皮书:20. 正态生成

文中内容仅限技术学习与代码实践参考&#xff0c;市场存在不确定性&#xff0c;技术分析需谨慎验证&#xff0c;不构成任何投资建议。 20. 正态生成 Q: 如何生成两个标准正态分布&#xff08;N(0,1)&#xff09;的随机变量&#xff0c;使它们之间的相关系数为p&#xff0c;假设…

Arduino入门教程:10、屏幕显示

飞书文档https://x509p6c8to.feishu.cn/docx/N45Pd0tA1oaC4CxUWZjc8Ekyn0b 屏幕应用场景 课程使用的SSD1306是一款128*64像素可以使用IIC驱动的OLED屏幕。 SSD1306 Oled显示模块共有4个引脚&#xff0c;标记为GND, VCC, SCL和SDA。这种Oled显示模块可以使用3.3V到5V轻松上电。…

华为云Flexus+DeepSeek征文|体验华为云ModelArts快速搭建Dify-LLM应用开发平台并创建自己dify钉钉群聊机器人

华为云FlexusDeepSeek征文&#xff5c;体验华为云ModelArts快速搭建Dify-LLM应用开发平台并创建自己dify钉钉群聊机器人 什么是华为云ModelArts 华为云ModelArts ModelArts是华为云提供的全流程AI开发平台&#xff0c;覆盖从数据准备到模型部署的全生命周期管理&#xff0c;帮…

【Pytorch】(1)Pytorch环境安装-①创建虚拟环境

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、创建Pytorch的虚拟环境 前言 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、Anaconda环境基础操作 1.1 启动Anaconda Prompt …

如何自定义WordPress登录页面,提升用户体验和安全性

WordPress是目前最受欢迎的网站搭建平台之一&#xff0c;无论是个人博客、企业网站&#xff0c;还是电商平台&#xff0c;很多人都选择用它来搭建自己的网站。不过&#xff0c;很多WordPress用户会发现默认的登录页面相对普通&#xff0c;无法体现自己网站的特色。其实&#xf…

Coze扣子 - AI生成数字人口播视频

一、数字人介绍 数字人&#xff08;Digital Human&#xff09;是指利⽤先进的数字技术和⼈⼯智能创建的虚拟人 类形象&#xff0c;能够模拟⼈类的外貌、⾏为和情感。数字⼈不仅可以在视觉上表 现出真实的⼈类特征&#xff0c;还可以通过⾃然语⾔处理与⽤户进⾏互动。 Coze通过全…

【请关注】真实案例pg及kong安装部署

# 前提需要安装好nfs KONG_NAMESPACE="kong-api" PG_NAMESPACE="pg-ha" HARBOR_IP="harbor.rancher.com" 一、安装pg高可用####################################################################################### kubectl creat…

SSRF7 SSRF漏洞的检测方式

我们可以进入bp利用bp模块collaborator&#xff0c;进行检测&#xff1a; 我们点击复制到剪切板&#xff1a; 然后再到目标网站进行构造URL&#xff1a; http://192.168.112.12/pikachu-master/vul/ssrf/ssrf_curl.php?urlmvluewtgs390alohzqjakhu2qtwkkc81.oastify.com 然…

C++ 函数的使用

C中的函数是实现代码复用和模块化的基本单元。下面从定义、调用、参数传递、常见样式、声明和分文件编写等方面进行介绍。 1. 函数定义 函数定义包括返回类型、函数名、参数列表和函数体&#xff1a; 返回类型 函数名(参数列表) {// 函数体return 返回值; // 如果返回类型不是…