文章大纲

      • AUC(Area Under the Curve)详解
        • 一、定义:AUC是什么?
        • 二、解决了什么问题?
        • 三、优缺点分析
        • 四、工业界大规模计算AUC的方法
          • 1. 标准计算(小数据)
          • 2. 工业级大规模计算方案
          • 3.工业界最佳实践
          • 4.工业界方案选型建议
      • 总结:AUC的本质

在这里插入图片描述

AUC(Area Under the Curve)详解

一、定义:AUC是什么?
  • AUC是ROC曲线下的面积用于衡量二分类模型性能的核心指标

  • AUC的物理意义

    • “随机抽一个正样本和一个负样本,正样本得分高于负样本的概率” —— 这正是工业界关注排序能力的本质原因。
  • 通俗解释

    想象两个袋子:

    • 袋A:全是好苹果(正样本)
    • 袋B:全是坏苹果(负样本)

    你有一个苹果检测器(分类模型):

    1. 随机从A袋拿一个好苹果
    2. 随机从B袋拿一个坏苹果
    3. 让检测器判断哪个是好苹果

    AUC = 检测器做出正确判断的概率

    • AUC=1:每次都正确
    • AUC=0.5:和瞎猜一样
    • AUC<0.5:还不如瞎猜

技术定义
A U C = P ( 正样本得分 > 负样本得分 ) AUC = P(\text{正样本得分} > \text{负样本得分}) AUC=P(正样本得分>负样本得分)
其中得分是 模型预测的"正类概率"


二、解决了什么问题?
    1. 不平衡数据评估难题
    • 传统准确率在99%负样本的数据中失效(全预测负类就有99%准确率)
    • AUC不受样本分布影响
    1. 分类阈值选择问题
    • 不需要预先设定分类阈值(如0.5)
    • 评估模型在所有阈值下的综合表现
    1. 模型排序能力评估
    • 直接衡量"把正样本排在负样本前面"的能力
    • 这对 推荐系统/风控 等场景至关重要

三、优缺点分析
优点缺点
不受类别分布影响无法反映具体错误代价
直观的概率解释对类别概率校准不敏感
评估模型整体排序能力计算复杂度较高
广泛适用于不同场景无法区分不同"错误类型"(如FP/FN)
与业务目标高度相关对预测分数尺度不敏感
  • 特殊注意
    • AUC高 ≠ 模型有用: 当负样本极易区分时(如身高判断性别),AUC虚高
    • AUC低一定差:低于0.5说明模型存在根本缺陷

四、工业界大规模计算AUC的方法
1. 标准计算(小数据)
from sklearn.metrics import roc_auc_scoreauc = roc_auc_score(y_true, y_pred)

局限:需加载全量数据到内存,100亿数据直接崩溃

2. 工业级大规模计算方案
  • 方案一:分桶近似法(最常用,Bucket Approximation,按分数段统计胜场(近似))

    • 适用场景超大数据集(百亿级)、需平衡精度与速度
      • 桶数量决定精度(工业界常用10万-100万桶
    • 核心思想: 将预测概率分桶 → 统计桶内正负样本数 → 用梯形面积累加近似AUC。
      在这里插入图片描述
    def approximate_auc(y_true, y_pred, n_buckets=10000):# 将预测分数分桶buckets = np.linspace(0, 1, n_buckets)bucket_stats = np.zeros((n_buckets, 2))  # [正样本数, 负样本数]# 分布式统计每个桶的正负样本数for i in range(len(y_pred)):bucket_idx = np.searchsorted(buckets, y_pred[i])if y_true[i] == 1:bucket_stats[bucket_idx, 0] += 1else:bucket_stats[bucket_idx, 1] += 1# 计算AUC(梯形面积法)auc = 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/88977.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/88977.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/88977.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python后端项目之:我为什么使用pdm+uv

在试用了一段时间的uv和pdm之后&#xff0c;上个月(2025.06)开始&#xff0c;逐步把用了几年的poetry替换成了pdmuv&#xff08;pipx install pdm uv && pdm config use_uv true) ## 为什么poetry -> pdm: 1. 通过ssh连接到服务器并使用poetry shell激活虚拟环境之…

鸿蒙Next开发,配置Navigation的Route

1. 通过router_map.json配置文件进行 创建页面配置router_map.json {"routerMap": [{"name": "StateExamplePage","pageSourceFile": "src/main/ets/pages/state/StateExamplePage.ets","buildFunction": "P…

在 GitHub 上创建私有仓库

一、在 GitHub 上创建私有仓库打开 GitHub官网 并登录。点击右上角的 “” → 选择 “New repository”。填写以下内容&#xff1a; Repository name&#xff1a;仓库名称&#xff0c;例如 my-private-repo。Description&#xff1a;可选&#xff0c;仓库描述。Visibility&…

量产技巧之RK3588 Android12默认移除导航栏状态栏​

本文介绍使用源码编译默认去掉导航栏/状态栏方法,以触觉智能EVB3588开发板演示&#xff0c;Android12系统&#xff0c;搭载了瑞芯微RK3588芯片&#xff0c;该开发板是核心板加底板设计&#xff0c;音视频接口、通信接口等各类接口一应俱全&#xff0c;可帮助企业提高产品开发效…

Conda 安装与配置详解及常见问题解决

《Conda 安装与配置详解及常见问题解决》 安装 Conda 有两种主流方式&#xff0c;分别是安装 Miniconda&#xff08;轻量级&#xff09;和 Anaconda&#xff08;包含常用数据科学包&#xff09;。下面为你详细介绍安装步骤和注意要点。 一、安装 Miniconda&#xff08;推荐&a…

Linux ——lastb定时备份清理

lastb 命令显示的是系统中 /var/log/btmp 文件中的SSH 登录失败记录。你可以像处理 wtmp 那样&#xff0c;对 btmp 文件进行备份与清理。✅ 一、备份 lastb 数据cp /var/log/btmp /var/log/btmp.backup.$(date %F)会保存为如 /var/log/btmp.backup.2025-07-14✅ 二、清空 lastb…

自定义类型 - 联合体与枚举(百度笔试题算法优化)

目录一、联合体1.1 联合体类型的声明1.2 联合体的特点1.3 相同成员的结构体和联合体对比1.4 联合体大小的计算1.5 联合练习二、枚举类型2.1 枚举类型的声明2.2 枚举类型的优点总结一、联合体 1.1 联合体类型的声明 像结构体一样&#xff0c;联合体也是由一个或者多个成员构成…

FS820R08A6P2LB——英飞凌高性能IGBT模块,驱动高效能源未来!

产品概述FS820R08A6P2LB 是英飞凌&#xff08;Infineon&#xff09;推出的一款高性能、高可靠性IGBT功率模块&#xff0c;采用先进的EconoDUAL™ 3封装&#xff0c;专为大功率工业应用设计。该模块集成了IGBT&#xff08;绝缘栅双极型晶体管&#xff09;和二极管&#xff0c;适…

python学智能算法(十八)|SVM基础概念-向量点积

引言 前序学习进程中&#xff0c;已经对向量的基础定义有所了解&#xff0c;已经知晓了向量的值和方向向量的定义&#xff0c;学习链接如下&#xff1a; 向量的值和方向 在此基础上&#xff0c;本文进一步学习向量点积。 向量点积 向量点积运算规则&#xff0c;我们在中学阶…

【windows办公小助手】比文档编辑器更好用的Notepad++轻量编辑器

Notepad 中文版软件下载&#xff1a;这个路径总是显示有百度无法下载&#xff0c;不推荐 更新&#xff1a;推荐下载路径 https://github.com/notepad-plus-plus/notepad-plus-plus/releases 参考博主&#xff1a;Notepad的安装与使用

2025年7月12日全国青少年信息素养大赛图形化(Scratch)编程小学高年级组复赛真题+答案解析

2025年7月12日全国青少年信息素养大赛图形化(Scratch)编程小学高年级组复赛真题+答案解析 选择题 题目一 运行如图所示的程序,舞台上一共会出现多少只小猫呢?( ) A. 5 B. 6 C. 7 D. 8 正确答案: B 答案解析: 程序中“当绿旗被点击”后,角色先移到指定位置,然后“重…

对于独热编码余弦相似度结果为0和词向量解决了词之间相似性问题的理解

文章目录深入理解简单案例结论词向量&#xff08;Word Embedding&#xff09;简介词向量如何解决相似性问题&#xff1f;简单案例&#xff1a;基于上下文的词向量训练总结对于独热表示的向量&#xff0c;如果采用余弦相似度计算向量间的相似度&#xff0c;可以明显的发现任意两…

数据结构·数状数组(BIT)

树状数组(Binary Index Tree) 英文名&#xff1a;使用二进制下标的树结构 理解&#xff1a;这个树实际上用数组来存&#xff0c;二进制下标就是将正常的下标拆为二进制来看。 求x的最低位1的函数lowbit&#xff08;x&#xff09; 假设x的二进制表示为x ...10000&#xff0c;…

uniapp video视频全屏播放后退出,页面字体变大,样式混乱问题

uniapp官方的说法是因为页面使用rpx&#xff0c;但是全屏和退出全屏自动计算屏幕尺寸不支持rpx&#xff0c;建议使用px。但是因为uniapp端的开发都是使用rpx作为屏幕尺寸计算参数&#xff0c;不可能因为video全屏播放功能就整个全部修改&#xff0c;工作量大&#xff0c;耗时耗…

重复频率较高的广告为何一直在被使用?

在日常生活中&#xff0c;重复评率较高的洗脑广告我们时常能够碰到。广告的本质是信息传递&#xff0c;而重复频率较高的广告往往可以通过洗脑式的传播方式来提升传播效率。下面就让我们一同来了解下&#xff0c;为何这类广告一直受到企业的青睐。一、语义凝练高频率广告的内容…

内容管理系统指南:企业内容运营的核心引擎

内容管理看似简单&#xff0c;实际上随着内容量的激增&#xff0c;管理难度也逐步提升。尤其是在面对大量页面、图文、视频资料等数字内容时&#xff0c;没有专业工具的支持&#xff0c;效率与准确性都会受到挑战。此时&#xff0c;内容管理系统&#xff08;CMS&#xff09;应运…

文献查找任务及其方法

1. 必备网站&#xff1a; 谷歌学术 Web of Science Engineering Village CNKI翻译助手 科研通 2. 任务 学术上的一个调研&#xff0c;自动驾驶 3d 目标检测 方向的近7年的方法&#xff0c;模态&#xff08;相机/雷达/相机雷达 等&#xff09;&#xff0c;及其使用的数据集&a…

鸿蒙的NDK开发初级入门篇

初级必备的知识&#xff1a; NDK开发在什么时候用&#xff1f; 答&#xff1a;&#xff1a;NDK 开发在帮助应用提升性能的情况下使用&#xff0c;比如游戏开发&#xff0c;和硬件交互的场景中。 还有一个公司已经有标准的C或C库&#xff0c;不想在开发ArkTS的代码前提下。 开发…

Unity发布Windows平台后通过Advanced Installer制作安装包

Unity发布Windows平台后是一堆库资源&#xff0c;以及一个可执行的exe文件&#xff0c;并不是一个安装包&#xff0c;如果需要制作成安装包&#xff0c;需要再进一步打包&#xff0c;本篇文章介绍一个Advanced Installer的软件&#xff0c;专门用来制作Windows平台的安装包的。…

代数基本定理

代数基本定理 多项式 f(z)anznan−1zn−1⋯a1za0f(z) a_n z^n a_{n-1} z^{n-1} \cdots a_1 z a_0f(z)an​znan−1​zn−1⋯a1​za0​&#xff08;其中 n>1n > 1n>1 且 an,a0≠0a_n,a_0 \neq 0an​,a0​0&#xff09;在复数域内有根。 约定 以 ttt 为参数的闭曲…