边缘框

  • 不是标准的x,y坐标轴。
  • 边缘框三种表示:左上右下下坐标,左上坐标+长宽,中心坐标+长宽
    在这里插入图片描述

COCO

  • 目标检测数据集的格式:注意一个图片有多个物体,使用csv或者文件夹结构的格式不可取

在这里插入图片描述

锚框算法

  • 生成很多个锚框
  • 锚框之间和真实边缘框匹配(标签)。
  • 一般的目标检测模型不直接预测锚框的四个位置,而是预测与真实值的偏移

  • 对于背景类,会有个掩码将偏移值设置为0.
  • 匹配标签后使用NMS输出最后预测的锚框

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在训练数据中标注锚框

label:subsec_labeling-anchor-boxes

在训练集中,我们将每个锚框视为一个训练样本。
为了训练目标检测模型,我们需要每个锚框的类别(class)和偏移量(offset)标签,其中前者是与锚框相关的对象的类别,后者是真实边界框相对于锚框的偏移量。
在预测时,我们为每个图像生成多个锚框,预测所有锚框的类别和偏移量,根据预测的偏移量调整它们的位置以获得预测的边界框,最后只输出符合特定条件的预测边界框。

目标检测训练集带有真实边界框的位置及其包围物体类别的标签。
要标记任何生成的锚框,我们可以参考分配到的最接近此锚框的真实边界框的位置和类别标签。
下文将介绍一个算法,它能够把最接近的真实边界框分配给锚框。

将真实边界框分配给锚框

给定图像,假设锚框是A1,A2,…,AnaA_1, A_2, \ldots, A_{n_a}A1,A2,,Ana,真实边界框是B1,B2,…,BnbB_1, B_2, \ldots, B_{n_b}B1,B2,,Bnb,其中na≥nbn_a \geq n_bnanb
让我们定义一个矩阵X∈Rna×nb\mathbf{X} \in \mathbb{R}^{n_a \times n_b}XRna×nb,其中第iii行、第jjj列的元素xijx_{ij}xij是锚框AiA_iAi和真实边界框BjB_jBj的IoU。
该算法包含以下步骤。

  1. 在矩阵X\mathbf{X}X中找到最大的元素,并将它的行索引和列索引分别表示为i1i_1i1j1j_1j1。然后将真实边界框Bj1B_{j_1}Bj1分配给锚框Ai1A_{i_1}Ai1。这很直观,因为Ai1A_{i_1}Ai1Bj1B_{j_1}Bj1是所有锚框和真实边界框配对中最相近的。在第一个分配完成后,丢弃矩阵中i1th{i_1}^\mathrm{th}i1th行和j1th{j_1}^\mathrm{th}j1th列中的所有元素。
  2. 在矩阵X\mathbf{X}X中找到剩余元素中最大的元素,并将它的行索引和列索引分别表示为i2i_2i2j2j_2j2。我们将真实边界框Bj2B_{j_2}Bj2分配给锚框Ai2A_{i_2}Ai2,并丢弃矩阵中i2th{i_2}^\mathrm{th}i2th行和j2th{j_2}^\mathrm{th}j2th列中的所有元素。
  3. 此时,矩阵X\mathbf{X}X中两行和两列中的元素已被丢弃。我们继续,直到丢弃掉矩阵X\mathbf{X}Xnbn_bnb列中的所有元素。此时已经为这nbn_bnb个锚框各自分配了一个真实边界框。
  4. 只遍历剩下的na−nbn_a - n_bnanb个锚框。例如,给定任何锚框AiA_iAi,在矩阵X\mathbf{X}X的第ithi^\mathrm{th}ith行中找到与AiA_iAi的IoU最大的真实边界框BjB_jBj,只有当此IoU大于预定义的阈值时,才将BjB_jBj分配给AiA_iAi

下面用一个具体的例子来说明上述算法。
如 :numref:fig_anchor_label(左)所示,假设矩阵X\mathbf{X}X中的最大值为x23x_{23}x23,我们将真实边界框B3B_3B3分配给锚框A2A_2A2
然后,我们丢弃矩阵第2行和第3列中的所有元素,在剩余元素(阴影区域)中找到最大的x71x_{71}x71,然后将真实边界框B1B_1B1分配给锚框A7A_7A7
接下来,如 :numref:fig_anchor_label(中)所示,丢弃矩阵第7行和第1列中的所有元素,在剩余元素(阴影区域)中找到最大的x54x_{54}x54,然后将真实边界框B4B_4B4分配给锚框A5A_5A5
最后,如 :numref:fig_anchor_label(右)所示,丢弃矩阵第5行和第4列中的所有元素,在剩余元素(阴影区域)中找到最大的x92x_{92}x92,然后将真实边界框B2B_2B2分配给锚框A9A_9A9
之后,我们只需要遍历剩余的锚框A1,A3,A4,A6,A8A_1, A_3, A_4, A_6, A_8A1,A3,A4,A6,A8,然后根据阈值确定是否为它们分配真实边界框。

🏷fig_anchor_label

此算法在下面的assign_anchor_to_bbox函数中实现。
在这里插入图片描述

标记类别和偏移量

现在我们可以为每个锚框标记类别和偏移量了。
假设一个锚框AAA被分配了一个真实边界框BBB
一方面,锚框AAA的类别将被标记为与BBB相同。
另一方面,锚框AAA的偏移量将根据BBBAAA中心坐标的相对位置以及这两个框的相对大小进行标记。
鉴于数据集内不同的框的位置和大小不同,我们可以对那些相对位置和大小应用变换,使其获得分布更均匀且易于拟合的偏移量。
这里介绍一种常见的变换。
[**给定框AAABBB,中心坐标分别为(xa,ya)(x_a, y_a)(xa,ya)(xb,yb)(x_b, y_b)(xb,yb),宽度分别为waw_awawbw_bwb,高度分别为hah_ahahbh_bhb,可以将AAA的偏移量标记为:

(xb−xawa−μxσx,yb−yaha−μyσy,log⁡wbwa−μwσw,log⁡hbha−μhσh),\left( \frac{ \frac{x_b - x_a}{w_a} - \mu_x }{\sigma_x}, \frac{ \frac{y_b - y_a}{h_a} - \mu_y }{\sigma_y}, \frac{ \log \frac{w_b}{w_a} - \mu_w }{\sigma_w}, \frac{ \log \frac{h_b}{h_a} - \mu_h }{\sigma_h}\right),(σxwaxbxaμx,σyhaybyaμy,σwlogwawbμw,σhloghahbμh),
**]
其中常量的默认值为 μx=μy=μw=μh=0,σx=σy=0.1\mu_x = \mu_y = \mu_w = \mu_h = 0, \sigma_x=\sigma_y=0.1μx=μy=μw=μh=0,σx=σy=0.1σw=σh=0.2\sigma_w=\sigma_h=0.2σw=σh=0.2。里插入图片描述](https://i-blog.csdnimg.cn/direct/d0940b8fa45e4bf982f7ed9a5f981c99.png)

这种转换在下面的 offset_boxes 函数中实现。

基于锚框的经典算法

在这里插入图片描述

语义分割

  • 每个像素都会有一个label,这个label也是一个RGB颜色,三个通道

VOC数据集

  • 图片在JPEGImages,标签在SegmentationClass中。
  • 格式都为图片
    taget

在这里插入图片描述

图像增强的注意事项

在之前的实验,例如 :numref:sec_alexnet— :numref:sec_googlenet中,我们通过再缩放图像使其符合模型的输入形状。
然而在语义分割中,这样做需要将预测的像素类别重新映射回原始尺寸的输入图像。
这样的映射可能不够精确,尤其在不同语义的分割区域。
为了避免这个问题,我们将图像裁剪为固定尺寸,而不是再缩放。
具体来说,我们[使用图像增广中的随机裁剪,裁剪输入图像和标签的相同区域]。
小细节:原标签是一个3d RGB图片,要进一步转换为标签才行。

    def __getitem__(self, idx):feature, label = voc_rand_crop(self.features[idx], self.labels[idx],*self.crop_size)return (feature, voc_label_indices(label, self.colormap2label))# 原标签是一张RGB图片,区分不同的背景,将其转换为可学习的标签。

将标签图片的RGB(3D)转换为标签索引(1D)

可见最后的dataloader标签是一个图片每个像素是一个标签

在这里插入图片描述

正常卷积Conv2d

输入和输出通道,
kernel_size=2padding+1,且stride=1时,大小不变。
kernel_size=2
padding,且stride=1时,大小不变。

X = torch.rand(size=(1, 10, 16, 16))
conv = nn.Conv2d(10, 20, kernel_size=5, padding=2, stride=1)
X.shape,conv(X).shape
(torch.Size([1, 10, 16, 16]), torch.Size([1, 20, 16, 16]))

转置卷积TransConv2d

利用卷积核的感受野,逆还原卷积。
在这里插入图片描述
在这里插入图片描述
输入和输出通道,
kernel_size=2padding+1,且stride=1时,大小不变。
kernel_size=2
padding,且stride=1时,大小不变。
padding相当于直接减少输出的大小,与conv相反,步长变为缩放k倍

X = torch.rand(size=(1, 10, 16, 16))
tconv = nn.ConvTranspose2d(10, 20, kernel_size=5, padding=2, stride=1)
X.shape,tconv(X).shape
(torch.Size([1, 10, 16, 16]), torch.Size([1, 20, 16, 16]))

卷积和转置卷积是可逆的

X = torch.rand(size=(1, 10, 16, 16))
conv = nn.Conv2d(10, 20, kernel_size=5, padding=2, stride=3)
tconv = nn.ConvTranspose2d(20, 10, kernel_size=5, padding=2, stride=3)
tconv(conv(X)).shape == X.shape

在这里插入图片描述

FCN

CNN+1x1卷积(降低通道数)+转置卷积(重新缩放)

输出是(通道数,宽,高),其中通道数是用作类似全连接的标签,与标签数一致

pretrained_net = torchvision.models.resnet18(pretrained=True)
num_classes = 21
net.add_module('final_conv', nn.Conv2d(512, num_classes, kernel_size=1))
net.add_module('transpose_conv', nn.ConvTranspose2d(num_classes, num_classes,kernel_size=64, padding=16, stride=32))
RESNET输出:
torch.Size([1, 512, 10, 15])
加入转置卷积后输入和输出
torch.Size([1, 3, 320, 480])
torch.Size([1, 21, 320, 480])

参考文献

动手学深度学习主页

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/914586.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/914586.shtml
英文地址,请注明出处:http://en.pswp.cn/news/914586.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ffmpeg音视频处理大纲

FFmpeg 是一个功能强大的开源音视频处理工具集,其核心代码以 C 语言实现。下面从源码角度分析 FFmpeg 如何实现转码、压缩、提取、截取、拼接、合并和录屏等功能: 一、FFmpeg 核心架构与数据结构 FFmpeg 的源码结构围绕以下核心组件展开: lib…

网络安全小练习

一、docker搭建 1.安装 2.改变镜像源(推荐国内镜像源:阿里云镜像源) 登录阿里云容器镜像源服务( 阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台 ) 复制系统分配的专属地址 配置 sudo mkdir …

数据结构——顺序表的相关操作

一、顺序表基础认知​1.顺序表的定义与特点​顺序表是数据结构中一种线性存储结构,它将数据元素按照逻辑顺序依次存储在一片连续的物理内存空间中。简单来说,就是用一段地址连续的存储单元依次存放线性表的元素,且元素之间的逻辑关系通过物理…

2025最新国产用例管理工具评测:Gitee Test、禅道、蓝凌测试、TestOps 哪家更懂研发协同?

在快节奏的 DevOps 时代,测试用例管理已不再是 QA 的独角戏,而是穿透需求—开发—测试—交付全流程的核心枢纽。想象一下,如果用例结构混乱,覆盖不全,甚至丢失版本变更历史,不仅协作乱,还影响交…

在线评测系统开发交流

https://space.bilibili.com/700332132?spm_id_from333.788.0.0 实验内容爬虫Web系统设计数据分析实验指导爬虫Web系统设计自然语言处理与信息检索数据可视化评分标准FAQ实验二:在线评测系统实验概述实验内容Step1:题目管理Step2:题目评测S…

Linux操作系统从入门到实战(十)Linux开发工具(下)make/Makefile的推导过程与扩展语法

Linux操作系统从入门到实战(十)Linux开发工具(下)make/Makefile的推导过程与扩展语法前言一、 make/Makefile的推导过程1. 先看一个完整的Makefile示例2. make的工作流程(1)寻找Makefile文件(2&…

NFS磁盘共享

步骤:注意事项‌:确保服务端防火墙关闭,或者允许2049端口通信,客户端需具备读写权限。服务器端安装NFS服务器:sudo apt-get install nfs-kernel-server # Debian/Ubuntu sudo yum install nfs-utils # Ce…

ORA-06413: 连接未打开

System.Data.OracleClient.OracleException:ORA-06413: 连接未打开 oracle 报错 ORA-06413: 连接未打开 db.Open();的报错链接未打开,System.Data.OracleClient.OracleException HResult0x80131938 MessageORA-06413: 连接未打开 关于ORA-06413错误(…

【PCIe 总线及设备入门学习专栏 5.1.2 -- PCIe EP core_rst_n 与 app_rst_n】

文章目录 app_rst_n 和 core_rst_n 的作用1. core_rst_n — PCIe 控制器内部逻辑复位作用控制方式2. app_rst_n — 应用层/用户逻辑复位作用特点两者关系图示:示例流程(Synopsys EP)rst_sync[3] 的作用详解(复位同步逻辑)为什么使用 rst_sync[3]?图示说明Synopsys 官方手…

Python初学者笔记第二十期 -- (文件IO)

第29节课 文件IO 在编程中,文件 I/O(输入/输出)允许程序与外部文件进行数据交互。Python 提供了丰富且易用的文件 I/O 操作方法,能让开发者轻松实现文件的读取、写入和修改等操作。 IO交互方向 从硬盘文件 -> 读取数据 -> 内…

Java JUC包概述

Java 的 java.util.concurrent(简称 JUC)包是 JDK 5 及以后引入的并发编程工具包,旨在解决传统线程模型(如 synchronized、wait/notify)的局限性,提供更灵活、高效、可扩展的并发编程组件。它极大简化了多线…

LeetCode--44.通配符匹配

前言:不知不觉又断更一天了,其实昨天就把这道题写得差不多了,只是刚好在力扣里面看见了一种新的解法,本来想写出来的,但是我把它推到今天了,因为太晚了,但是今天又睡懒觉了,所以我直…

WHAT - 依赖管理工具 CocoaPods

文章目录1. 什么是 CocoaPods?2. 如何安装 CocoaPods?(1) 确保已安装 Ruby(macOS 默认自带)(2) 安装 CocoaPods(3) 验证安装3. 在 React Native 项目中使用 CocoaPods(1) 进入 iOS 目录(2) 初始化 Podfile(如果不存在&…

C++ Boost Aiso TCP 网络聊天(服务端客户端一体化)

代码功能说明: 程序模式: 主动连接模式:当用户指定对端 IP 和端口时,尝试连接到对端被动监听模式:当用户未指定对端 IP 时,等待其他节点连接线程模型: 主线程:处理用户输入和消息发送接收线程:后台接收并显示对端消息关键组件: std::atomic<bool> connected:原…

WeakAuras 5.12.9 Ekkles lua

3.45猎人宝宝狼 技能恢复宏已知3.45BUG RL技能位会清空&#xff0c;小退大退 BB技能全部激活&#xff0c;修复以前可用宏一键恢复状态-------方法一&#xff1a;宏命令---------------------------------------------------------#showtooltip 狂怒之嚎 /petautocaston [btn:1]…

对于编写PID过程中的问题

当stm32RCT6使用位置环pid控制麦轮转动一定路程时&#xff0c;在这个时间段内想让一边轮胎速度加大应该怎么做&#xff1f;比如我pid的目标脉冲值为9000&#xff0c;在运行到3000的时候车偏左了&#xff0c;那我应该怎样让他回正&#xff0c;我想到的办法是增加其最大的脉冲值&…

LeetCode|Day13|88. 合并两个有序数组|Python刷题笔记

LeetCode&#xff5c;Day13&#xff5c;88. 合并两个有序数组&#xff5c;Python刷题笔记 &#x1f5d3;️ 本文属于【LeetCode 简单题百日计划】系列 &#x1f449; 点击查看系列总目录 >> &#x1f4cc; 题目简介 题号&#xff1a;88. 合并两个有序数组 难度&#xf…

【C++】初识C++(1)

个人主页&#xff1a;我要成为c嘎嘎大王 希望这篇小小文章可以让你有所收获&#xff01; 目录 前言 一、C的第一个程序 二、命名空间 2.1 namespace 的价值 2.2 namespace 的定义 2.2.1 正常的命名空间定义 2.2.2 命名空间可以嵌套 2.2.3 匿名命名空间 2.2.4 同名的name…

在新闻资讯 APP 中添加不同新闻分类页面,通过 ViewPager2 实现滑动切换

在新闻资讯 APP 中添加不同新闻分类页面&#xff0c;通过 ViewPager2 实现滑动切换 核心组件的作用 ViewPager2&#xff1a;是 ViewPager 的升级版&#xff0c;基于RecyclerView实现&#xff0c;支持水平 / 垂直滑动、RTL&#xff08;从右到左&#xff09;布局&#xff0c;且修…

vuex操作state为什么要使用mutations作为规范而不是直接修改state

1. 状态变更的可追踪性 (Trackable Changes)Devtools 集成&#xff1a;Vue Devtools 可以捕获每次 mutation 的执行记录&#xff0c;记录变更前后的 state 快照、参数和调用栈。直接修改 state&#xff1a;Devtools 无法检测到变更来源&#xff0c;导致调试困难&#xff08;如无…