图片增强常用方式详解

引言

图片数据的质量和多样性对模型的训练效果起着至关重要的作用。然而,实际获取的图片数据往往存在数量不足、分布不均衡等问题。图片增强技术应运而生,它通过对原始图片进行一系列变换,生成更多具有多样性的图片,从而提升模型的泛化能力。本文将详细介绍几种常见的图片增强方式及其实现方法。

随机旋转(Random Rotation)

在这里插入图片描述

原理
随机旋转是指在一定角度范围内对图片进行随机旋转操作。这种方式可以模拟图片在不同角度下的拍摄情况,增加模型对不同角度物体的识别能力。

** 实现 **
在 Python 中,我们可以使用 Keras 库的 ImageDataGenerator 来实现随机旋转。以下是示例代码:

from keras.preprocessing.image import ImageDataGenerator
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt# 读取原始图片
image_path = "your_image.jpg"
original_image = Image.open(image_path)
original_image = np.array(original_image)# 定义 ImageDataGenerator,设置旋转范围为 -30° 到 30°
datagen_rotation = ImageDataGenerator(rotation_range=30)# 生成旋转后的图片
rotated_image = datagen_rotation.flow(np.array([original_image]), batch_size=1).next()[0].astype('uint8')# 显示原始图片和旋转后的图片
fig, axes = plt.subplots(1, 2, figsize=(10, 5))
axes[0].imshow(original_image)
axes[0].axis('off')
axes[0].set_title('原始图片')axes[1].imshow(rotated_image)
axes[1].axis('off')
axes[1].set_title('旋转后的图片')
plt.show()

随机平移(Random Shift)

在这里插入图片描述

原理
随机平移是在水平和垂直方向上对图片进行随机移动。通过这种方式,可以让模型学习到物体在不同位置的特征,增强模型对物体位置变化的鲁棒性。

实现
同样使用 ImageDataGenerator 来实现随机平移,示例代码如下:


# 定义 ImageDataGenerator,设置水平方向平移范围为 ±20% 宽度,垂直方向平移范围为 ±15% 高度
datagen_shift = ImageDataGenerator(width_shift_range=0.2,height_shift_range=0.15
)# 生成平移后的图片
shifted_image = datagen_shift.flow(np.array([original_image]), batch_size=1).next()[0].astype('uint8')# 显示原始图片和平移后的图片
fig, axes = plt.subplots(1, 2, figsize=(10, 5))
axes[0].imshow(original_image)
axes[0].axis('off')
axes[0].set_title('原始图片')axes[1].imshow(shifted_image)
axes[1].axis('off')
axes[1].set_title('平移后的图片')
plt.show()

随机缩放(Random Zoom)

在这里插入图片描述

原理
随机缩放是对图片进行随机的放大或缩小操作。这有助于模型学习到物体在不同尺寸下的特征,提高模型对物体大小变化的适应性。

实现
使用 ImageDataGenerator 实现随机缩放,示例代码如下:


# 定义 ImageDataGenerator,设置缩放范围为 0.8 - 1.2 倍
datagen_zoom = ImageDataGenerator(zoom_range=0.2)# 生成缩放后的图片
zoomed_image = datagen_zoom.flow(np.array([original_image]), batch_size=1).next()[0].astype('uint8')# 显示原始图片和缩放后的图片
fig, axes = plt.subplots(1, 2, figsize=(10, 5))
axes[0].imshow(original_image)
axes[0].axis('off')
axes[0].set_title('原始图片')axes[1].imshow(zoomed_image)
axes[1].axis('off')
axes[1].set_title('缩放后的图片')
plt.show()

随机翻转(Random Flip)

在这里插入图片描述

原理
随机翻转包括水平翻转和垂直翻转。通过对图片进行翻转操作,可以增加数据的多样性,让模型学习到物体在不同镜像状态下的特征。

实现
使用 ImageDataGenerator 实现随机翻转,示例代码如下:


# 定义 ImageDataGenerator,仅启用水平翻转
datagen_flip = ImageDataGenerator(horizontal_flip=True)# 生成翻转后的图片
flipped_image = datagen_flip.flow(np.array([original_image]), batch_size=1).next()[0].astype('uint8')# 显示原始图片和翻转后的图片
fig, axes = plt.subplots(1, 2, figsize=(10, 5))
axes[0].imshow(original_image)
axes[0].axis('off')
axes[0].set_title('原始图片')axes[1].imshow(flipped_image)
axes[1].axis('off')
axes[1].set_title('翻转后的图片')
plt.show()

随机剪切(Random Shear)

在这里插入图片描述

原理
随机剪切是对图片进行一定角度的倾斜操作,模拟物体在不同视角下的变形情况,增强模型对物体形变的识别能力。

实现
使用 ImageDataGenerator 实现随机剪切,示例代码如下:


# 定义 ImageDataGenerator,设置剪切范围为 0 - 0.3 弧度
datagen_shear = ImageDataGenerator(shear_range=0.3)# 生成剪切后的图片
sheared_image = datagen_shear.flow(np.array([original_image]), batch_size=1).next()[0].astype('uint8')# 显示原始图片和剪切后的图片
fig, axes = plt.subplots(1, 2, figsize=(10, 5))
axes[0].imshow(original_image)
axes[0].axis('off')
axes[0].set_title('原始图片')axes[1].imshow(sheared_image)
axes[1].axis('off')
axes[1].set_title('剪切后的图片')
plt.show()

亮度调整(Brightness Adjustment)

在这里插入图片描述

原理
亮度调整是对图片的亮度进行随机调整,模拟不同光照条件下的拍摄情况,提高模型对光照变化的鲁棒性。

实现
使用 ImageDataGenerator 实现亮度调整,示例代码如下:


# 定义 ImageDataGenerator,设置亮度调整范围为 0.5 - 1.5 倍
datagen_brightness = ImageDataGenerator(brightness_range=[0.5, 1.5])# 生成亮度调整后的图片
brightened_image = datagen_brightness.flow(np.array([original_image]), batch_size=1).next()[0].astype('uint8')# 显示原始图片和亮度调整后的图片
fig, axes = plt.subplots(1, 2, figsize=(10, 5))
axes[0].imshow(original_image)
axes[0].axis('off')
axes[0].set_title('原始图片')axes[1].imshow(brightened_image)
axes[1].axis('off')
axes[1].set_title('亮度调整后的图片')
plt.show()

对比度调整(Contrast Adjustment)

在这里插入图片描述

原理
对比度调整是改变图片中不同像素之间的差异程度,增强图片的视觉效果,让模型能够学习到更丰富的图像特征。

实现
使用 OpenCV 库实现对比度调整,示例代码如下:


import cv2
import numpy as npdef adjust_contrast(img):# 转换为灰度图(如需保留彩色可调整)img_gray = cv2.cvtColor(img.astype('uint8'), cv2.COLOR_RGB2GRAY)# 对比度拉伸min_val = np.min(img_gray)max_val = np.max(img_gray)stretched = (img - min_val) * (255.0 / (max_val - min_val + 1e-8))return stretched.astype('float32')# 应用自定义对比度调整
contrasted_image = adjust_contrast(original_image).astype('uint8')# 显示原始图片和对比度调整后的图片
fig, axes = plt.subplots(1, 2, figsize=(10, 5))
axes[0].imshow(original_image)
axes[0].axis('off')
axes[0].set_title('原始图片')axes[1].imshow(contrasted_image)
axes[1].axis('off')
axes[1].set_title('对比度调整后的图片')
plt.show()

总结

图片增强是计算机视觉任务中非常重要的一环,通过上述几种常见的图片增强方式,可以有效地扩充数据集,提高模型的泛化能力。在实际应用中,可以根据具体任务和数据特点选择合适的增强方式,也可以将多种增强方式组合使用,以获得更好的效果。希望本文能帮助你更好地理解和应用图片增强技术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/89402.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/89402.shtml
英文地址,请注明出处:http://en.pswp.cn/web/89402.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【URL 转换为PDF】HTML转换为PDF

1、方法1 pdfkit 安装依赖 # 安装 wkhtmltopdf(系统级) # Ubuntu/Debian sudo apt install wkhtmltopdf# macOS brew install wkhtmltopdf# Windows 下载安装:https://wkhtmltopdf.org/downloads.html# 安装 Python 库 pip install pdfkitimp…

单链表的定义、插入和删除

一、定义一个单链表 struct LNode{ //定义单链表节点类型ElemType data; //存放节点数据元素struct LNode *next; //指针指向下一个结点 }; //增加一个新节点:在内存中申请一个结点所需空间,并用指针p指向这个结点 struct LNode * p (struc…

Nextjs官方文档异疑惑

第一个区别:不同的页面对应的路由器设定! 继续用 app 路由器(推荐,Next.js 未来主流) 路由规则:app 目录下,文件夹 page.tsx 对应路由。例如: app/page.tsx → 对应 / 路由&#xf…

突破AI模型访问的“光标牢笼”:长上下文处理与智能环境隔离实战

> 当AI模型面对浩瀚文档却只能处理零星片段,当关键信息散落各处而模型“视而不见”,我们该如何打破这堵无形的墙? 在自然语言处理领域,**输入长度限制**(常被称为“光标区域限制”)如同一个无形的牢笼,严重制约了大型语言模型(LLM)在真实场景中的应用潜力。无论是分…

AI 智能质检系统在汽车制造企业的应用​

某知名汽车制造企业在其庞大且复杂的生产流程中,正面临着棘手的汽车零部件质检难题。传统的人工质检方式,完全依赖人工的肉眼观察与简单工具测量。质检员们长时间处于高强度的工作状态,精神高度集中,即便如此,由于人工…

设计模式》》门面模式 适配器模式 区别

// 复杂子系统 class CPU {start() { console.log("CPU启动"); } } class Memory {load() { console.log("内存加载"); } } class HardDrive {read() { console.log("硬盘读取"); } }// 门面 class ComputerFacade {constructor() {this.cpu ne…

windows内核研究(驱动开发 第一个驱动程序和调试环境搭建)

驱动开发 第一个驱动程序 驱动的开发流程 1.编写代码 -> 生成.sys文件 -> 部署 -> 启动 -> 停止 ->卸载 // 编写我们的第一个驱动程序 #include<ntddk.h>// 卸载函数 VOID DrvUnload(PDRIVER_OBJECT DriverObject) {DbgPrint("我被卸载了\n"…

ABP VNext + 多级缓存架构:本地 + Redis + CDN

ABP VNext 多级缓存架构&#xff1a;本地 Redis CDN &#x1f4da; 目录ABP VNext 多级缓存架构&#xff1a;本地 Redis CDN一、引言 &#x1f680;二、环境与依赖 &#x1f6e0;️三、架构概览 &#x1f310;请求全链路示意 &#x1f6e3;️四、本地内存缓存层 &#x1…

RGBA图片格式转换为RGB格式(解决convert转换的失真问题)

使用convert转换的问题 OpenCV 的 cv2.cvtColor(…, cv2.COLOR_BGRA2GRAY) 会直接忽略 Alpha 通道的含义&#xff0c;将它当作第四个颜色通道来处理。 转换公式如下&#xff1a; gray 0.114*255 0.587*0 0.299*0 ≈ 29也就是说&#xff0c;即使 Alpha 为 0&#xff08;完全透…

Spring AI之Prompt开发

文章目录1 提示词工程1_核心策略2_减少模型“幻觉”的技巧2 提示词攻击防范1_提示注入&#xff08;Prompt Injection&#xff09;2_越狱攻击&#xff08;Jailbreaking&#xff09;3 数据泄露攻击&#xff08;Data Extraction&#xff09;4 模型欺骗&#xff08;Model Manipulat…

Java面试(基础篇) - 第二篇!

未看第一篇的&#xff0c;这里可以直达 Java面试(基础篇) - 第一篇 Integer对象可以用判断吗&#xff1f;为什么&#xff1f; 回答 不可以&#xff0c;因为 比较的是对象的实例&#xff08;内存地址&#xff09;&#xff0c;Integer是有一个缓存机制的&#xff0c;它会将-1…

【C# in .NET】11. 探秘泛型:类型参数化革命

探秘泛型:类型参数化革命 泛型是 C# 和.NET框架中一项革命性的特性,它实现了 “编写一次,多处复用” 的抽象能力,同时保持了静态类型的安全性和高性能。与 C++ 模板等其他语言的泛型机制不同,.NET 泛型在 CLR(公共语言运行时)层面提供原生支持,这使得它兼具灵活性、安…

菜单权限管理

菜单管理系统的整体架构1.Menu 菜单表2.role 角色表3.role_menu 角色菜 单关联表&#xff08;多对多 &#xff09;要找role_id为3的角色能用哪个菜单:SELECT *FROM sys_menu a LEFT JOIN sys_role_menu b ON a.menu_id b.menu_id WHERE role_id3拆分开就是4.user 用户表5.user…

SQL FOREIGN KEY:详解及其在数据库设计中的应用

SQL FOREIGN KEY:详解及其在数据库设计中的应用 引言 在数据库设计中,数据完整性是至关重要的。SQL FOREIGN KEY(外键)是实现数据完整性的一种有效手段。本文将详细解释SQL FOREIGN KEY的概念、用途以及在实际数据库设计中的应用。 外键概述 1. 定义 外键(FOREIGN KE…

[yotroy.cool] 记一次 spring boot 项目宝塔面板部署踩坑

个人博客https://www.yotroy.cool/&#xff0c;感谢关注&#xff5e; 图片资源可能显示不全&#xff0c;请前往博客查看哦&#xff01;部署了个新项目&#xff0c;给我整抑郁了。。。下面是踩坑过程 宝塔面板 MySql5.7 版本 root 密码错误 这个MySQL5.7 安装完后就跑不了&#…

前端之HTML学习

HTML 学习笔记 前端三大件 HTML&#xff1a;超文本标记语言&#xff08;HyperText Markup Language&#xff09;CSS&#xff1a;层叠样式表JavaScript&#xff1a;客户端脚本语言常用框架&#xff1a;jQuery Vue 3(Element plus) HTML 基本概念 超文本&#xff1a;包含图像…

迅速高效从web2到web3转型 ,开启远程工作

Web2向Web3的转型&#xff0c;是技术、产品、组织结构和商业模式的深度变革。若要迅速且高效地完成这个转型&#xff0c;需要清晰的路径规划和战略执行。 目录 &#x1f501; 一、理解核心区别&#xff1a;Web2 vs Web3 &#x1f680; 二、转型路径 1. 选择合适的切入点 …

区块链开发协作工具全景图:从智能合约管理到去中心化治理

&#x1f4a5; 三重绞索&#xff1a;区块链开发的至暗时刻 1. 版本管理的深渊 当某DeFi团队凌晨修复漏洞时&#xff0c;发现生产环境运行的竟是两周前的废弃分支——37%的项目因代码分支混乱引发生产事故&#xff08;Electric Capital 2024&#xff09;。智能合约的版本漂移如同…

冒泡排序、选择排序、插入排序、快速排序

目录 1. 冒泡排序 (Bubble Sort) 算法思路分析 代码实现 复杂度分析 2. 选择排序 (Selection Sort) 算法思路分析 代码实现 复杂度分析 3. 插入排序 (Insertion Sort) 算法思路分析 代码实现 复杂度分析 4. 快速排序 (Quick Sort) 算法思路分析 代码实现 复杂度…

PHP语言基础知识(超详细)第一节

一. PHP简介: PHP即“超文本预处理器”,创建于1994年,是一种通用开源脚本语言。PHP是在服务器端执行的脚本语言,与C语言类似,是常用的网站编程语言。PHP独特的语法混合了C、Java、Perl以及 PHP 自创的语法。利于学习,使用广泛,主要适用于Web开发领域。 二. PHP的优点:…