1.题面

题目要求

向量加法
实现一个程序,在GPU上对两个包含32位浮点数的向量执行逐元素加法。该程序应接受两个长度相等的输入向量,并生成一个包含它们和的输出向量。

实现要求

禁止使用外部库
solve函数签名必须保持不变
最终结果必须存储在向量C中
示例1:
输入:A = [1.0, 2.0, 3.0, 4.0]
B = [5.0, 6.0, 7.0, 8.0]
输出:C = [6.0, 8.0, 10.0, 12.0]
示例2:
输入:A = [1.5, 1.5, 1.5]
B = [2.3, 2.3, 2.3]
输出:C = [3.8, 3.8, 3.8]

约束条件

输入向量A和B长度相同
1 ≤ N ≤ 100,000,000

2.已有代码解析

函数参数与目的

void solve(const float* A, const float* B, float* C, int N)
  • 该函数接收三个指向GPU内存的指针:AB是输入向量,C是输出向量。
  • N表示向量的长度,即元素个数。

线程与线程块配置

int threadsPerBlock = 256;
int blocksPerGrid = (N + threadsPerBlock - 1) / threadsPerBlock;
  • 线程块大小(threadsPerBlock):每个线程块包含256个线程。这是CUDA编程中常用的配置,适合大多数GPU架构。
  • 网格大小(blocksPerGrid):根据向量长度N计算所需的线程块数量。使用向上取整公式确保所有元素都被处理。例如:
    • N=1000时,blocksPerGrid = (1000 + 256 - 1) / 256 = 4
    • 每256个线程就打包成一个block,blocksPerGrid就表示打包了多少个

核函数调用

vector_add<<<blocksPerGrid, threadsPerBlock>>>(A, B, C, N);
  • 核函数(vector_add):这是一个在GPU上执行的函数,负责逐元素地将AB相加,结果存入C
  • 执行配置(<<<...>>>):指定网格和线程块的维度。这里使用一维网格和一维线程块。
  • 核函数会被并行调用,每个线程负责计算一个元素:C[i] = A[i] + B[i]

同步操作

cudaDeviceSynchronize();
  • 确保核函数执行完成后才返回。这对于需要立即使用结果的场景很重要。

3.QA环节

Q1: Grid是什么,为什么bocksPerGrid就是块的数目?

Grid是CUDA编程模型中的一个概念,表示线程块(Block)的集合。在GPU并行计算中,一个Grid是核函数(Kernel)的一次执行实例,它包含多个线程块,这些线程块可以并行或串行执行,具体取决于硬件资源。

blocksPerGrid是根据向量长度N和每个线程块的线程数量threadsPerBlock计算得出的。在CUDA中,网格(Grid)和线程块(Block)都可以是一维、二维或三维的。在这个向量加法的例子中,我们使用了一维网格,因此blocksPerGrid直接表示网格中一维方向上的线程块数量。计算公式为:

blocksPerGrid = (N + threadsPerBlock - 1) / threadsPerBlock;

这个公式实现了向上取整的效果,确保所有N个元素都有对应的线程来处理。例如:

  • N=1000threadsPerBlock=256时,blocksPerGrid = (1000 + 256 - 1) / 256 = 4
  • 每个线程块处理256个元素,4个线程块总共可以处理1024个元素,覆盖了N=1000的需求。

Q2: 这里使用“一维网格”和“一维线程块”是什么含义,还有其他选择吗,比如二维的?

一维网格和一维线程块

在CUDA中,线程组织是分级的:

  • 线程块(Block):由多个线程组成,可以是一维、二维或三维
  • 网格(Grid):由多个线程块组成,同样可以是一维、二维或三维

在向量加法的例子中:

  • 一维线程块:每个线程块中的线程按一维数组排列,线程索引由threadIdx.x表示
  • 一维网格:线程块按一维数组排列,线程块索引由blockIdx.x表示

每个线程的全局索引计算方式为:

int i = blockIdx.x * blockDim.x + threadIdx.x;

其中:

  • blockDim.x是每个线程块的线程数量(256)
  • blockIdx.x是当前线程块的索引
  • threadIdx.x是当前线程在线程块内的索引
二维网格和二维线程块

是的,CUDA支持二维甚至三维的网格和线程块,适用于处理二维或三维数据结构(如图像、矩阵)。例如:

二维线程块

对于图像处理,可以使用二维线程块:

dim3 threadsPerBlock(16, 16);  // 每个线程块有16×16=256个线程

线程索引由threadIdx.xthreadIdx.y表示,线程块内的线程按二维矩阵排列。

二维网格

对应的网格也可以是二维的:

dim3 blocksPerGrid((width + threadsPerBlock.x - 1) / threadsPerBlock.x,(height + threadsPerBlock.y - 1) / threadsPerBlock.y
);

线程块索引由blockIdx.xblockIdx.y表示,网格中的线程块按二维矩阵排列。

全局索引计算

对于二维网格和二维线程块,全局索引计算方式为:

int row = blockIdx.y * blockDim.y + threadIdx.y;
int col = blockIdx.x * blockDim.x + threadIdx.x;
int idx = row * width + col;  // 转换为一维索引

为什么向量加法使用一维组织?

向量加法处理的是一维数组,每个元素的计算只依赖于自身索引,使用一维组织更直观且高效:

  • 线程索引计算简单
  • 内存访问模式连续,提高缓存利用率

对于二维数据(如图像、矩阵),使用二维组织更自然,能够更好地映射数据结构和计算逻辑。

解题思路

__global__ void vector_add(const float* A, const float* B, float* C, int N) {int i = blockIdx.x * blockDim.x + threadIdx.x;if(i<N){C[i]=A[i]+B[i];}
}

根据第几个block和在block内的局部地址,得到总的id。注意i<N的边界约束,这是因为我们无法保证N是256的倍数,可能会产生数组越界。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/88836.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/88836.shtml
英文地址,请注明出处:http://en.pswp.cn/web/88836.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

5. JVM 的方法区

1. JVM介绍和运行流程-CSDN博客 2. 什么是程序计数器-CSDN博客 3. java 堆和 JVM 内存结构-CSDN博客 4. 虚拟机栈-CSDN博客 5. JVM 的方法区-CSDN博客 6. JVM直接内存-CSDN博客 7. JVM类加载器与双亲委派模型-CSDN博客 8. JVM类装载的执行过程-CSDN博客 9. JVM垃圾回收…

网络安全的基本练习

一.docker搭建 1.安装dockerapt-get install docker.io docker-compose2.编写配置文件&#xff08;注意路径正确&#xff09;vim /etc/systemd/system/docker.service.d/http-proxy.conf[Service] Environment"HTTP_PROXYhttp://科学上网访问的ip:端口" Environment&…

380. O(1) 时间插入、删除和获取随机元素

实现RandomizedSet 类&#xff1a; RandomizedSet() 初始化 RandomizedSet 对象 bool insert(int val) 当元素 val 不存在时&#xff0c;向集合中插入该项&#xff0c;并返回 true &#xff1b;否则&#xff0c;返回 false 。 bool remove(int val) 当元素 val 存在时&#xff…

【LeetCode Hot100 | 每日刷题】字母异位词分组

题目链接&#xff1a;49. 字母异位词分组 - 力扣&#xff08;LeetCode&#xff09; 题目&#xff1a; 给你一个字符串数组&#xff0c;请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。 示例 1: 输入: strs ["eat", "tea", "tan"…

docker 安装windows

目录 下载地址&#xff1a; 使用教程&#xff1a; docker compose 查看版本 测试启动 hello-world 报错1 The system cannot find the file specified&#xff1a; 检查 Docker Desktop 是否运行中 报错2HF_ENDPOINT 1. 临时解决方案&#xff08;当前终端会话有效&…

docker compose 和build

目录 docker compose 和build 的区别是什么&#xff1f; 核心差别&#xff1a; 1. docker build --platform linux/amd64 -f Dockerfile -t infiniflow/ragflow:nightly_lbg . 2. docker compose -f docker-compose-gpu.yml up -d 二者如何配合&#xff1f; 总结 docker …

裂变时刻:全球关税重构下的券商交易系统跃迁路线图(2025-2027)

——基于RWA清算、量子加密与实时非线性风控的下一代跨境基础设施核心事件锚定&#xff1a;特朗普于7月7日对14国启动分级关税制裁&#xff08;日韩25%、东南亚30%-40%、金砖关联国10%附加税&#xff09;&#xff0c;引发日元兑美元暴跌至144.47、铜价单日跳涨3.2%、散户单日交…

python爬虫初入门——基本库和写入方法

1.准备环境 python环境&#xff1a;3.10 2.常用库 1.请求库&#xff1a;实现 HTTP 请求操作 requests&#xff1a;基于 urllib 编写的&#xff0c;阻塞式 HTTP 请求库&#xff0c;发出一个请求&#xff0c;一直等待服务器响应后&#xff0c;程序才能进行下一步处理。seleni…

Sonar扫描C#代码配置

需要的工具 MSBuild、sonar-scanner-4.6.1.2450-windows、jdk1.8.0_181 下载地址&#xff1a;https://download.csdn.net/download/code12313/91315686 配置sonar的地址 一、环境变量配置 1.新建变量&#xff0c;nameSONAR_RUNNER_MSBUILD_HOME。valueD:\work\dev\dev_serve…

python 在运行时没有加载修改后的版本

陈旧的Python字节码 (.pyc 文件)&#xff1a;最常见的原因&#xff01;Python 会把你修改的 .py 文件编译成 .pyc 字节码来加速后续运行。有时&#xff0c;即使你修改了 .py 文件&#xff0c;系统可能仍然固执地加载旧的、未被删除的 .pyc 文件。1. 用“硬编码探针”强制验证# …

【会员专享数据】2013-2024年我国省市县三级逐年SO₂数值数据(Shp/Excel格式)

之前我们分享过2013-2024年全国范围逐年SO₂栅格数据&#xff08;可查看之前的文章获悉详情&#xff09;&#xff01;该数据来源于韦晶博士、李占清教授团队发布在国家青藏高原科学数据中心网站上的中国高分辨率高质量近地表空气污染物数据集。很多小伙伴拿到数据后反馈栅格数据…

出现SSL连接错误的原因和解决方案

介绍 SSL连接错误是一种常见但关键的问题&#xff0c;这可能会阻止客户端和服务器之间的安全连接。这些错误发生在TLS握手过程失败时&#xff0c;这意味着客户端和服务器无法建立安全的HTTPS连接。这种失败可以在SSL/TLS协商过程中的任何阶段发生&#xff0c;从初始协议协议到…

vue3 el-date-picker 保存后 日期减一问题

在使用 el-date-picker&#xff08;Element UI 的日期选择器组件&#xff09;时&#xff0c;如果你发现日期在保存到后台后自动减一&#xff0c;这通常是由于时区差异或者是时间格式解析问题导致的。这里有一些可能的解决方案&#xff1a;1. 检查前端发送的日期格式确保你在前端…

什么是IP关联?跨境卖家如何有效避免IP关联?

一位深圳卖家曾管理30个亚马逊店铺账号&#xff0c;某日清晨发现所有账号被批量封禁——原因竟是平台检测到这些账号长期共享同一IP地址&#xff0c;判定为“IP关联”。而在跨境领域如亚马逊、eBay、Shopee、TikTok等平台&#xff09;&#xff0c;对于IP关联的判定都是比较严格…

Redis集群方案——哨兵机制

Redis Sentinel&#xff08;哨兵&#xff09;是Redis官方提供的高可用性(HA)解决方案&#xff0c;用于管理Redis主从架构并实现自动故障转移。一、集群结构和作用哨兵是一个分布式系统&#xff0c;由多个哨兵节点组成&#xff1a;哨兵的作用如下&#xff1a;监控&#xff1a;Se…

1.2.3_2 TCP/IP模型

在这个视频中&#xff0c;我们要探讨TCP/IP模型。对于TCP/IP模型考试的要求是这样的&#xff0c;首先我们需要记住它各个层次的名称和顺序&#xff0c;以及我们需要了解TCP/IP 模型和OSI参考模型&#xff0c;它们在设计理念上有哪些区别&#xff0c;设计理念的区别又导致了TCP/…

EVOLVEpro安装使用教程-蛋白质语言模型驱动的快速定向进化

写在前面&#xff1a;蛋白质是生命活动的基石&#xff0c;其功能和序列之间的复杂关系长期以来吸引着科学家们的关注。尽管深度突变扫描等实验方法可以解析蛋白质突变的功能影响&#xff0c;但这些技术的应用范围局限于序列空间的一小部分。近年来&#xff0c;基于蛋白质语言模…

【Linux】Rocky Linux 清华镜像源安装 GitLab

使用清华镜像源安装 GitLab 地址&#xff1a;清华镜像源 1. 搜索 gitlab&#xff0c;我们选择 gitlab-ce 社区版进行安装 2. 新建 /etc/yum.repos.d/gitlab-ce.repo&#xff0c;内容为 注意&#xff1a;el$releasever 是清华镜像源内的文件夹版本 [gitlab-ce] nameGitlab C…

【龙泽科技】新能源汽车维护与动力蓄电池检测仿真教学软件【吉利几何G6】

产品简介新能源汽车维护与动力蓄电池检测仿真教学软件是依托《全国职业院校技能大赛》“新能源汽车维修”赛项中“新能源汽车维护与动力蓄电池检测” 竞赛模块&#xff0c;自主开发的一款仿真教学软件。软件采用仿真技术对车辆进行指定维护作业&#xff0c;并对动力蓄电池总成进…

UE5多人MOBA+GAS 18、用对象池来设置小兵的队伍的生成,为小兵设置一个目标从己方出生点攻打对方出生点,优化小兵的血条UI

文章目录根据小兵队伍更换小兵的皮肤管理小兵的生成使用对象池来管理小兵的生成为小兵设置一个目标小兵生成完整代码调整一下小兵的UI根据小兵队伍更换小兵的皮肤 懒得开UE了&#xff0c;增加一个Minion类继承基类角色CCharacter // 幻雨喜欢小猫咪#pragma once#include &qu…