PyTorch 2.x通过TorchDynamo通过Python Bytecode的动态变换实现了图捕获功能,需要搭配一个Compiler Backend完成图编译。

Pytorch尝试集成了多个后端,并使用一个轻量级的autotuner来选择最优的后端图编译结果。这个解决方案存在2个问题:

  • 这些后端的Execution Model和Pytorch差异较大,引入了许多转换步骤,导致性能损失较大。
  • 大多数后端仅支持推理,一些设计决策使得支持训练非常困难。

因此Pytorch需要原生的Compiler Backend:TorchInductor。

整体设计

TorchInductor的整体设计思路是一个轻量级、易于扩展和实验的框架,用于将PyTorch的表示符号化映射到Compiler Backend:

  • 完整表达Pytorch:torch.Tensor -> TensorBox,torch.Storage -> StorageBox 等。
  • 通过symbolically strided tensor表达各种View:Reshape/Transpose/Slice等。
  • 支持训练
  • 支持多后端
  • 支持高层级优化:如Memory Planning。

TorchInductor的初始设计支持2种不同的target:

  • Triton:一种新型的编程语言,开发效率高于CUDA,同时性能可以媲美CUDA的库(如cuDNN),支持NVIDIA/AMD GPU等。
  • C++/OpenMP:一种被广泛使用的编写高性能并行Kernel的API,支持CPU。

TorchInductor设计上优先考虑对Pytorch支持的完整性,包括:

  • aliasing/mutation/views
  • scatter (间接写)
  • gather (间接读)
  • pooling/windows/reductions
  • masked/conditional execution(如padding)
  • template epilogue fusions
  • tiling
  • horizontal/vertical fusions

TorchInductor使用SymPy库来支持动态形状(dynamic shapes)和步长(strides):

使用SymPy符号化tensor的shape,并在整个程序中传播。

load和store直接通过SymPy的索引公式来表达。

通过guards来提升已编译好的子图的使用前提,在guards fail时,触发子图的重编译。

TorchInductor  IR

TorchInductor IR使用了一种define-by-run的loop-level IR。大部分IR是Python里的Callable,输入是SymPy Expression。基于这种IR做分析或代码生成的实现方式是改变ops.* 的实现,并运行IR。

例如对x.permute(1, 0) + x[2, :] 的IR:

def inner_fn(index: List[sympy.Expr]):i1, i0 = indextmp0 = ops.load("x", i1 + i0*size1)tmp1 = ops.load("x", 2*size1 + i0)return ops.add(tmp0, tmp1)torchinductor.ir.Pointwise(device=torch.device("cuda"),dtype=torch.float32,inner_fn=inner_fn,ranges=[size0, size1],
)

TODO:待补充

参考:

TorchInductor: a PyTorch-native Compiler with Define-by-Run IR and Symbolic Shapes - compiler - PyTorch Developer Mailing List

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/94124.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/94124.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/94124.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Adobe Illustrator默认键盘快捷键

目录 默认键盘快捷键 常用的快捷键 处理文档 选择工具 查看图稿 处理所选对象 绘制 编辑形状 处理实时上色组 处理对象 创建可变宽度点 处理文字 使用面板 动作面板 “画笔”面板 “字符”和“段落”面板 “颜色”面板 “渐变”面板 “图层”面板 “色板”…

「数据获取」《中国能源统计年鉴》(1986-2023)(获取方式看绑定的资源)

01、数据简介一、年鉴基本定位与发展历程《中国能源统计年鉴》作为一部权威性极强的能源领域资料典籍,始终以全面、精准反映中国能源建设推进、生产运行、消费态势以及供需平衡状况为核心使命。其编纂工作发轫于 1986 年,最初由国家统计局工业交通统计司…

SpringBoot3系列---【SpringBoot3集成sqlite】

SpringBoot3集成sqlite 1.引入pom.xml <dependencies><dependency><groupId>org.xerial</groupId><artifactId>sqlite-jdbc</artifactId><version>3.34.0</version></dependency><dependency><groupId>com.…

头部 TTS 开源项目深度对比

语音合成&#xff08;TTS&#xff09;开源项目是技术研究与产业落地的核心支撑&#xff0c;不同项目因技术路线、设计目标差异&#xff0c;在语言覆盖、合成自然度、可扩展性等方面表现悬殊。本文选取当前开源生态中应用最广、影响力最大的五大 TTS 项目——MaryTTS、Coqui TTS…

可视化-模块1-HTML-02

1-新建一个HTML文档&#xff0c;命名为&#xff1a;week1-12-<h1>标签<body><h1>这是标题 1</h1> <h2>这是标题 2</h2> <h3>这是标题 3</h3> <h4>这是标题 4</h4> <h5>这是标题 5</h5> <h6>这是…

搜索算法在实际场景中的应用

1. 数据库系统 B+树索引 应用场景:关系型数据库(MySQL、PostgreSQL等)的索引实现 算法特点: 平衡多路搜索树,优化磁盘I/O 支持范围查询和排序操作 典型实现: CREATE INDEX idx_name ON users(last_name); 哈希索引 应用场景:键值存储(Redis、Memcached)、等值查询 算…

基础IO

目录 一、进程和文件的关系 二、背景补充 三、打开文件接口 (1) FILE *fopen(const char* filename , const char *mode) &#xff08;2&#xff09;open 系统调用 文件描述符 open和fopen的关系 &#xff08;3&#xff09;size_t fwrite&#xff08;const void * ptr, …

SpringBoot快速上手

SpringBoot快速上手 环境准备 IDEA版本: 社区版:2021.1-2022.1.4 专业版:无要求 Maven 官方对于Maven的描述: Maven是一个项目管理工具,基于POM(Project Object Model,项目对象模型)的概念,Maven可以通过一小段描述信息来管理项目的构建,报告文档和项目管理工具软件. 人…

GitHub Actions workflow最佳实践

使用 GitHub Actions Workflow 时&#xff0c;遵循最佳实践可以显著提升自动化效率、安全性和可维护性。以下是经过实践验证的核心最佳实践&#xff0c;涵盖配置设计、性能优化、安全防护等维度&#xff0c;并附具体示例&#xff1a; 一、工作流组织与触发优化 1. 拆分工作流&a…

JAVA读取项目内的文件或图片

一、读取resources下的文件或图片&#xff1b;文件或图片位置&#xff1a;代码&#xff1a;InputStream fis Thread.currentThread().getContextClassLoader().getResourceAsStream("template/" xxx.jpg);二、读取项目内任意位置的文件或图片。文件或图片位置&…

Python如何将两个列表转化为一个字典

一、使用zip函数 zip函数是Python内置的一个强大工具&#xff0c;它可以将多个迭代器&#xff08;如列表、元组等&#xff09;“压缩”成一个迭代器&#xff0c;其中每个元素都是一个元组。使用zip函数将两个列表转换为字典是最常见的方法。 1、基本用法 keys [a, b, c] value…

Vue 3 useModel vs defineModel:选择正确的双向绑定方案

&#x1f4d6; 概述 useModel() 是 Vue 3.4 版本中引入的一个组合式 API 辅助函数&#xff0c;它是驱动 defineModel() 的底层实现。这个函数主要用于在非单文件组件中实现双向数据绑定&#xff0c;特别是在使用原始的 setup() 函数时。 ⚠️ 重要提示&#xff1a;如果使用 <…

数据库备份sql文件过大,phpAdmin无法执行Sql

数据库导出为sql文件&#xff0c;文件太大导致无法再Sql query执行&#xff0c;可使用命令行执行&#xff1a; windows系统&#xff1a; 1.切换到mysql 安装目录的bin目录下 cd C:\xampp\mysql\bin 2.执行备份sql还原mysql数据库 mysql -u root -p databasename < C://backu…

三格电子——ModbusTCP 转 Profinet 主站网关应用实例

型号&#xff1a;SG-TCP- Profinet(M)一、使用场景ModbusTCPClient 通过 ModbusTCP 控制 Profinet 接口设备&#xff0c; Profinet 接口设备接入DCS/工控机等。产品是ModbusTCP和Profinet(M)网关&#xff08;以下简称网关&#xff09;&#xff0c;使用数据映射 方式工作。 本产…

网址账号正确,密码错误返回的状态码是多少

问题网址账号正确&#xff0c;密码错误返回的状态码是多少我的回答当账号正确但密码错误时&#xff0c;服务器通常会返回401 Unauthorized状态码。这个状态码表示"未授权"&#xff0c;意味着客户端请求缺乏有效的身份验证凭据&#xff0c;或者提供的凭据无效。在实际…

JAVA核心基础篇-操作符

Java 操作符是用于操作变量和值的特殊符号&#xff0c;主要分为以下几类&#xff1a;1. 算术运算符用于执行基本的数学运算&#xff1a;&#xff1a;加法&#xff08;也可用于字符串拼接&#xff09;-&#xff1a;减法*&#xff1a;乘法/&#xff1a;除法&#xff08;整数相除取…

数据库字段类型深度解析:从关系型到 NoSQL 的全面指南

数据库字段类型深度解析&#xff1a;从关系型到 NoSQL 的全面指南 一、引言&#xff1a;数据库字段类型的重要性 在现代软件开发和数据管理中&#xff0c;数据库作为核心组件&#xff0c;其性能、可扩展性和数据完整性在很大程度上取决于字段类型的选择。作为专业的开发者和数据…

蓝牙aoa仓库管理系统功能介绍

在现代仓储物流的快节奏运作中&#xff0c;高效管理仓库人员的位置与行动轨迹&#xff0c;成为提升整体运营效率的关键。蓝牙AOA&#xff08;Angle of Arrival&#xff0c;信号到达角&#xff09;技术应运而生&#xff0c;以其独特的优势和强大的功能&#xff0c;为仓库人员定位…

【轻量级密码算法】当安全遇上资源瓶颈:轻量级加密为何成为 IoT 时代的刚需?

在智能家居的场景中&#xff0c;当你轻触智能门锁的指纹识别区域&#xff0c;期望它能快速响应并解锁时&#xff0c;你是否想过在这短短几秒内&#xff0c;门锁内部的微控制器&#xff08;MCU&#xff09;正在进行着复杂的安全验证操作&#xff1f;然而&#xff0c;对于大多数资…

嵌入式开发学习———Linux环境下网络编程学习(四)

数据库简介数据库是结构化数据的集合&#xff0c;用于高效存储、检索和管理数据。常见的数据库类型包括关系型&#xff08;如MySQL、SQLite&#xff09;和非关系型&#xff08;如MongoDB&#xff09;。关系型数据库使用表格形式存储数据&#xff0c;并通过SQL&#xff08;结构化…