1. 简介

21264处理器是一款4-way,乱序执行的超标量处理器,采用0.35um的CMOS工艺,工作电压是2.2V, 工作频率是466-667MHz; 处理器能支持60条指令,也即ROB的深度是60; Load/Store指令也采取乱序执行, 总共7级流水。I-CACHE和D-CACHE都是采用2路组相连,64KB
截屏2025-06-07 18.05.05.png
2级取指,1级rename, 1级issue, 1级read register file, 1级执行,1级写回,共7级流水。

2. 取指

第一级访问I-CACHE: 根据PC值读I-CACHE, 得到一组cache set(也即两个cache line), data+tag
第二级根据PC中的tag判断是否hit, 然后选出正确的data(instruction)送到译码器和rename模块。
同时将PC值送到分支预测器中,预测下一拍的PC值。这里的预测分为line/way预测和分支预测,line/way预测指的是根据PC值,预测出我们需要的inst位于cacheline中哪个way(图中的successor way), 以及对应的PC值(图中的index)。这里的预测地址(BTB)直接放到了I-CACHE中
缺点是每条cacheline都包括line/way的预测信息,但是很多cache line中其实没有分支指令,从而造成了浪费。并且当一条cacheline被替换时,对应的line/way预测信息就被清除了,但独立的BTB和cacheline 就没有关系。
截屏2025-06-07 18.45.38.png
分支预测采用局部分支预测和全局分支预测竞争的的方式预测方向
截屏2025-06-07 18.53.54.png

3. 寄存器重命名

使用统一的PRF进行寄存器重命名,其中mapq的深度和ROB的深度是一致的,表示流水线最多可以执行多少条指令。下图中的save map stage是checkpoint,用来做恢复用的,也是80个entry。我理解map contert-addressable memories 是用来处理uop个数超过限制的,4条指令,每条指令最多两个source, 所以最多8个source, 有些指令在这个周期处理不了,需要留到下个周期。register scoreboard 是确定src 和dst atag,然后发送请求给arbiter, 请求分配若干个ptag, 并将atag和ptag的对应关系记录下来。
截屏2025-06-08 12.09.11.png

4. 发射

包括两个发射队列,整数和浮点发射队列,整数发射队列有20个entry, 被4个执行单元共享;浮点有15个entry, 被2个执行单元共享
截屏2025-06-08 12.24.26.png

5. 执行单元

截屏2025-06-08 12.33.54.png
截屏2025-06-08 12.33.54.png

6. 提交

一条指令执行完之后并不会马上离开流水线,而是会等到它之前的所有指令都执行完成之后,才会离开ROB,此时它的结果才可以更新处理器的状态, 并对外界可见
如果一条指令在即将离开流水先后发生了异常,那么需要刷掉流水线中这条指令后的所有指令,rename, issueq, rob, pipeline中的都得刷掉。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/86905.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/86905.shtml
英文地址,请注明出处:http://en.pswp.cn/web/86905.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring 中 Bean 的生命周期

一、什么是 Bean 生命周期? Spring 中的 Bean 生命周期是指一个 Bean 从 被容器创建到 最终销毁 所经历的一系列过程。 它体现了 Spring IOC 容器在管理 Bean 实例时所执行的各个钩子流程,包括初始化、依赖注入、增强处理、销毁等多个环节。 二、Bean 生…

C++ 中 std::string 与 QString 的深度剖析

在 C 编程领域,std::string 和 QString 是两种广泛应用的字符串类型,它们在设计理念、功能特性以及适用场景上都呈现出鲜明的特点。本文将从多个维度对这两种字符串类型进行深度剖析,并详细阐述它们之间的相互转化方法。 std::string 是 C 标…

不止于“修补”:我如何用Adobe AI重塑设计与视频叙事流程

最近我深度体验了一把来自英国Parvis School of Economics and Music的Adobe正版教育订阅,在把玩PhotoShop、Premiere Pro这些“老伙计”的新功能时,的确挖到了一些宝藏,觉得非常有必要与大家说道说道。首先得聊聊这个订阅给我的直观感受&…

重头开始学ROS(5)---阿克曼底盘的URDF建模与Gazebo控制(使用Xacro优化)

阿克曼底盘的URDF建模与Gazebo控制(使用Xacro优化) 阿克曼底盘建模 建模 我们使用后轮驱动,前轮转向的阿克曼底盘模型。 那么对于后轮只需进行正常的continous joint连接即可 对于前轮,有两个自由度,旋转和转向&…

RabbitMq中启用NIO

✅ 所属类 com.rabbitmq.client.ConnectionFactory🧠 使用背景 RabbitMQ Java 客户端默认使用传统的 阻塞 I/O (java.net.Socket) 实现。如果你希望: 更好地控制 线程数获得更好的 并发性能降低 每个连接的线程占用在高并发连接或消费者数量较多的系统…

[Dify]-基础篇2- 如何注册并快速上手 Dify 平台

在生成式 AI 应用开发新时代,如何快速搭建一个高效、可维护、易上线的 AI 工具,是每位开发者关注的核心。Dify,正是为此而生的一站式平台。本篇将以新手视角,带你从注册账号、配置环境,到构建应用、部署上线,手把手完成你的第一个 AI 项目。 注册并设置工作环境 1. 账号…

Java面试宝典:基础七

153. 如何实现对象克隆? 答: 对象克隆有两种主要方式: 浅克隆:实现Cloneable接口并重写Object.clone() class Person implements Cloneable {String name;Car car; // 引用类型@Override

spring-security原理与应用系列:requestMatchers和authorizeRequests

目录 简单示例 WebSecurityConfig requestMatchers ​​​​​​​requestMatchers ​​​​​​​antMatchers ​​​​​​​chainRequestMatchers ​​​​​​​setMatchers ​​​​​​​requestMatcher ​​​​​​​WebSecurity ​​​​​​​performBuild…

Bessel位势方程求解步骤

问题 考虑偏微分方程(PDE): − Δ u u f , x ∈ R n , -\Delta u u f, \quad x \in \mathbb{R}^n, −Δuuf,x∈Rn, 其中 f ∈ L 2 ( R n ) f \in L^2(\mathbb{R}^n) f∈L2(Rn)。这是一个线性椭圆型方程,称为 Bessel 位势方…

if __name__ == ‘__main__‘:

基本概念 if __name__ __main__: 是一个条件判断语句,用于确定当前模块是作为主程序运行,还是被其他模块导入。 __name__ 变量 __name__ 是Python的一个内置变量,表示当前模块的名称当一个模块被直接运行时,__name__ 的值会被…

浅谈Apache HttpClient的相关配置和使用

Apache HttpClient是由Apache软件基金会维护的一款开源HTTP客户端库,对比最基础的 HttpURLConnection 而言,它的优势时支持连接池管理,拦截器(Interceptor)机制,同步/异步请求支持等能力。 在使用这个组件时&#xff…

【Teensy】在ArduinoIDE中配置Teensy4.1

1.文件——首选项 在其他开发板管理器地址这里添加: https://www.pjrc.com/teensy/package_teensy_index.json 点击确定! 2.安装Teensy(for Arduino IDE…) 按照图中1,2,3操作!可以选择上一个版本(不使用最…

企业自建云概念解读|私有云、专有云、混合云、分布式云、企业云

随着云计算技术逐渐成熟,越来越多的企业开始在本地数据中心自行搭建云平台,满足数据合规、业务性能与连续性、节约成本等多方面的需求。不过,面对多种多样的自建云产品,不少用户会有类似的疑问:自建云等于私有云吗&…

反弹 Shell 升级为全交互终端的两种高效方法

目录 🚀 升级反弹 Shell 为全交互终端:两种高效方法 🛠️ 方法 1:利用 Python pty.spawn 创建伪终端 📋 操作步骤

Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation论文精读(逐段解析)

Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation论文精读(逐段解析) 论文地址:https://arxiv.org/abs/2408.04804 CVPR 2024 Yifan Feng, Jiangang Huang, Shaoyi Du, Senior Member, IEEE, Shihui Ying, Jun-Hai Y…

Windows 下配置多个 GitHub 账号的 SSH Key

Windows 下配置多个 GitHub 账号的 SSH Key 假设你有以下两个 SSH key 文件: 第一个账号:id_rsa(默认)第二个账号:id_rsa_github ✅ 步骤:在 Windows 上配置多个 GitHub 账号 SSH Key 1️⃣ 打开 SSH 配…

技术选型:时序数据库(三)

IoTDB vs InfluxDB vs TDengine 时序数据库横评对比。 从 架构设计、性能、功能、生态、适用场景 等维度,对三款时序数据库进行深度对比,助您精准选型。 一、核心架构对比 数据库 存储模型 数据模型 扩展性 Apache IoTDB 分层存储(TsFi…

电子电路原理第十九章(非线性运算放大器电路的应用)

单片集成运算放大器价格便宜、用途广泛且性能可靠。它们不仅可以用于线性电路,如电压放大器、电流源和有源滤波器,而且可以用于非线性电路,如比较器、波形生成器和有源二极管电路。非线性运放电路的输出通常与输入信号的波形不同,这是因为运放在输入周期的某个时间段内达到…

FPGA实现CameraLink视频解码转SDI输出,基于LVDS+GTX架构,提供2套工程源码和技术支持

目录 1、前言工程概述免责声明 2、CameraLink协议理论学习3、相关方案推荐我已有的所有工程源码总目录----方便你快速找到自己喜欢的项目FPGA实现CameraLink视频编解码方案本博已有的 SDI 编解码方案 4、工程详细设计方案工程设计原理框图输入CameraLink相机LVDS视频解码模块LV…

户外人像要怎么拍 ?

前言: ” 接上篇,培养你的眼力 - 摄影构图,本文是整理自《美国纽约摄影学院 摄影教材》,第三单元 - 第9课 - 自然光,课后习题及解答。“ 1. 正面光产生无深浅反差的平面感觉。 理解这题,首先得明白什么是…