首页 > 基础资料博客日记

从 AMBA 协议看 Valid-Ready 到 Credit-based 流控机制

2026-04-27 20:00:02基础资料围观1次

文章从 AMBA 协议看 Valid-Ready 到 Credit-based 流控机制分享给大家，欢迎收藏极客资料网，专注分享技术知识

本文探究在 ARM 协议栈中，为什么 CHI 协议基于 credit 流控，而 AXI 协议基于 valid-ready 握手流控。

1. 引言

AXI 协议基于valid-ready 信号进行流控，只有 valid-ready 同时有效时表示数据有效，时序如下：

axi-hs

CHI 协议基于 credit 进行流控，下游输出 LCRDV 给上游，上游维护一个信用计数器，基于信用计数器的数量向下游分发请求个数：

CHI-hs

2. 两种流控的本质差异

2.1 Valid-Ready 分析

Valid-Ready 握手本质上是一种即时反压机制，如果发送方 Sender 和接收方 Receiver 间没有插入寄存器，那么接收方反压会被发送方即时看见，但是这不利于时序收敛，在高频系统下一般会在 Sender 和 Receiver 间插入多级寄存器。

2.1.1 真实传输场景

考虑一个真实的流水线互联，Valid/Ready 信号之间插入了 3 级 register slice 以切断组合路径：

52ed73e0-54ac-4408-8d01-f66803ef4bc0

这里引入一个概念 —— 反压信息往返周期数 $T_{RRT}$

对应上文的场景：

$T_{RRT} = T_{forward\_stages} + T_{backward\_stages} $

这时对于 Receiver，buffer 深度必须设定为大于等于 $T_{RRT}$ 也就是 6，因为反压信号 3 个 cycles 后才传递到 Sender，而在这 3 个周期中在途的请求是 3 个，对应前向 + 后向的 slices 数量。

2.1.2 维持满带宽的条件

$B_{min} = BW \times T_{RRT}$

上面给出的公式，设是使得发送方与接收方维持满带宽的条件，设 B 为接收方 Buffer 深度，对于每 cycle 1beat 的链路 BW 为 1，$T_{RRT}$ 为 N 的场景下，Receiver 必须有至少 N-entry 的 FIFO 才能保证无气泡流水，这个 FIFO 承担了一个职责——即反压还在路上，必须承载上游 Outstanding 的数据，所以一般也称之为 skid-buffer 或者 elastic buffer。

基于 AXI 的 register slice 一般是 2-entry 的 skid-buffer，用来打破组合路径同时维持满吞吐。

2.1.3 吞吐效率

如果 Receiver 深度是下述公式的场景，设 B 为 Receiver buffer 深度：

$B{min} < BW \times T_{RRT}$

每次 FIFO 填满后，反压建立 + 解除的时间就会引入 bubble，导致有效带宽下降，具体的效率公式如下：

$\eta = \frac{有效传输 cycle}{总 cycle} = \frac{B}{B+T_{RRT}} $

这里 B 代表 Receiver FIFO 深度。

注意这里每一级 register slice 的 slice 都有上下游的 Valid-Ready，否则下游 FIFO 会丢包，效率分析就不成立。

2.2 Credit-Based 分析

基于信用的流控，本质上是一种解耦的哲学，核心思想是：将能否发送的决策权前置到发送端。

Sender 可发送条件： $Credit_{available} > 0$

2.2.1 真实传输场景

6901363f-57bd-44b8-853e-4e5d38d80e5a

上图与 Valid-Ready 系统一个很明显的区别， Credit 系统中，数据通路上只需要简单的 flop pipeline（每级1个 FF 就够），因为信号是单向的，没有握手。

2.2.2 Credit 流控的完整数学模型

设 Receiver buffer 深度为 B，往返延迟为 $T_{RRT}$（credit return延迟 + data forward 延迟），则：

初始 credit 发放：$C_{init} = B$
维持满吞吐的充要条件： $B ≥ BW \times T_{RRT}$
有效带宽利用率： $\eta = min(1, \frac{B}{BW \times T_{RRT}})$

看起来公式与 Valid-Ready 系统的完全一致，但是基于 2.2.1 的描述，实际上反压往返时间是大大减少了的，因此 Receiver 的 buffer 深度也减少了。

2.2.3 Credit 流控的其他优势

2.2.3.1 时序友好

Credit return 只是一个单 bit 脉冲信号，可以插入任意级数的 flop，对比下 Valid-Ready 系统插入 register slice 需要配对的 skid-buffer，面积和复杂度显著减少。

2.2.3.2 支持虚通道 VC 和避免死锁

Credit 天然支持 per-VC 独立流控，是构建无死锁 NOC 的基础。

每条虚通道独立的 Credit 池可以防止 Head-of-Line Blocking 和协议级死锁，在 CHI, UCIe 等协议中是标配。本文暂不对此展开介绍。

3. 实际应用

3.1 ARM

CMN 系列，RN-I (Request Node - I/O) 和 RN-D (Request Node - DMA) 的存在本质上是一个协议桥，会进行基于 Valid-Ready 握手的 AXI 协议到基于 Credit 的 CHI 协议间的转换。

89a67549-9e81-42ef-a3d0-2fabc389ced9

这里的选择逻辑是：

外侧 AXI：因为绝大多数第三方 IP、历史 IP、以及 ARM 自家的大部分非一致性 IP 都是 AXI 接口

内侧 CHI：因为 Mesh 规模大（RTT 大）、需要 VC 支持一致性协议。

这种方案并不是技术最优，但确保了生态最优。 ARM 自己在新的 Neoverse 核心（如 Neoverse V2/V3）上使用 CHI 的 RN-F（Fully coherent）直接接入 Mesh，避免了这个转换开销。

有意思的是 CCIX 和 CXL 的设计选择：

CCIX 基于 PCIe 物理层，但上层协议采用信用流控的事务层。
CXL.cache/CXL.mem 完全是 credit-based 的，因为要跨 socket、跨 die 保证一致性。

涉及"跨越物理边界 + 一致性语义"，选择 credit 机制。

3.2 NVIDIA

Hopper/Blackwell 架构的多级互联：

e58a9bba-cbb7-470f-8355-dfc64da55c09

Level 2-3 之间是流控机制切换的分界点。切换原因是 XBar 规模扩大，$T_{RRT}$ 增大，且需要 fair arbitration。

L2 Cache controller 内部使用多端口 Credit-based 调度器。

3.3 Google TPU

TPU Systolic Array 与互联的耦合设计

cc561c67-030f-4cc7-bf69-f9f3ae6bb3a2

脉动阵列内部没有流控的原因：

数据流动是编译时确定的，不存在动态拥塞
每个 PE 的输入时序由编译器精确调度
相当于把流控问题前移到编译器

这是最激进的优化，软件定义硬件：编译器+硬件协同设计，彻底消除运行时流控开销。

3.4 网络芯片（DPU/Switch ASIC）

Broadcom Tomahawk、NVIDIA Spectrum、Marvell Teralynx 等交换芯片：

Ingress → Packet Buffer： 严格credit-based，因为要防止PFC（Priority Flow Control）下的buffer溢出
Buffer → Egress： VOQ（Virtual Output Queue）+ credit调度
跨芯片Fabric： Cell-based credit（把大包切成固定cell，每cell一个credit）

这里 Credit 的使用是功能性需求（防丢包是网络芯片的生命线），不是基于性能优化的考量

3.5 HBM/DDR 控制器

HBM/DDR控制器内部：

Command Queue → Scheduler： Valid-Ready 为主（队列深度可控）
Scheduler → PHY： 严格时序驱动，无流控（由 DRAM 时序参数决定）
对外接口： credit（AXI5 或 CHI）

这里体现一个原则：当延迟由物理规律（DRAM 时序）而非缓冲决定时，流控退化为无意义。

4. 总结

Credit 流控的本质是用空间（buffer）换时间（latency tolerance），并用单向信号换时序收敛性。

随着 SoC 向大规模多核、3D 堆叠、Chiplet 集成演进，互连的物理延迟成为一等约束。AXI5 引入 credit transport、CHI/UCIe/NVLink 全面 credit 化，反映了整个行业从"总线思维"向"网络思维"的范式转变。在实际项目中需要根据互连拓扑、 $T_{RRT}$ 预算、QoS 需求综合判断。

参考来源：

https://community.arm.com/support-forums/f/architectures-and-processors-forum/57671/axi5

AMBA AXI Protocol Specification (IHI 0022)

AMBA CHI Architecture Specification (IHI 0050)

Arm Neoverse CMN-700/CMN-S3 TRM

欢迎关注微信公众号：
微信图片_20260422210936_122_93

文章来源:https://www.cnblogs.com/Achilles7/p/19939968
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：jacktools123@163.com进行投诉反馈，一经查实，立即删除！

标签：

上一篇：Redis-Hash型与List型操作命令
下一篇：C# 视频录制监控系统

首页 > 基础资料博客日记

从 AMBA 协议看 Valid-Ready 到 Credit-based 流控机制

1. 引言

2. 两种流控的本质差异

2.1 Valid-Ready 分析

2.2 Credit-Based 分析

3. 实际应用

4. 总结

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 基础资料 博客日记

从 AMBA 协议看 Valid-Ready 到 Credit-based 流控机制

1. 引言

2. 两种流控的本质差异

2.1 Valid-Ready 分析

2.2 Credit-Based 分析

3. 实际应用

4. 总结

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 基础资料博客日记