首页 > 基础资料 博客日记

从 AMBA 协议看 Valid-Ready 到 Credit-based 流控机制

2026-04-27 20:00:02基础资料围观1

文章从 AMBA 协议看 Valid-Ready 到 Credit-based 流控机制分享给大家,欢迎收藏极客资料网,专注分享技术知识

本文探究在 ARM 协议栈中,为什么 CHI 协议基于 credit 流控,而 AXI 协议基于 valid-ready 握手流控。

1. 引言

AXI 协议基于valid-ready 信号进行流控,只有 valid-ready 同时有效时表示数据有效,时序如下:

axi-hs

CHI 协议基于 credit 进行流控,下游输出 LCRDV 给上游,上游维护一个信用计数器,基于信用计数器的数量向下游分发请求个数:

CHI-hs

2. 两种流控的本质差异

2.1 Valid-Ready 分析

Valid-Ready 握手本质上是一种即时反压机制,如果发送方 Sender 和接收方 Receiver 间没有插入寄存器,那么接收方反压会被发送方即时看见,但是这不利于时序收敛,在高频系统下一般会在 Sender 和 Receiver 间插入多级寄存器。

2.1.1 真实传输场景

考虑一个真实的流水线互联,Valid/Ready 信号之间插入了 3 级 register slice 以切断组合路径:

52ed73e0-54ac-4408-8d01-f66803ef4bc0

这里引入一个概念 —— 反压信息往返周期数 \(T_{RRT}\)

对应上文的场景:

$T_{RRT} = T_{forward\_stages} + T_{backward\_stages} $

这时对于 Receiver,buffer 深度必须设定为大于等于 \(T_{RRT}\) 也就是 6, 因为反压信号 3 个 cycles 后才传递到 Sender,而在这 3 个周期中在途的请求是 3 个,对应前向 + 后向的 slices 数量。

2.1.2 维持满带宽的条件

\(B_{min} = BW \times T_{RRT}\)

上面给出的公式,设是使得发送方与接收方维持满带宽的条件,设 B 为接收方 Buffer 深度,对于每 cycle 1beat 的链路 BW 为 1,\(T_{RRT}\) 为 N 的场景下,Receiver 必须有至少 N-entry 的 FIFO 才能保证无气泡流水,这个 FIFO 承担了一个职责——即反压还在路上,必须承载上游 Outstanding 的数据,所以一般也称之为 skid-buffer 或者 elastic buffer。

基于 AXI 的 register slice 一般是 2-entry 的 skid-buffer,用来打破组合路径同时维持满吞吐。

2.1.3 吞吐效率

如果 Receiver 深度是下述公式的场景,设 B 为 Receiver buffer 深度:

\(B{min} < BW \times T_{RRT}\)

每次 FIFO 填满后,反压建立 + 解除的时间就会引入 bubble,导致有效带宽下降,具体的效率公式如下:

$\eta = \frac{有效传输 cycle}{总 cycle} = \frac{B}{B+T_{RRT}} $

这里 B 代表 Receiver FIFO 深度。

注意这里每一级 register slice 的 slice 都有上下游的 Valid-Ready,否则下游 FIFO 会丢包,效率分析就不成立。

2.2 Credit-Based 分析

基于信用的流控,本质上是一种解耦的哲学,核心思想是:将能否发送的决策权前置到发送端。

Sender 可发送条件: \(Credit_{available} > 0\)

2.2.1 真实传输场景

6901363f-57bd-44b8-853e-4e5d38d80e5a

上图与 Valid-Ready 系统一个很明显的区别, Credit 系统中,数据通路上只需要简单的 flop pipeline(每级1个 FF 就够),因为信号是单向的,没有握手。

2.2.2 Credit 流控的完整数学模型

设 Receiver buffer 深度为 B,往返延迟为 \(T_{RRT}\)(credit return延迟 + data forward 延迟),则:

  • 初始 credit 发放:\(C_{init} = B\)
  • 维持满吞吐的充要条件: \(B ≥ BW \times T_{RRT}\)
  • 有效带宽利用率: \(\eta = min(1, \frac{B}{BW \times T_{RRT}})\)

看起来公式与 Valid-Ready 系统的完全一致,但是基于 2.2.1 的描述,实际上反压往返时间是大大减少了的,因此 Receiver 的 buffer 深度也减少了。

2.2.3 Credit 流控的其他优势

2.2.3.1 时序友好

Credit return 只是一个单 bit 脉冲信号,可以插入任意级数的 flop,对比下 Valid-Ready 系统插入 register slice 需要配对的 skid-buffer,面积和复杂度显著减少。

2.2.3.2 支持虚通道 VC 和避免死锁

Credit 天然支持 per-VC 独立流控,是构建无死锁 NOC 的基础。

每条虚通道独立的 Credit 池可以防止 Head-of-Line Blocking 和协议级死锁,在 CHI, UCIe 等协议中是标配。本文暂不对此展开介绍。

3. 实际应用

3.1 ARM

CMN 系列,RN-I (Request Node - I/O) 和 RN-D (Request Node - DMA) 的存在本质上是一个协议桥,会进行基于 Valid-Ready 握手的 AXI 协议到基于 Credit 的 CHI 协议间的转换。

89a67549-9e81-42ef-a3d0-2fabc389ced9

这里的选择逻辑是:

外侧 AXI:因为绝大多数第三方 IP、历史 IP、以及 ARM 自家的大部分非一致性 IP 都是 AXI 接口

内侧 CHI:因为 Mesh 规模大(RTT 大)、需要 VC 支持一致性协议。

这种方案并不是技术最优,但确保了生态最优。 ARM 自己在新的 Neoverse 核心(如 Neoverse V2/V3)上使用 CHI 的 RN-F(Fully coherent)直接接入 Mesh,避免了这个转换开销。

有意思的是 CCIX 和 CXL 的设计选择:

  • CCIX 基于 PCIe 物理层,但上层协议采用信用流控的事务层。

  • CXL.cache/CXL.mem 完全是 credit-based 的,因为要跨 socket、跨 die 保证一致性

涉及"跨越物理边界 + 一致性语义",选择 credit 机制。

3.2 NVIDIA

Hopper/Blackwell 架构的多级互联:

e58a9bba-cbb7-470f-8355-dfc64da55c09

Level 2-3 之间是流控机制切换的分界点。切换原因是 XBar 规模扩大,\(T_{RRT}\) 增大,且需要 fair arbitration。

L2 Cache controller 内部使用多端口 Credit-based 调度器

3.3 Google TPU

TPU Systolic Array 与互联的耦合设计

cc561c67-030f-4cc7-bf69-f9f3ae6bb3a2

脉动阵列内部没有流控的原因:

  • 数据流动是编译时确定的,不存在动态拥塞
  • 每个 PE 的输入时序由编译器精确调度
  • 相当于把流控问题前移到编译器

这是最激进的优化,软件定义硬件:编译器+硬件协同设计,彻底消除运行时流控开销。

3.4 网络芯片(DPU/Switch ASIC)

Broadcom Tomahawk、NVIDIA Spectrum、Marvell Teralynx 等交换芯片:

  • Ingress → Packet Buffer: 严格credit-based,因为要防止PFC(Priority Flow Control)下的buffer溢出
  • Buffer → Egress: VOQ(Virtual Output Queue)+ credit调度
  • 跨芯片Fabric: Cell-based credit(把大包切成固定cell,每cell一个credit)

这里 Credit 的使用是功能性需求(防丢包是网络芯片的生命线),不是基于性能优化的考量

3.5 HBM/DDR 控制器

HBM/DDR控制器内部:

  • Command Queue → Scheduler: Valid-Ready 为主(队列深度可控)
  • Scheduler → PHY: 严格时序驱动,无流控(由 DRAM 时序参数决定)
  • 对外接口: credit(AXI5 或 CHI)

这里体现一个原则:当延迟由物理规律(DRAM 时序)而非缓冲决定时,流控退化为无意义。

4. 总结

Credit 流控的本质是用空间(buffer)换时间(latency tolerance),并用单向信号换时序收敛性。

随着 SoC 向大规模多核、3D 堆叠、Chiplet 集成演进,互连的物理延迟成为一等约束。AXI5 引入 credit transport、CHI/UCIe/NVLink 全面 credit 化,反映了整个行业从"总线思维"向"网络思维"的范式转变。在实际项目中需要根据互连拓扑、 \(T_{RRT}\) 预算、QoS 需求综合判断。

参考来源:

https://community.arm.com/support-forums/f/architectures-and-processors-forum/57671/axi5

AMBA AXI Protocol Specification (IHI 0022)

AMBA CHI Architecture Specification (IHI 0050)

Arm Neoverse CMN-700/CMN-S3 TRM

欢迎关注微信公众号:
微信图片_20260422210936_122_93


文章来源:https://www.cnblogs.com/Achilles7/p/19939968
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!

标签:

相关文章

本站推荐

标签云