首页 > 基础资料 博客日记
从 AMBA 协议看 Valid-Ready 到 Credit-based 流控机制
2026-04-27 20:00:02基础资料围观1次
本文探究在 ARM 协议栈中,为什么 CHI 协议基于 credit 流控,而 AXI 协议基于 valid-ready 握手流控。
1. 引言
AXI 协议基于valid-ready 信号进行流控,只有 valid-ready 同时有效时表示数据有效,时序如下:

CHI 协议基于 credit 进行流控,下游输出 LCRDV 给上游,上游维护一个信用计数器,基于信用计数器的数量向下游分发请求个数:

2. 两种流控的本质差异
2.1 Valid-Ready 分析
Valid-Ready 握手本质上是一种即时反压机制,如果发送方 Sender 和接收方 Receiver 间没有插入寄存器,那么接收方反压会被发送方即时看见,但是这不利于时序收敛,在高频系统下一般会在 Sender 和 Receiver 间插入多级寄存器。
2.1.1 真实传输场景
考虑一个真实的流水线互联,Valid/Ready 信号之间插入了 3 级 register slice 以切断组合路径:

这里引入一个概念 —— 反压信息往返周期数 \(T_{RRT}\)
对应上文的场景:
$T_{RRT} = T_{forward\_stages} + T_{backward\_stages} $
这时对于 Receiver,buffer 深度必须设定为大于等于 \(T_{RRT}\) 也就是 6, 因为反压信号 3 个 cycles 后才传递到 Sender,而在这 3 个周期中在途的请求是 3 个,对应前向 + 后向的 slices 数量。
2.1.2 维持满带宽的条件
\(B_{min} = BW \times T_{RRT}\)
上面给出的公式,设是使得发送方与接收方维持满带宽的条件,设 B 为接收方 Buffer 深度,对于每 cycle 1beat 的链路 BW 为 1,\(T_{RRT}\) 为 N 的场景下,Receiver 必须有至少 N-entry 的 FIFO 才能保证无气泡流水,这个 FIFO 承担了一个职责——即反压还在路上,必须承载上游 Outstanding 的数据,所以一般也称之为 skid-buffer 或者 elastic buffer。
基于 AXI 的 register slice 一般是 2-entry 的 skid-buffer,用来打破组合路径同时维持满吞吐。
2.1.3 吞吐效率
如果 Receiver 深度是下述公式的场景,设 B 为 Receiver buffer 深度:
\(B{min} < BW \times T_{RRT}\)
每次 FIFO 填满后,反压建立 + 解除的时间就会引入 bubble,导致有效带宽下降,具体的效率公式如下:
$\eta = \frac{有效传输 cycle}{总 cycle} = \frac{B}{B+T_{RRT}} $
这里 B 代表 Receiver FIFO 深度。
注意这里每一级 register slice 的 slice 都有上下游的 Valid-Ready,否则下游 FIFO 会丢包,效率分析就不成立。
2.2 Credit-Based 分析
基于信用的流控,本质上是一种解耦的哲学,核心思想是:将能否发送的决策权前置到发送端。
Sender 可发送条件: \(Credit_{available} > 0\)
2.2.1 真实传输场景

上图与 Valid-Ready 系统一个很明显的区别, Credit 系统中,数据通路上只需要简单的 flop pipeline(每级1个 FF 就够),因为信号是单向的,没有握手。
2.2.2 Credit 流控的完整数学模型
设 Receiver buffer 深度为 B,往返延迟为 \(T_{RRT}\)(credit return延迟 + data forward 延迟),则:
- 初始 credit 发放:\(C_{init} = B\)
- 维持满吞吐的充要条件: \(B ≥ BW \times T_{RRT}\)
- 有效带宽利用率: \(\eta = min(1, \frac{B}{BW \times T_{RRT}})\)
看起来公式与 Valid-Ready 系统的完全一致,但是基于 2.2.1 的描述,实际上反压往返时间是大大减少了的,因此 Receiver 的 buffer 深度也减少了。
2.2.3 Credit 流控的其他优势
2.2.3.1 时序友好
Credit return 只是一个单 bit 脉冲信号,可以插入任意级数的 flop,对比下 Valid-Ready 系统插入 register slice 需要配对的 skid-buffer,面积和复杂度显著减少。
2.2.3.2 支持虚通道 VC 和避免死锁
Credit 天然支持 per-VC 独立流控,是构建无死锁 NOC 的基础。
每条虚通道独立的 Credit 池可以防止 Head-of-Line Blocking 和协议级死锁,在 CHI, UCIe 等协议中是标配。本文暂不对此展开介绍。
3. 实际应用
3.1 ARM
CMN 系列,RN-I (Request Node - I/O) 和 RN-D (Request Node - DMA) 的存在本质上是一个协议桥,会进行基于 Valid-Ready 握手的 AXI 协议到基于 Credit 的 CHI 协议间的转换。

这里的选择逻辑是:
外侧 AXI:因为绝大多数第三方 IP、历史 IP、以及 ARM 自家的大部分非一致性 IP 都是 AXI 接口
内侧 CHI:因为 Mesh 规模大(RTT 大)、需要 VC 支持一致性协议。
这种方案并不是技术最优,但确保了生态最优。 ARM 自己在新的 Neoverse 核心(如 Neoverse V2/V3)上使用 CHI 的 RN-F(Fully coherent)直接接入 Mesh,避免了这个转换开销。
有意思的是 CCIX 和 CXL 的设计选择:
-
CCIX 基于 PCIe 物理层,但上层协议采用信用流控的事务层。
-
CXL.cache/CXL.mem 完全是 credit-based 的,因为要跨 socket、跨 die 保证一致性。
涉及"跨越物理边界 + 一致性语义",选择 credit 机制。
3.2 NVIDIA
Hopper/Blackwell 架构的多级互联:

Level 2-3 之间是流控机制切换的分界点。切换原因是 XBar 规模扩大,\(T_{RRT}\) 增大,且需要 fair arbitration。
L2 Cache controller 内部使用多端口 Credit-based 调度器。
3.3 Google TPU
TPU Systolic Array 与互联的耦合设计

脉动阵列内部没有流控的原因:
- 数据流动是编译时确定的,不存在动态拥塞
- 每个 PE 的输入时序由编译器精确调度
- 相当于把流控问题前移到编译器
这是最激进的优化,软件定义硬件:编译器+硬件协同设计,彻底消除运行时流控开销。
3.4 网络芯片(DPU/Switch ASIC)
Broadcom Tomahawk、NVIDIA Spectrum、Marvell Teralynx 等交换芯片:
- Ingress → Packet Buffer: 严格credit-based,因为要防止PFC(Priority Flow Control)下的buffer溢出
- Buffer → Egress: VOQ(Virtual Output Queue)+ credit调度
- 跨芯片Fabric: Cell-based credit(把大包切成固定cell,每cell一个credit)
这里 Credit 的使用是功能性需求(防丢包是网络芯片的生命线),不是基于性能优化的考量
3.5 HBM/DDR 控制器
HBM/DDR控制器内部:
- Command Queue → Scheduler: Valid-Ready 为主(队列深度可控)
- Scheduler → PHY: 严格时序驱动,无流控(由 DRAM 时序参数决定)
- 对外接口: credit(AXI5 或 CHI)
这里体现一个原则:当延迟由物理规律(DRAM 时序)而非缓冲决定时,流控退化为无意义。
4. 总结
Credit 流控的本质是用空间(buffer)换时间(latency tolerance),并用单向信号换时序收敛性。
随着 SoC 向大规模多核、3D 堆叠、Chiplet 集成演进,互连的物理延迟成为一等约束。AXI5 引入 credit transport、CHI/UCIe/NVLink 全面 credit 化,反映了整个行业从"总线思维"向"网络思维"的范式转变。在实际项目中需要根据互连拓扑、 \(T_{RRT}\) 预算、QoS 需求综合判断。
参考来源:
https://community.arm.com/support-forums/f/architectures-and-processors-forum/57671/axi5
AMBA AXI Protocol Specification (IHI 0022)
AMBA CHI Architecture Specification (IHI 0050)
Arm Neoverse CMN-700/CMN-S3 TRM
欢迎关注微信公众号:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!
标签:
上一篇:Redis-Hash型与List型操作命令
下一篇:C# 视频录制监控系统
相关文章
最新发布
- 【OpenClaw】通过 Nanobot 源码学习架构---(10)Heartbeat
- C# .NET 周刊|2026年4月1期
- Obsidian CLI 来了
- C# 视频录制监控系统
- 从 AMBA 协议看 Valid-Ready 到 Credit-based 流控机制
- Redis-Hash型与List型操作命令
- 8 年前的老代码 + 20 刀 AI token = 我的第一款独立产品
- 深度学习进阶(十二)可变形池化 deformable RS RoI Pooling
- 计算与判定:P、NP、NP-hard 和 NP-complete 问题
- 20253904 2025-2026-2 《网络攻防实践》第六周作业

