type
status
date
slug
summary
tags
category
icon
password
Falcon 4xxx 基本介绍&优势
某比赛看到浙大使用的GPU chassis,回去搜罗了下资料,个人更愿意统称为pcie交换机,下面就以此称呼
这里以falcon 4210,其余同代产品基本为降配或存储型版本,核心内容一致
基本信息表
可以看到配备了BMC, 厂商做的BMC page看起来也相当不错,可以进行很多配置
交换芯片使用了博通的PEX 88096, 为PCIe4.0版本,带有5条 pcie4.0 x16通道(48 DMA channel, one associated with PCIe x2 port), 因此单组为4GPU+1NIC的配置
在供电上,75W的PCIe槽供电+375W的 8pin供电, 虽然上限为450W,但不建议通过PCIe槽供电,过去听说过AMD显卡从PCIe槽取电导致部分规格不高的主板损坏的案例
Host端应该为自行开发的网卡,单卡使用4条SFF-8644 连接线,每条用以支持PCIe x4通道, 使用较低规格的PEX 80032 PCIe交换芯片
拓补结构
总的来说,鉴于可以实现2host x16速率,每一组应该是使用了博通官网所示 fig3 topo结构
两个半高Host接口位于中部的两层,两组间似乎只能通过CPU互联
兼容性
主要为最大内存大小 以及 PCIe bus编号数量上限
受到BIOS和CPU影响
实测性能
官网文档进行了测试,有详细测试结果,但不够完整
2xA100 within one Host
两块A100 在同一个switch下, 通信较快
这里没有看到多块卡同时进行HtoD\DtoH的性能是是否平衡,这会影响到AI训练的多卡瓶颈
劣势&改进(仅falcon 4000 个人看法)
- 巨大噪声,等同于GPU服务器
- 8GPU版本为2组4GPU, 组间通信需要通过CPU, 需要一定程序优化
额外的
Fun Play
若连接infiniband NIC,似乎可采用 (2GPU 2NIC)x2的组合,实现GPU间真正的点对点通信,就是太贵了,比较奇葩,跨chassie 连接尚可
CXL Memory Pooling Solution
CXL2.0 基于pcie5.0, 理论带宽上限为64GB/s
memory chassis 内存拓展柜
完成度已经较高
References
- Author:NotionNext
- URL:https://tangly1024.com/article/Falcon%204000%20%E8%AF%A6%E8%A7%A3
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts