type
status
date
slug
summary
tags
category
icon
password

Falcon 4xxx 基本介绍&优势

某比赛看到浙大使用的GPU chassis,回去搜罗了下资料,个人更愿意统称为pcie交换机,下面就以此称呼
这里以falcon 4210,其余同代产品基本为降配或存储型版本,核心内容一致
notion image

基本信息表

可以看到配备了BMC, 厂商做的BMC page看起来也相当不错,可以进行很多配置
交换芯片使用了博通的PEX 88096, 为PCIe4.0版本,带有5条 pcie4.0 x16通道(48 DMA channel, one associated with PCIe x2 port), 因此单组为4GPU+1NIC的配置
在供电上,75W的PCIe槽供电+375W的 8pin供电, 虽然上限为450W,但不建议通过PCIe槽供电,过去听说过AMD显卡从PCIe槽取电导致部分规格不高的主板损坏的案例
notion image
Host端应该为自行开发的网卡,单卡使用4条SFF-8644 连接线,每条用以支持PCIe x4通道, 使用较低规格的PEX 80032 PCIe交换芯片
notion image
notion image

拓补结构

总的来说,鉴于可以实现2host x16速率,每一组应该是使用了博通官网所示 fig3 topo结构
两个半高Host接口位于中部的两层,两组间似乎只能通过CPU互联
notion image
notion image
notion image
 
notion image
 
notion image
 
notion image
 
notion image
 
notion image
 
notion image
 
notion image

兼容性

主要为最大内存大小 以及 PCIe bus编号数量上限
受到BIOS和CPU影响

实测性能

官网文档进行了测试,有详细测试结果,但不够完整

2xA100 within one Host

两块A100 在同一个switch下, 通信较快
notion image
这里没有看到多块卡同时进行HtoD\DtoH的性能是是否平衡,这会影响到AI训练的多卡瓶颈
notion image
notion image
 
 

劣势&改进(仅falcon 4000 个人看法)

  1. 巨大噪声,等同于GPU服务器
  1. 8GPU版本为2组4GPU, 组间通信需要通过CPU, 需要一定程序优化

额外的

Fun Play

若连接infiniband NIC,似乎可采用 (2GPU 2NIC)x2的组合,实现GPU间真正的点对点通信,就是太贵了,比较奇葩,跨chassie 连接尚可

CXL Memory Pooling Solution

CXL2.0 基于pcie5.0, 理论带宽上限为64GB/s
notion image
memory chassis 内存拓展柜
notion image
完成度已经较高
notion image
 

References

 
issue: WSL 提示系统找不到指定路径,The system cannot find the path specifiedChatGPT3.5 调整语句
Loading...