网络

  • nccl所需要两个网络,一个是bootstrap网络,一个是数据通信网络。
    • bootstrap网络主要用于初始化时交换一些简单的信息,如果每个机器的ip端口,由于数据量较小,而且只在初始化阶段执行一次,因此bootstrap使用的是tcp
    • 而通信网络是用于实际数据的传输,因此优先使用RDMA(支持GDR的话会优先GDR)

最后修改 2025.02.21: temp (4773c84)