我花了一些时间研究 InfiniBand,发现要理解它,我需要从头开始编写一个客户端/服务器对。 原来可以用 Python 实现!Linux rdma-core 提供了所有你需要的 InfiniBand 动词,它们都使用 pyverbs 库。 这里是一个简单的 RDMA 写入 + 读取操作
在 InfiniBand 中创建相当于套接字(“队列对”)之后,对等方需要交换信息(例如用于访问内存的密钥)。 这通常用 TCP 实现。但 TCP 太复杂了,所以我直接用了模态字典(远程键值存储)。 https://t.co/PPqVohm7Nl
代码在此——供查阅、评论和修改。 它运行在 Modal 平台上,并使用了我们实验性的 RDMA 集群功能。 如果您有兴趣运行 RDMA 加速的推理或训练,请联系我们获取访问权限。 https://t.co/2pZWAU9spB

