Dediqué un tiempo a investigar InfiniBand y me di cuenta de que para entenderlo necesitaba escribir un par cliente/servidor desde cero. ¡Resulta que se puede hacer en Python! Linux rdma-core proporciona todos los verbos InfiniBand que necesitas con pyverbs. Aquí tienes un ejemplo sencillo de escritura y lectura RDMA.
Una vez creado el equivalente a un socket en InfiniBand (un "Par de Cola"), los pares necesitan intercambiar información (por ejemplo, una clave para acceder a la memoria). Normalmente esto se hace con TCP, pero TCP me da dolor de cabeza, así que simplgist.github.com/charlesfrye/fd…io modal (almacenamiento KV remoto). https://t.co/PPqVohm7Nl
El código está aquí: para su estudio, comentarios y experimentación. Se ejecuta en Modal y utiliza nuestra función experimental de clúster RDMA. Si te interesa ejecutar inferencia o entrenamiento acelerado porgist.github.com/charlesfrye/fd…o para obtener acceso. https://t.co/2pZWAU9spB

