X (Twitter)

[Recommandation Open Source] OpenTinker : Fournit un apprentissage par renforcement intelligent basé sur des agents en tant que service, permettant à un plus grand nombre de chercheurs et de développeurs d’entraîner et d’inférer facilement l’apprentissage par renforcement sans avoir besoin de ressources GPU hautes performances en local. Le projet principal, développé par Siqi Zhu et Jiaxuan You, s'attaque à deux problèmes majeurs du développement traditionnel de l'apprentissage par renforcement : les exigences élevées en ressources de calcul et la complexité de la gestion des systèmes distribués. Grâce à une architecture distribuée basée sur le cloud, OpenTinker externalise les tâches de calcul vers des clusters GPU distants, permettant ainsi aux utilisateurs de simplement écrire du code et de soumettre les tâches localement. Principales caractéristiques : Aucun GPU local requis : L’ensemble de l’entraînement et de l’inférence s’exécute sur des serveurs GPU dans le cloud, ne nécessitant qu’un client léger sur la machine locale de l’utilisateur. • Séparation de la programmation et de l'exécution : les utilisateurs définissent localement l'environnement et la logique, tandis que l'exécution proprement dite est gérée par un serveur distant, masquant ainsi la complexité du calcul distribué. • Séparation de l'environnement et de la formation : Prend en charge les tâches d'agent à un seul tour et à plusieurs tours, facilitant la conception d'environnements personnalisés. • Transition transparente de l'entraînement à l'inférence : le modèle entraîné peut être utilisé directement pour l'inférence sans modification du code ni de l'environnement. • API Python unifiée : Fournit une interface concise et de haut niveau, permettant aux utilisateurs de créer rapidement des tâches d’agent intelligent en héritant simplement de la classe abstraite et en implémentant la logique d’environnement. Architecture système - Client : Soumettre les tâches et définir l'environnement localement. • Planificateur : Gère l’allocation des ressources GPU et les pools de travailleurs. • Serveur d'entraînement/d'inférence : Ce serveur exécute la boucle RL, l'entraînement du modèle et l'inférence. Il prend en charge l'intégration avec des moteurs d'inférence à haute efficacité tels que @vllm_project et possède une machine à états de boucle d'agent intégrée, ce qui le rend adapté aux agents pilotés par LLM. Adresse du projet

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil