Offre d'emploi haut de gamme : Expert technique en services d'inférence basés sur le cloud (P8) ----- Tongyi Lab - Experts en technologies de services d'inférence basés sur le cloud - Pékin/Hangzhou Tongyi Lab · Pékin | Hangzhou Description du poste : Concevoir et construire une plateforme de service d'inférence basée sur le cloud pour l'interaction multimodale (parole, vision, langage, fusion de contexte), prenant en charge l'inférence en ligne/quasi-ligne pour les grands modèles tels que Omni/Speech/VL ; Les solutions techniques du module de service cloud dans l'architecture collaborative edge-cloud de pointe incluent des fonctionnalités clés telles que la diffusion de modèles, le traitement par lots dynamique, la planification des requêtes, la mise à l'échelle élastique et l'équilibrage de charge. Optimiser la latence, le débit et l'utilisation des ressources de la liaison d'inférence cloud, en ciblant les exigences du SLA (par exemple, pour les clients ToB). (99,9%) Construire un cadre de gouvernance de service unifié qui intègre des capacités opérationnelles telles que la surveillance et l'alerte, le traçage des journaux (par exemple, OpenTelemetry), les tests A/B, les versions canary et l'auto-réparation des pannes. Travailler en étroite collaboration avec l'équipe d'algorithmes pour promouvoir la mise en œuvre de solutions d'optimisation conjointes edge-cloud, telles que l'adaptation de la structure du modèle, le déploiement de la quantification et les stratégies de mise en cache ; Exigences du poste : Maîtrise ou diplôme supérieur en informatique, en génie logiciel ou dans des domaines connexes, avec plus de 3 ans d’expérience dans le développement de plateformes de services backend/cloud/inférence ; Maîtrise d'au moins un des langages suivants : Go, Python ou C++, avec de solides compétences en programmation système et en développement de services à haute concurrence ; Familiarisé avec les principaux frameworks d'inférence (tels que Triton Inference Server, vLLM, TensorRT-LLM, ONNX Runtime) et les meilleures pratiques en matière d'architecture de services de modèles ; Possède une expérience dans le déploiement de services d'IA à grande échelle et connaît les problèmes typiques tels que la planification des ressources GPU, la gestion des versions de modèles, l'optimisation du démarrage à froid et le traitement des requêtes à longue traîne ; Possède une expérience dans la réalisation de projets B2B et est capable de comprendre les besoins des clients et de les traduire en solutions techniques fiables et maintenables ; ------ Pour plus de détails sur l'inscription, veuillez consulter : https://t.co/SgMGfxMeo4 (recherche).
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.