X (Twitter)

Oferta de empleo de alto nivel: Experto técnico en servicios de inferencia basados en la nube (P8) ----- Tongyi Lab - Expertos en tecnología de servicios de inferencia basados en la nube - Beijing/Hangzhou Tongyi Lab · Beijing | Hangzhou Descripción del puesto: Diseñar y construir una plataforma de servicio de inferencia basada en la nube para interacción multimodal (voz, visión, lenguaje, fusión de contexto), que admita inferencia en línea/casi en línea para modelos grandes como Omni/Speech/VL; Las soluciones técnicas para el módulo de servicio en la nube en la arquitectura colaborativa de nube de vanguardia incluyen capacidades clave como servicio de modelos, procesamiento dinámico de lotes, programación de solicitudes, escalamiento elástico y equilibrio de carga. Optimice la latencia, el rendimiento y la utilización de recursos del enlace de inferencia en la nube, teniendo en cuenta los requisitos del SLA (por ejemplo, para clientes ToB). (99,9 %) Cree un marco de gobernanza de servicios unificado que integre capacidades operativas como monitoreo y alerta, rastreo de registros (por ejemplo, OpenTelemetry), pruebas A/B, lanzamientos canarios y autocuración de fallas. Trabajar en estrecha colaboración con el equipo de algoritmos para promover la implementación de soluciones de optimización conjunta de borde y nube, como la adaptación de la estructura del modelo, la implementación de cuantificación y las estrategias de almacenamiento en caché; Requisitos del puesto: Maestría o título superior en Ciencias de la Computación, Ingeniería de Software o campos relacionados, con más de 3 años de experiencia en desarrollo de plataformas de inferencia/servicios en la nube/backend; Competente en al menos uno de los siguientes lenguajes: Go, Python o C++, con sólidas capacidades de programación de sistemas y desarrollo de servicios de alta concurrencia; Familiarizado con los principales marcos de inferencia (como Triton Inference Server, vLLM, TensorRT-LLM, ONNX Runtime) y las mejores prácticas para la arquitectura de servicios de modelos; Tiene experiencia en la implementación de servicios de IA a gran escala y está familiarizado con problemas típicos como la programación de recursos de GPU, la gestión de versiones de modelos, la optimización de inicio en frío y el procesamiento de solicitudes de cola larga; Tiene experiencia en la ejecución de proyectos B2B y puede comprender las necesidades de los clientes y traducirlas en soluciones técnicas confiables y mantenibles; ------ Para obtener detalles de inscripción, visite: https://t.co/SgMGfxMeo4 (buscar).

Hilo de Y11 (@seclink)

Información del autor

Contenido del hilo