X (Twitter)

Vaga de emprego de alto nível: Especialista técnico em serviço de inferência baseado em nuvem (P8) ----- Tongyi Lab - Especialistas em tecnologia de serviços de inferência baseados em nuvem - Pequim/Hangzhou Tongyi Lab · Pequim | Hangzhou Descrição da vaga: Projetar e construir uma plataforma de serviço de inferência baseada em nuvem para interação multimodal (fala, visão, linguagem, fusão de contexto), com suporte para inferência online/nearline para modelos de grande porte como Omni/Speech/VL; As soluções técnicas para o módulo de serviço em nuvem na arquitetura colaborativa edge-cloud de ponta incluem recursos essenciais como Model Serving, Dynamic Batching, agendamento de solicitações, escalonamento elástico e balanceamento de carga. Otimizar a latência, a taxa de transferência e a utilização de recursos do link de inferência na nuvem, visando os requisitos do SLA (por exemplo, para clientes ToB). (99,9%) Construir uma estrutura unificada de governança de serviços que integre capacidades operacionais como monitoramento e alertas, rastreamento de logs (por exemplo, OpenTelemetry), testes A/B, lançamentos canary e autorrecuperação de falhas. Trabalhar em estreita colaboração com a equipe de algoritmos para promover a implementação de soluções de otimização conjunta entre edge e nuvem, como adaptação da estrutura do modelo, implantação de quantização e estratégias de cache; Requisitos da vaga: Mestrado ou doutorado em Ciência da Computação, Engenharia de Software ou áreas afins, com mais de 3 anos de experiência em desenvolvimento de backend/serviços em nuvem/plataformas de inferência; Proficiência em pelo menos uma das seguintes linguagens: Go, Python ou C++, com sólida experiência em programação de sistemas e desenvolvimento de serviços de alta concorrência; Familiarizado com as principais estruturas de inferência (como Triton Inference Server, vLLM, TensorRT-LLM, ONNX Runtime) e com as melhores práticas para arquitetura de serviços de modelos; Possui experiência em implantação de serviços de IA em larga escala e está familiarizado com problemas típicos, como agendamento de recursos de GPU, gerenciamento de versões de modelos, otimização de inicialização a frio e processamento de solicitações de cauda longa; Possui experiência na execução de projetos B2B e consegue compreender as necessidades do cliente, traduzindo-as em soluções técnicas confiáveis e de fácil manutenção; ------ Para obter detalhes sobre o cadastro, acesse: https://t.co/SgMGfxMeo4 (pesquise).

Thread de Y11 (@seclink)

Informações do autor

Conteúdo da thread