X (Twitter)

하이엔드 구인구직: 클라우드 기반 추론 서비스 기술 전문가(P8) ----- Tongyi Lab - 클라우드 기반 추론 서비스 기술 전문가 - 베이징/항저우 Tongyi Lab · Beijing | 항저우 직무 설명: 다중 모드 상호작용(음성, 비전, 언어, 컨텍스트 융합)을 위한 클라우드 기반 추론 서비스 플랫폼을 설계하고 구축하여 Omni/Speech/VL과 같은 대규모 모델에 대한 온라인/근거리 추론을 지원합니다. 최첨단 클라우드 협업 아키텍처의 클라우드 서비스 모듈에 대한 기술 솔루션에는 모델 제공, 동적 배칭, 요청 스케줄링, 탄력적 확장, 부하 분산과 같은 주요 기능이 포함됩니다. SLA(예: ToB 고객) 요구 사항을 타겟으로 하여 클라우드 추론 링크의 대기 시간, 처리량 및 리소스 활용도를 최적화합니다. (99.9%) 모니터링 및 알림, 로그 추적(예: OpenTelemetry), A/B 테스트, 카나리아 릴리스, 오류 자체 복구 등의 운영 기능을 통합하는 통합 서비스 거버넌스 프레임워크를 구축합니다. 모델 구조 적응, 양자화 배포, 캐싱 전략과 같은 에지 클라우드 공동 최적화 솔루션의 구현을 촉진하기 위해 알고리즘 팀과 긴밀히 협력합니다. 직무 요구 사항: 컴퓨터 과학, 소프트웨어 엔지니어링 또는 관련 분야 석사 학위 이상, 백엔드/클라우드 서비스/추론 플랫폼 개발 경험 3년 이상 다음 언어 중 하나 이상에 능숙해야 합니다: Go, Python 또는 C++, 견고한 시스템 프로그래밍 및 높은 동시성 서비스 개발 역량 주류 추론 프레임워크(Triton Inference Server, vLLM, TensorRT-LLM, ONNX Runtime 등)와 모델 서비스 아키텍처에 대한 모범 사례에 익숙합니다. 대규모 AI 서비스 배포 경험이 있으며 GPU 리소스 스케줄링, 모델 버전 관리, 콜드 스타트 최적화, 롱테일 요청 처리와 같은 일반적인 문제에 익숙합니다. B2B 프로젝트 수행 경험이 있으며, 고객 요구 사항을 이해하고 이를 안정적이고 유지 관리 가능한 기술 솔루션으로 전환할 수 있습니다. ------ 등록에 대한 자세한 내용은 https://t.co/SgMGfxMeo4(검색)에서 확인하세요.

Y11(@seclink)의 스레드

작성자 정보

스레드 내용