高端招募:雲端推理服務技術專家(P8) ----- 通義實驗室-雲端推理服務技術專家-北京/杭州通義實驗室· 北京|杭州 職位描述設計並建構以多模態互動(語音、視覺、語言、情境融合)的雲端推理服務平台,支援Omni/Speech/VL等大模型的線上/近線推理; 主導端雲端協同架構中雲端服務模組的技術方案,包括模型服務化(Model Serving)、動態批次(Dynamic Batching)、請求調度、彈性擴縮容、負載平衡等關鍵能力; 優化雲端推理鏈路的延遲、吞吐與資源利用率,針對ToB客戶對SLA(如; 99.9%)建構統一的服務治理框架,整合監控警報、日誌追蹤(如OpenTelemetry)、AB測試、灰階發布、故障自癒等維運能力; 與演算法團隊緊密協作,推動模型結構適配、量化部署、快取策略等端雲聯合最佳化方案落地; 職位需經電腦科學、軟體工程或相關專業碩士以上學歷,3年以上後端/雲端服務/推理平台開發經驗; 精通Go/Python/C++至少一種語言,具備紮實的系統程式設計與高並發服務開發能力; 熟悉主流推理架構(如Triton Inference Server、vLLM、TensorRT-LLM、ONNX Runtime)及模型服務化最佳實務; 有大規模AI服務部署經驗,熟悉GPU資源調度、模型版本管理、冷啟動優化、長尾請求處理等典型問題; 有ToB專案交付經驗,能理解客戶需求並轉化為可靠、可運作的技術方案; ------ 報名網址詳見:https://t.co/SgMGfxMeo4 搜尋。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。