ハイエンド求人:クラウドベース推論サービス技術エキスパート(P8) ----- Tongyi Lab - クラウドベースの推論サービス技術専門家 - 北京/杭州 Tongyi Lab · 北京 |杭州 職務内容: マルチモーダルインタラクション (音声、視覚、言語、コンテキスト融合) 向けのクラウドベースの推論サービス プラットフォームを設計および構築し、Omni/Speech/VL などの大規模モデルのオンライン/ニアライン推論をサポートします。 最先端のクラウド共同アーキテクチャにおけるクラウド サービス モジュールの技術ソリューションには、モデル サービング、動的バッチ処理、リクエスト スケジューリング、弾性スケーリング、負荷分散などの主要機能が含まれます。 SLA (ToB 顧客など) の要件をターゲットにして、クラウド推論リンクのレイテンシ、スループット、およびリソース使用率を最適化します。 (99.9%) 監視とアラート、ログ トレース (OpenTelemetry など)、A/B テスト、カナリア リリース、障害の自己修復などの運用機能を統合した、統合サービス ガバナンス フレームワークを構築します。 アルゴリズム チームと緊密に連携して、モデル構造の適応、量子化の展開、キャッシュ戦略などのエッジ クラウド共同最適化ソリューションの実装を促進します。 職務要件: コンピュータサイエンス、ソフトウェアエンジニアリング、または関連分野の修士号以上、バックエンド/クラウドサービス/推論プラットフォーム開発での 3 年以上の経験。 Go、Python、C++ のいずれかの言語に少なくとも 1 つ精通しており、堅牢なシステム プログラミングと高並行性サービスの開発能力を備えていること。 主流の推論フレームワーク (Triton Inference Server、vLLM、TensorRT-LLM、ONNX Runtime など) とモデル サービス アーキテクチャのベスト プラクティスに精通していること。 大規模な AI サービスの導入経験があり、GPU リソースのスケジューリング、モデル バージョン管理、コールド スタートの最適化、ロングテール リクエストの処理などの一般的な問題に精通しています。 B2B プロジェクトの実行経験があり、顧客のニーズを理解し、それを信頼性が高く保守可能な技術ソリューションに変換できます。 ------ 登録の詳細については、https://t.co/SgMGfxMeo4(検索)をご覧ください。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。