X (Twitter)

ハイエンド求人：クラウドベース推論サービス技術エキスパート（P8） ----- Tongyi Lab - クラウドベースの推論サービス技術専門家 - 北京/杭州 Tongyi Lab · 北京 |杭州職務内容: マルチモーダルインタラクション (音声、視覚、言語、コンテキスト融合) 向けのクラウドベースの推論サービスプラットフォームを設計および構築し、Omni/Speech/VL などの大規模モデルのオンライン/ニアライン推論をサポートします。最先端のクラウド共同アーキテクチャにおけるクラウドサービスモジュールの技術ソリューションには、モデルサービング、動的バッチ処理、リクエストスケジューリング、弾性スケーリング、負荷分散などの主要機能が含まれます。 SLA (ToB 顧客など) の要件をターゲットにして、クラウド推論リンクのレイテンシ、スループット、およびリソース使用率を最適化します。 (99.9%) 監視とアラート、ログトレース (OpenTelemetry など)、A/B テスト、カナリアリリース、障害の自己修復などの運用機能を統合した、統合サービスガバナンスフレームワークを構築します。アルゴリズムチームと緊密に連携して、モデル構造の適応、量子化の展開、キャッシュ戦略などのエッジクラウド共同最適化ソリューションの実装を促進します。職務要件: コンピュータサイエンス、ソフトウェアエンジニアリング、または関連分野の修士号以上、バックエンド/クラウドサービス/推論プラットフォーム開発での 3 年以上の経験。 Go、Python、C++ のいずれかの言語に少なくとも 1 つ精通しており、堅牢なシステムプログラミングと高並行性サービスの開発能力を備えていること。主流の推論フレームワーク (Triton Inference Server、vLLM、TensorRT-LLM、ONNX Runtime など) とモデルサービスアーキテクチャのベストプラクティスに精通していること。大規模な AI サービスの導入経験があり、GPU リソースのスケジューリング、モデルバージョン管理、コールドスタートの最適化、ロングテールリクエストの処理などの一般的な問題に精通しています。 B2B プロジェクトの実行経験があり、顧客のニーズを理解し、それを信頼性が高く保守可能な技術ソリューションに変換できます。 ------ 登録の詳細については、https://t.co/SgMGfxMeo4（検索）をご覧ください。

Y11（@seclink）のスレッド

作者情報

スレッド内容