Torch コンパイルは、一般的に推論のレイテンシを迅速に改善するのに最適です。 これについては、こちらに書きました: https://t.co/MN072QDXzz
最適化されていない CPU コードの束縛から解放されるために、まだ多くのマイクロ秒を削減し、さらに多くの GPU を残す必要があります。 しかし、@modal チームは、お客様がインタラクティブな AI アプリケーションを提供できるよう支援する進歩をすでに達成できたことを嬉しく思っています。 ブログはこちらでご覧ください: https://t.co/ZeumrZqqAc