AIモデルが研究段階からプロダクション環境へと移行するにつれ、選択する推論エンジンによって、レイテンシ、スループット、そしてインフラコストが決定されます。オープンソースのエコシステムは現在、3つの有力な候補に集約されています。それぞれが独自のアーキテクチャ哲学とトレードオフを持っています。
本記事では、2026年後半に向けて最も重要となる3つのエンジン、SGLang、vLLM、MAX (Modular) について詳しく解説します。それぞれの機能、長所と短所、そして直接比較した結果を網羅しています。
SGLang
GitHub: sgl-project/sglang (~25K stars) · ライセンス: Apache 2.0 · 最新版: v0.5.9 (2026年2月)
概要
SGLang (Structured Generation Language) は、LLMおよびマルチモーダルモデル向けの高性能サービングフレームワークです。元々はLMSYS.orgチームによってUC BerkeleyのSky Computing Labで開発されました。2026年1月、SGLangプロジェクトは商用スタートアップ RadixArk としてスピンアウトし、Accelが主導しIntelのCEOであるLip-Bu Tan氏がエンジェル投資家として参加したラウンドで約4億ドルの評価額を記録しました。共同創設者兼CEOのYing Sheng氏は、以前xAIでリサーチサイエンティストを務めていました。
SGLangの核となる革新は、Radix Tree(基数木)データ構造を使用して、自動的かつきめ細かなKVキャッシュの再利用を行う RadixAttention です。これにより、マルチターンの会話、RAGパイプライン、および共有プレフィックスを持つあらゆるワークロードにおいて、圧倒的な高速化を実現します。その構造化出力エンジン(xgrammarバックエンド)は、オープンソースの中で最速であり、他の代替手段と比較して最大10倍高速なJSONデコーディングを提供します。
SGLangは現在、世界中で40万枚以上のGPUで稼働しており、毎日数兆トークンを生成しています。主な導入企業には、xAI(デフォルトのLLMエンジンとして採用)、AMD、NVIDIA、LinkedIn、Cursorなどがあります。
Fish Audio S2とSGLang: Fish AudioのS2モデル(1,000万時間以上の多言語オーディオで学習された4Bパラメータのデュアル自動回帰TTSアーキテクチャ)は、構造的に標準的な自動回帰LLMと同型です。これは、連続バッチング、Paged KVキャッシュ、CUDAグラフのリプレイ、RadixAttentionといったSGLangのすべての最適化をネイティブに継承できることを意味します。音声クローニングのワークロードにおいて、RadixAttentionはリファレンスオーディオのKV状態をキャッシュし、平均 86.4% のプレフィックスキャッシュヒット率を達成します。これはプロダクション環境でのTTSサービングにおいて大幅な効率向上をもたらします。Fish Audioは、SGLangを第一級のサポート対象としてS2をオープンソース化しました。
長所
- 最高クラスのスループット — バッチスループットのベンチマークにおいてvLLMより約29%高速(H100, Llama 3.1 8B, ShareGPT 1Kプロンプト:約16,200 tok/s vs 約12,500 tok/s)
- RadixAttention により、マルチターンチャットで10〜20%、プレフィックスの多いRAGワークロードで最大6.4倍の高速化を実現
- 最速の構造化出力 — xgrammarバックエンドは、制約付きJSON/文法デコーディングにおいて他社の3〜10倍高速
- 幅広いモダリティ対応 — 60以上のLLMファミリー、30以上のマルチモーダルモデル、埋め込み/報酬モデル、拡散モデル(画像・動画、最大5倍高速)、およびTTS (Fish Audio S2) をサポート
- 強力なRL統合 — 強化学習トレーニングループ用のMilesフレームワーク(RadixArk提供)
- 幅広いハードウェアサポート — NVIDIA (GB200 → RTX 4090)、AMD MI300X/MI355、Google TPU (SGLang-Jax経由)、Intel Xeon、Ascend NPU、Apple Silicon (MLX)
- 活発なリリースサイクル — 約3週間ごとのリリース、新しいモデルへの迅速な対応(96枚のH100上でのP/D分離によるDeepSeek R1の大規模実行を最初に実現)
短所
- コミュニティ規模が比較的小さい — GitHubスター数は約2.5万(vLLMは約7.5万)。サードパーティの統合やチュートリアルが少ない
- Linux専用 — WindowsではWSLが必要。macOSでのネイティブGPUサービングには未対応
- Python GILのボトルネック — リクエストルーターが約150件以上の同時リクエストでスケーリング限界に達する
- 限定的なGGUFサポート — llama.cppと比較して、量子化されたエッジデバイスへのデプロイには最適ではない
- 安定性 — リリース候補版の依存関係で時折問題が発生することがあり、極端なエンタープライズのケースにおける検証がvLLMほどではない
vLLM
GitHub: vllm-project/vllm (~75K stars) · ライセンス: Apache 2.0 · 最新版: v0.19.0 (2026年4月)
概要
vLLMは、最も広く採用されているオープンソースのLLM推論エンジンであり、事実上の業界標準です。Amazon (2億5,000万人の顧客にサービスを提供するRufus)、LinkedIn、Roblox (週40億トークン)、Meta、Mistral AI、IBM、および Stripe (推論コストを73%削減と報告) のプロダクションシステムを支えています。vLLMの開発チームは Inferact を設立し、プロジェクトの商用化のために2026年1月に1億5,000万ドルを調達しました。
vLLMの基盤となる革新は PagedAttention です。これはOSの仮想メモリ管理から着想を得て、KVキャッシュを不連続なブロックに分割することで、GPUメモリの無駄を最大80%削減します。V1アーキテクチャの刷新(v0.8.0以降デフォルト、2025年第3四半期までにV0を完全に置き換え)により、エンジンはスケジューラ、エンジンコア、GPUワーカーがZeroMQを介して通信するマルチプロセス構成に再構築され、従来の設計よりも最大1.7倍高いスループットを実現しています。
vLLMは、テキストLLM (Llama 3/4, Qwen 3, DeepSeek V3, Gemma 4, GPT-OSS)、ビジョン言語モデル (InternVL, Qwen2.5-VL, Pixtral)、オーディオモデル (Qwen3-ASR/Omni)、埋め込みモデルなど、あらゆるエンジンの中で最も幅広いモデルとハードウェアをサポートしています。独立した vLLM-Omni プロジェクトにより、拡散モデルやTTSモデルへのサポートも拡大しています。ハードウェアは、NVIDIA、AMD ROCm、Intel XPU/Gaudi、Google TPU、AWS Trainium、ARM CPU、およびIBM Zメインフレームに対応しています。
長所
- 業界標準 — 約7.5万のGitHubスター、リリースごとに200人以上のコントリビューター、チュートリアル、ガイド、統合の最大のエコシステム
- 最高の互換性 — 他のどのエンジンよりも多くのサポート対象モデルアーキテクチャとハードウェアバックエンドを持つ
- 実績のある安定性 — 大規模環境 (Amazon, Roblox, Stripe, Meta) で徹底的にテストされている
- V1アーキテクチャ — 設定不要の最適化、自動プレフィックスキャッシュ、統合されたチャンクプレフィルを搭載。v0.16.0では非同期スケジューリングによりスループットが30.8%向上
- OpenAI互換API — OpenAIのエンドポイントとそのまま置き換えが可能
- 強力なKubernetes対応 — 分離型サービングのための公式プロダクションスタックおよび llm-d プロジェクト (Red Hat, Google Cloud, IBM, NVIDIA) が存在
- 高コンカレンシーでのスケーリング — C++ベースのルーティングにより、Pythonベースの代替手段よりも150以上の同時リクエストを効率的に処理
短所
- スループットが約29%低い — 共有プレフィックスのワークロードにおけるバッチベンチマークでSGLangに劣る
- プレフィックスキャッシュの効率 — PagedAttentionには、SGLangのような自動的なRadix Treeベースのプレフィックス再利用機能がない
- 開発スピードの速さによる影響 — 安定性を上回るペースで更新されることがあり、V1への移行時に一部の機能 (best_of, リクエストごとのlogitsプロセッサ) が削除された
- GPU重視 — CPUへのフォールバック時のパフォーマンスが限定的
- 構造化出力 — 制約付きデコーディングにおいてSGLangのxgrammarよりも低速
MAX (Modular)
GitHub: modular/modular (~25.6K stars) · ライセンス: Apache 2.0 + LLVM Exceptions (オープンソースカーネル、標準ライブラリ、モデルアーキテクチャ、サービングライブラリ); Modular Community License (コンパイラバイナリ) · 最新版: v26.2 (2026年3月) · ウェブサイト: Modular
概要
MAXは、vLLMやSGLangとは根本的に異なるアプローチをとっています。他のエンジンが既存のCUDAライブラリ (cuBLAS, cuDNN, FlashAttention, FlashInfer) の上に構築されているのに対し、MAXはCUDAへの依存なしに、GPUカーネル (Mojo) からモデルサービング (MAX Serve)、クラスターオーケストレーション (BentoML + Modular Cloud) まで、推論パイプライン全体をMLIR上でゼロから構築した唯一の垂直統合型推論スタックです。
注意: プラットフォームとしてのMAXは推論エンジン以上の機能を持ち、PyTorchに近いモデル開発API (
model.compile(), eager mode) も含んでいます。MAX Serve は、vLLMやSGLangと直接競合する推論サービングコンポーネントです。簡略化のため、本記事ではこれらを「MAX」という名称で比較します。
MAXは、LLVM、Clang、Swift、MLIRの生みの親であるChris Lattner氏と、TensorFlow Liteの共同開発者でGoogleにて数十億台のデバイスへのML導入を主導したTim Davis氏によって2022年に設立された Modular AI によって開発されています。同社は評価額16億ドルで3億8,000万ドルを調達しました。MLIR上に構築されたシステムプログラミング言語 Mojo により、ハードウェアに依存しないカーネルを実現し、単一のコードベースからNVIDIA、AMD、Apple Silicon、CPUをターゲットにでき、Dockerイメージは700MB以下に抑えられています。
Modularは、商用グレードのGPUカーネル、完全な標準ライブラリ、モデルアーキテクチャ、MAXサービングライブラリを含む75万行以上のMojoコードをApache 2.0 (LLVM Exceptions付き) でオープンソース化しました。Mojoコンパイラ自体も、Mojo 1.0のリリースに合わせて2026年にオープンソース化される予定です。2026年2月、Modularは1万以上の組織で使用されているオープンソースのモデルデプロイフレームワーク BentoML を買収し、スタックをプロダクションデプロイとクラウドオーケストレーションまで拡張しました。
MAXは、Hugging Faceの500以上のモデルをサポートしており、テキスト、ビジョン言語 (Qwen2.5-VL, Kimi VL, Gemma 3/4)、および画像生成 (FLUX) を含みます。
長所
- 唯一の完全非CUDA推論スタック — Mojoカーネルが cuBLAS, cuDNN, FlashAttention を単一のポータブルなコードベースで置き換え。行列演算カーネルはB200で1,772 TFLOPSを記録し、cuBLASを凌駕
- 競争力のある、あるいは優れたスループット — NVIDIA L40上のQwen3-8Bにおいて、MAXは500プロンプトを50.6秒で完了(SGLangは54.2秒、vLLMは58.9秒で、vLLMより16%高速)。Vast.ai上のLlama 3.1 8Bでは89.9 tok/sを記録し、vLLMの75.9 tok/sより18%高速で、TTFTはほぼ半分
- 最小のテールレイテンシ — L40のベンチマークにおいて p99 TTFT が13.1ms(vLLMは23.6ms)
- ハードウェアポータビリティ — Mojoカーネルは単一のコードベースからNVIDIA、AMD、Apple Silicon、CPU向けにコンパイル可能。CUDA/ROCmの実装を個別に維持する必要がない
- 最小のコンテナサイズ — Dockerイメージは700MB以下。vLLMやSGLangよりも大幅に軽量
- 最先端の画像生成 — LLMと同じコンテナおよびAPIで拡散モデル (FLUX.2, SDXL) をネイティブに提供。B200で torch.compile より4.1倍高速な推論が可能
- カスタムカーネル開発 —
model.compile()を備えたPyTorchのようなeager modeにより、カスタムMojoカーネルの記述が可能。参照用のオープンソースカーネル実装も完備 - 深いオープンソースコンパイラのルーツ — vLLMの名前の由来にもなったLLVMの生みの親、Chris Lattner氏が主導。LLVMを業界標準にしたコミュニティ駆動のアプローチがMAXとMojoにも適用されている
- 3億8,000万ドルの資金 — 豊富な資金力と強力なエンジニアリングチーム(337名)を擁する
短所
- ハードウェアに依存するパフォーマンス — NVIDIA B200やAMD MI355Xでは優れているが、GPUの世代によってパフォーマンスに差があり、すべてのハードウェアで一律に最速というわけではない
- Mojoコンパイラが未だオープンソースではない — Mojo 1.0に合わせて2026年に公開予定。ただし、標準ライブラリ、カーネル、モデルアーキテクチャなどはすでに公開済み(75万行以上)
- 発展途上のエコシステム — vLLMほどプロダクション環境での実績が蓄積されていない。コミュニティによるモデル実装が比較的少ない
- サポート対象アーキテクチャの少なさ — 500以上のモデルは印象的だが、最新モデルやニッチなモデルへの対応はvLLM/SGLangの方が依然として広い
- カーネル開発におけるMojoの学習曲線 — MojoはPythonのスーパーセットとして設計されているが、高度なGPUカーネル開発には新しい概念の習得が必要
- 分離型推論とオーケストレーションがオープンソース版にない — 分離型プレフィル/デコード、KVキャッシュ対応ルーティング、マルチモデルオーケストレーション、混合GPUフリート間でのオートスケーリングなどの機能はModular Cloud経由での提供となり、セルフホストのCommunity Editionには含まれない
直接比較表
| 機能 | SGLang | vLLM | MAX (Modular) |
|---|---|---|---|
| GitHub Stars | ~25,000 | ~75,000 | ~25,600 |
| ライセンス | Apache 2.0 | Apache 2.0 | Apache 2.0 + LLVM Exc. (カーネル/標準ライブラリ/サービング); Modular Community License (コンパイラ) |
| 商業団体 | RadixArk (評価額4億ドル) | Inferact (1.5億ドル調達) | Modular AI (評価額16億ドル) |
| 核となる革新 | RadixAttention (基数木KVキャッシュ) | PagedAttention (仮想メモリKVキャッシュ) | フルスタックMLIRコンパイラ、CUDA依存なし |
| バッチスループット (H100, Llama 3.1 8B) | ~16,200 tok/s | ~12,500 tok/s | 競争力あり(ハードウェア依存) |
| マルチターン / プレフィックス再利用 | 最高 (10–20% 向上, 最大6.4倍) | 良好 (V1から自動化) | 良好 |
| 構造化出力の速度 | 最速 (xgrammar, 3–10倍) | 標準 | 標準 |
| p99 TTFT (L40, Qwen3-8B) | ~18ms | ~23.6ms | ~13.1ms (最高) |
| 同時リクエストのスケーリング | ~150以上でGIL制限あり | 最高 (C++ルーティング) | 良好 |
| モデルサポート | 60以上のLLM、30以上のマルチモーダル、拡散、TTS | 最も幅広い (テキスト, ビジョン, オーディオ, 埋め込み, omni) | 500以上のHuggingFaceモデル |
| ハードウェアサポート | NVIDIA, AMD, TPU, Intel, Ascend, Apple Silicon | NVIDIA, AMD, Intel, TPU, Trainium, ARM, IBM Z | NVIDIA, AMD, Apple Silicon, CPU |
| Kubernetes / デプロイ | コミュニティ主導 | Production Stack + llm-d | Mammoth + BentoML |
| コンテナサイズ | ~5–8 GB | ~5–8 GB | <700 MB |
| カスタムカーネル開発 | FlashInfer 拡張 | C++/CUDA 拡張 | Mojo (PyTorchのような操作性) |
| 拡散モデルのサポート | あり (SGLang-Diffusion, 2025年11月) | あり (vLLM-Omni, 2025年11月) | あり (FLUX, torch.compileより4.1倍高速) |
| TTS / オーディオサービング | あり (Fish Audio S2) | あり (vLLM-Omni, Fish Speech) | 限定的 |
| RLトレーニング統合 | あり (RadixArkによるMiles) | なし | なし |
| 投機的デコーディング | あり | あり (Robloxでレイテンシ50%削減) | あり |
| 分離型プレフィル/デコード | あり (96枚のH100で実稼働中) | あり (llm-dプロジェクト) | あり (Modular Cloudのみ) |
選び方ガイド
SGLang を選ぶべきケース: マルチターンのチャットボット、RAGパイプライン、構造化JSON出力、またはTTSサービング(特に Fish Audio S2 を使用する場合)を最適化したい場合。SGLangのRadixAttentionとxgrammarバックエンドは、これらのワークロードにおいて測定可能なパフォーマンスの優位性を提供し、RadixArkによる商業的支援が長期的なサポートを保証します。
vLLM を選ぶべきケース: 最も安全で、プロダクション実績があり、モデルやハードウェアの互換性が最も広い選択肢が必要な場合。7.5万のスターを誇るコミュニティ、大手企業(Amazon, Roblox, Stripe)への導入実績、および包括的なKubernetesサポートにより、大規模な汎用LLMサービングにおいて最もリスクの低い選択肢となります。
MAX を選ぶべきケース: 複数のハードウェア環境(NVIDIA + AMD + CPU)を運用している場合、コンテナサイズや運用のシンプルさを重視する場合、あるいはMojoを使用してカスタムカーネルを開発したい場合。MAXのコンパイラ駆動アプローチは独自の柔軟性を提供し、BentoMLの買収により3つの中で最も完成度の高いデプロイプラットフォームとなっています。
2026年の推論トレンド
3つのトレンドが競争環境を再定義しています。
分離型 (Disaggregated) プレフィル/デコード は実験的な段階から標準機能へと移行しました。SGLangはDeepSeek向けに96枚のH100で大規模なP/Dを実証し、vLLMの llm-d プロジェクト (Red Hat, Google Cloud, IBM, NVIDIA) はKubernetesネイティブな分離を推進しています。また、NVIDIAのDynamoオーケストレーターは主要なすべてのエンジンと統合されています。
マルチモーダルサービング が急速に拡大しています。vLLM-OmniとSGLang-Diffusionはともに2025年後半にリリースされ、従来のLLMに加えて拡散モデルやTTSをサポートしています。「LLMエンジン」と「汎用モデルサーバー」の境界線が曖昧になりつつあります。
商業的な集約 が加速しています。RadixArk (評価額4億ドル)、Inferact (vLLMのために1.5億ドル調達)、そしてModular (評価額16億ドル + BentoML買収) はいずれも、オープンソースの推論技術が企業による収益化フェーズに入ったことを裏付けています。HuggingFace TGIがメンテナンスモードに入ったことで、2026年後半に向けてSGLang、vLLM、MAXが主要な3つのオープンソース推論エンジンとしての地位を確立しました。
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
Sabrina Shuの他の記事を読む
