Apple Silicon向けSwiftLM、TurboQuant KVキャッシュ圧縮とSSD Expert Streamingを実装

⚡ ニュース

TL;DR

SharpAIがMLXベースの推論サーバSwiftLMを発表。M5 Pro対応のTurboQuant技術でKVキャッシュを3.5倍圧縮、122B超大型モデルをiOS/macOSで動作可能に。

何が起きたか

SharpAIがSwiftLMを発表。Apple SiliconネイティブのSwift推論サーバで、MLXモデルをOpenAI互換API経由で動作させる。最大の特徴は、TurboQuant技術を統合したKVキャッシュ圧縮（3.5倍）と、SSD Expert Streaming機能。これにより大規模言語モデルをMacBook Proで実運用可能に。Python ランタイム、GIL、不要なメモリコピー一切不要。

背景と経緯

大型言語モデルのローカル実行は、メモリ制約が大きな課題。特に「Mixture of Experts (MoE)」アーキテクチャの大規模モデルは、Unified MemoryへのスワップでmacOS Watchdog OS カーネルパニックを引き起す。従来はPython + llama.cppが標準だったが、GILによるオーバーヘッド、メモリコピーロスが無視できず。SwiftLMは「ベアメタルApple Silicon性能」を重視し、Swift + Metal Native実装で根本的に再設計された。

技術的な詳細

TurboQuant KVキャッシュ圧縮アーキテクチャ

SwiftLMはハイブリッドV2+V3 TurboQuantを実装。従来のTurboQuantは2つの路線で分裂していた：

方式	特徴	課題
V2（ハードウェア高速化版）	線形affine量子化、高速	3-bitで品質低下
V3（論文準拠版）	非線形Lloyd-Max符号帳、高品質	ソフトウェア逆量子化が遅い

SwiftLMの突破口：

V3のLloyd-Max符号帳をネイティブC++符号化パスに移植
逆量子化をfused Metal シェーダーで実行 (bggml-metal)
結果：V3品質でV2速度 を実現。Python オーバーヘッド完全排除

K-Cache圧縮：3-bit PolarQuant + 1-bit QJL = 4.25 bits/dim

【K-Cache圧縮フロー】
L2ノルム抽出＆正規化：x̂ = x / ‖x‖
Fast Walsh-Hadamard Transform (WHT) 回転で外れ値を分散
3-bit非線形Lloyd-Max符号帳で各座標を量子化
残差誤差を計算
Johnson-Lindenstrauss (QJL) 行列で投影、1-bit符号を格納

QJL採用理由：内積注目度スコアリング時の符号帳解像度低下を抑制するレギュライザーとして機能

V-Cache圧縮：3-bit PolarQuant = 3.125 bits/dim

V-キャッシュは注意機構のスコアリングに使用されないため、QJL補正は不要。QJLを無効化して追加25%メモリ削減を実現。

graph LR A["入力テンソル"] --> B["L2正規化"] B --> C["WHT回転"] C --> D["3-bit PolarQuant"] D --> E["K-cache: 4.25 b/d"] D --> F["残差計算"] F --> G["1-bit QJL投影"] G --> E C --> H["V-cache: 3.125 b/d"]

SSD Expert Streaming

大規模モデルのMoE層をNVMe SSDから直接GPU command bufferにストリーミング。macOS Unified Memoryスワップを完全バイパス（ゼロコピー）。Watchdog OS パニック回避。

影響範囲

テスト済みハードウェア

マシン：MacBook Pro
メモリ：64 GB Unified Memory
SSD：内部Apple NVMe（ゼロコピーストリーミング対応）

サポート機能

⚠️ 対応済み：MoEモデルの推論実行、OpenAI互換API経由のアクセス

主な機能

macOS サーバー機能

🍎 100% Native Apple Silicon：MetalとSwiftによるネイティブ実装
🔌 OpenAI互換API：OpenAI SDK に対する drop-in 置き換え対応
- /v1/chat/completions
- ストリーミング対応
- システムプロンプト対応
🧠 Smart Model Routing：HuggingFace形式モデルを直接ロード、Safetensors 自動解析
⚡ TurboQuantization統合：カスタム低レベルMLX Metal プリミティブでKVキャッシュ即座量子化
💾 SSD Expert Streaming：ゼロコピー・MoE層直接ストリーミング（実験段階）
🎛️ Granular Memory Control：Layer Partitioning (--gpu-layers)、Wisdom Auto-Calibration 搭載

試してみるには

macOS サーバーの最速セットアップ（Pre-built Binary）

# 1. Releases から最新版 tarball をダウンロード
tar -xzf SwiftLM-<version>-macos-arm64.tar.gz

# 2. 解凍ディレクトリから実行（default.metallib同梱、同じディレクトリに配置必須）
./SwiftLM --model mlx-community/Qwen2.5-3B-Instruct-4bit --port 5413

ソースからビルド

# リポジトリをクローン（mlx-swift サブモジュール必須）
git clone --recursive https://github.com/SharpAI/SwiftLM
cd SwiftLM

# ビルド
swift build -c release

# default.metallib を.build/release/ に配置
cp LocalPackages/mlx-swift/Source/Cmlx/mlx/mlx/backend/metal/kernels/default.metallib \
  .build/release/

# 実行（SSD Expert Streaming 有効）
.build/release/SwiftLM \
  --model <HuggingFace-model-id> \
  --stream-experts \
  --port 5413

API テスト例

curl http://localhost:5413/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen-model",
    "stream": true,
    "messages": [
      {"role": "system", "content": "You are a helpful assistant. Output strictly in JSON format."},
      {"role": "user", "content": "Provide a JSON response with a key and a reason."}
    ]
  }'

コマンドラインオプション一覧

オプション	デフォルト	説明
`--model`	必須	HuggingFace モデルID またはローカルパス
`--port`	5413	リッスンポート
`--host`	127.0.0.1	バインドホストアドレス
`--max-tokens`	2048	生成トークン上限
`--gpu-layers`	モデルデフォルト	GPU割当層数制限
`--stream-experts`	false	MoE Expert マトリクスのSSDストリーミング有効化（実験段階）

業界への影響

ローカルLLM推論の門戸低下：Pythonランタイム不要化で配布・保守が簡略化
プライバシー強化：クラウド依存排除、デバイス内完結推論
コスト削減：API呼び出しコスト、ネットワーク遅延排除
Edge AI標準化：Apple Siliconデバイスでの実在的なAI アプリケーション開発が現実化
大型モデルの民主化：従来は大規模GPU環境必須だった大規模モデルがMacBook Proで動作

技術的な注意点

⚠️ Metal GPU エラー対応

Failed to load the default metallib が発生した場合、バイナリと default.metallib が同じディレクトリに있는지確認。バイナリのみ移動した場合エラーが発生。

⚠️ MLX バージョンマッチング

Pythonの mlx-metal パッケージは使用禁止。pip mlx-metal は本バイナリのコンパイル対象と異なるMLXバージョン。バージョン不一致時GPU kernel ABIが破壊され、クラッシュが発生。必ず LocalPackages/mlx-swift/Source/Cmlx/mlx/mlx/backend/metal/kernels/default.metallib を使用。

参考実装・論文

TheTom/llama-cpp-turboquant：C・Metal GPU実装の参考。Fast Walsh-Hadamard Transform (turbo-wht.h)、Lloyd-Max符号帳、量子化/逆量子化ロジックをSwiftLMに移植
TheTom/turboquant_plus：Python参照実装、アルゴリズム検証用
TurboQuant 論文：”TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate” (Zandieh et al., AISTATS/ICLR 2026、arXiv:2504.19874)
amirzandieh/QJL：1-bit Quantized Johnson-Lindenstrauss実装（論文著者オリジナル）