GitHub上で公開されたHypuraは、Apple Silicon(M1/M2/M3チップ)上でのLarge Language Model(LLM)推論を高速化するスケジューラ。開発者t8によるこのプロジェクトは、メモリ・SSD・GPUメモリといった複数の「ストレージ層」を意識した最適な推論スケジューリングを実現。従来のApple Silicon向け推論ツールが見落としていたメモリバンド幅の制約を正面から解決する設計となっている。
Hypuraの核となるのは「ストレージ階層認識スケジューリング」。Apple SiliconのUnified Memory構成では、GPU、CPU、SSD各層のアクセス速度が大きく異なる。Hypuraはこの差を計測・予測し、各層でのリソース配置を最適化することで、メモリバンド幅の効率的な利用を実現。
推論時においては、計算量と転送量のバランスを考慮し、各レイヤーの実行配置を自動化することで、全体的なパフォーマンス向上を目指す設計となっている。
| プロダクト | 特徴 | 対応チップ |
|---|---|---|
| Hypura | ストレージ階層最適化、動的スケジューリング | Apple Silicon |
| MLX(Apple Machine Learning) | NumPy互換API、統一メモリ活用 | Apple Silicon |
| llama.cpp | C++実装、汎用性高い | 複数(Apple含む) |
GitHub(https://github.com/t8/hypura)からクローン後、pip install -e .でインストール可能。Pythonスクリプトで推論を実行できる。Apple Silicon搭載MacBook上でのローカルモデル推論が可能。
この記事はAI業界の最新動向を速報でお届けする「AI Heartland ニュース」です。