Ollamaが、Appleの機械学習フレームワークMLXを搭載したプレビュー版(バージョン0.19)をリリースした。これにより、Apple SiliconデバイスでのLLM実行速度が大幅に向上する。テストに使用されたAlibabaのQwen3.5-35B-A3Bモデルで、プリフィル性能は従来の1154 tokens/sから1810 tokens/s(57%向上)、デコード性能は58 tokens/sから112 tokens/s(93%向上)を記録。Apple SiliconデバイスにおけるGPU Neural Acceleratorが活用されている。
OllamaはmacOS上でローカルLLM実行を簡単にするツールだが、これまではApple Siliconの特性を十分に活かしきれていなかった。MLXはAppleが開発した統一メモリアーキテクチャを活かした専用フレームワークで、GPU処理とメモリ効率に優れている。本統合により、MacユーザーがローカルAIをより高速に利用可能になり、開発環境やコーディングアシスタント活用に大きなメリットが生まれる。
| 改善項目 | 詳細 |
|---|---|
| メモリ再利用 | 複数の会話でキャッシュを再利用し、メモリ使用量を削減 |
| ブランチ処理での効率化 | 共有システムプロンプトを用いた場合、分岐時のキャッシュヒット率が向上 |
プリフィル性能(tokens/s)
┌──────────────────────────────────────┐
│ Ollama 0.18: 1154 tokens/s │
│ Ollama 0.19: 1810 tokens/s (+57%) │ ⭐
└──────────────────────────────────────┘
デコード性能(tokens/s)
┌──────────────────────────────────────┐
│ Ollama 0.18: 58 tokens/s │
│ Ollama 0.19: 112 tokens/s (+93%) │ ⭐
└──────────────────────────────────────┘
※テスト環境:2026年3月29日実施
※モデル:Alibaba Qwen3.5-35B-A3B (NVFP4量子化)
※注記:ソース情報が不完全のため、詳細な実装仕様は別途確認を推奨
Apple SiliconデバイスにおいてOllama 0.19はMLXフレームワークを基盤として統一メモリアーキテクチャを活用。GPU処理とCPU間のデータ効率化により、推論パフォーマンスの向上を実現する。
# 基本的な実行
ollama run qwen3.5:35b-a3b-coding-nvfp4
| 項目 | 詳細 |
|---|---|
| 最小メモリ要件 | 32GB統一メモリ |
| 対応チップ | Apple Silicon(GPU Neural Accelerator搭載) |
| バージョン | Ollama 0.19(プレビュー) |
| テスト対象モデル | Qwen3.5-35B-A3B(コーディング用) |
この記事はAI業界の最新動向を速報でお届けする「AI Heartland ニュース」です。