Breaking News

2026.03.31 17:08 text-generation coding automation

Ollama、Apple SiliconでMLX搭載へ。M5チップで最大3倍高速化を実現

⚡ ニュース

TL;DR

OllamaがAppleの機械学習フレームワークMLXを搭載。M5チップで1810tokens/sを達成し、NVFPアソート量子化対応で本番環境パリティを実現。

何が起きたか

Ollamaが、Appleの機械学習フレームワークMLXを搭載したプレビュー版（バージョン0.19）をリリースした。これにより、Apple SiliconデバイスでのLLM実行速度が大幅に向上する。テストに使用されたAlibabaのQwen3.5-35B-A3Bモデルで、プリフィル性能は従来の1154 tokens/sから1810 tokens/s（57%向上）、デコード性能は58 tokens/sから112 tokens/s（93%向上）を記録。Apple SiliconデバイスにおけるGPU Neural Acceleratorが活用されている。

背景と経緯

OllamaはmacOS上でローカルLLM実行を簡単にするツールだが、これまではApple Siliconの特性を十分に活かしきれていなかった。MLXはAppleが開発した統一メモリアーキテクチャを活かした専用フレームワークで、GPU処理とメモリ効率に優れている。本統合により、MacユーザーがローカルAIをより高速に利用可能になり、開発環境やコーディングアシスタント活用に大きなメリットが生まれる。

主な新機能と改善

1. MLXベースの高速化

Apple Silicon上のGPU Neural Acceleratorを活用
統一メモリアーキテクチャにより、CPU-GPU間のデータ転送効率が向上
プリフィル（初回トークン生成）とデコード（逐次生成）の両方で高速化

2. NVFP4量子化フォーマット対応

NVIDIAが提供するNVFP4フォーマットをサポート
モデル精度を維持しながらメモリ帯域幅と保存容量を削減
本番環境と同じ推論結果を得られる「Production Parity」を実現
NVIDIA Model Optimizerで最適化されたモデルの実行が可能

3. キャッシング機能の大幅改善

改善項目	詳細
メモリ再利用	複数の会話でキャッシュを再利用し、メモリ使用量を削減
ブランチ処理での効率化	共有システムプロンプトを用いた場合、分岐時のキャッシュヒット率が向上

4. 対応モデル

Qwen3.5-35B-A3B（コーディング最適化版）をプレビューで提供

性能比較：Ollama 0.18 vs 0.19

プリフィル性能（tokens/s）
┌──────────────────────────────────────┐
│ Ollama 0.18: 1154 tokens/s           │
│ Ollama 0.19: 1810 tokens/s (+57%)   │ ⭐
└──────────────────────────────────────┘

デコード性能（tokens/s）
┌──────────────────────────────────────┐
│ Ollama 0.18: 58 tokens/s             │
│ Ollama 0.19: 112 tokens/s (+93%)    │ ⭐
└──────────────────────────────────────┘

※テスト環境：2026年3月29日実施
※モデル：Alibaba Qwen3.5-35B-A3B (NVFP4量子化)
※注記：ソース情報が不完全のため、詳細な実装仕様は別途確認を推奨

技術的詳細：MLXとの統合

Apple SiliconデバイスにおいてOllama 0.19はMLXフレームワークを基盤として統一メモリアーキテクチャを活用。GPU処理とCPU間のデータ効率化により、推論パフォーマンスの向上を実現する。

試してみるには

必要要件

Mac with 32GB以上の統一メモリ
Ollama 0.19以上

セットアップコマンド

# 基本的な実行
ollama run qwen3.5:35b-a3b-coding-nvfp4

影響範囲と対応状況

項目	詳細
最小メモリ要件	32GB統一メモリ
対応チップ	Apple Silicon（GPU Neural Accelerator搭載）
バージョン	Ollama 0.19（プレビュー）
テスト対象モデル	Qwen3.5-35B-A3B（コーディング用）

業界への影響

開発効率向上：ローカル実行によるレイテンシー削減でAI統合開発フローの実現性が高まる
プライバシー強化：エンタープライズユーザーがデータをクラウドに送信せずにLLM活用可能に
本番環境パリティ：NVFP4対応でローカル開発環境と本番推論環境の結果一致を保証
Mac生態系の強化：AppleがMLXで整備した最適化エコシステムをOllamaが活用することで、Macでの高品質なAIツール利用が可能に

参考リンク

この記事はAI業界の最新動向を速報でお届けする「AI Heartland ニュース」です。

よくある質問

Q. Ollama 0.19が必要とするMacのスペックは？

32GB以上の統一メモリを搭載したMac、かつApple Silicon上のGPU Neural Acceleratorを備えたデバイスが必須。記事では具体的なチップモデルについては記載されていない。

Q. MLXとは何で、なぜOllamaに統合されたのか？

MLXはAppleの機械学習フレームワーク。Apple Siliconの統一メモリアーキテクチャを活かすように最適化されており、本統合でプリフィル性能が57%、デコード性能が93%向上した。

Q. NVFP4量子化フォーマットのメリットは？

NVIDIAが提供するフォーマットで、モデル精度を保ちながらメモリ帯域幅と保存容量を削減。本番環境と同じ推論結果が得られる『Production Parity』を実現。

Q. 複数の会話でキャッシュを再利用するとメモリ削減になるのか？

はい。改善されたキャッシュ機能により、複数の会話でキャッシュを再利用でき、メモリ使用量が削減される。特に共有システムプロンプトを用いた場合、分岐時のキャッシュヒット率が向上する。

Q. Ollama 0.19でQwen3.5以外のモデルは使えるのか？

記事本文では、プレビュー段階ではQwen3.5-35B-A3Bのテストが報告されている。他のモデル対応について具体的な情報は記事に記載されていない。

X 🧵 FB LINE B!

← 【速報】JavaScript主流ライブラリAxios、NPM供給チェーン攻撃でRAT配布 Phuc Nt My Translator：複数言語対応の翻訳ツールをOSSで実装 →