🏠 ホーム ニュース 📚 トピック解説 🏷️ タグ一覧 ℹ️ About
🔍 記事を検索
カテゴリ
📡 RSSフィード
Follow
X (Twitter) Threads
Quick Links
ニュース一覧 🏷️ タグから探す
🧠 Claude 🤖 Agent 💬 LLM 🔌 MCP 🛠️ Tool
Subscribe
📡 RSSフィード
Breaking News
2026.03.31 17:08 text-generation coding automation

Ollama、Apple SiliconでMLX搭載へ。M5チップで最大3倍高速化を実現

⚡ ニュース
AI Heartland News
TL;DR
OllamaがAppleの機械学習フレームワークMLXを搭載。M5チップで1810tokens/sを達成し、NVFPアソート量子化対応で本番環境パリティを実現。

何が起きたか

Ollamaが、Appleの機械学習フレームワークMLXを搭載したプレビュー版(バージョン0.19)をリリースした。これにより、Apple SiliconデバイスでのLLM実行速度が大幅に向上する。テストに使用されたAlibabaのQwen3.5-35B-A3Bモデルで、プリフィル性能は従来の1154 tokens/sから1810 tokens/s(57%向上)、デコード性能は58 tokens/sから112 tokens/s(93%向上)を記録。Apple SiliconデバイスにおけるGPU Neural Acceleratorが活用されている。

背景と経緯

OllamaはmacOS上でローカルLLM実行を簡単にするツールだが、これまではApple Siliconの特性を十分に活かしきれていなかった。MLXはAppleが開発した統一メモリアーキテクチャを活かした専用フレームワークで、GPU処理とメモリ効率に優れている。本統合により、MacユーザーがローカルAIをより高速に利用可能になり、開発環境やコーディングアシスタント活用に大きなメリットが生まれる。

主な新機能と改善

1. MLXベースの高速化

2. NVFP4量子化フォーマット対応

3. キャッシング機能の大幅改善

改善項目 詳細
メモリ再利用 複数の会話でキャッシュを再利用し、メモリ使用量を削減
ブランチ処理での効率化 共有システムプロンプトを用いた場合、分岐時のキャッシュヒット率が向上

4. 対応モデル

性能比較:Ollama 0.18 vs 0.19

プリフィル性能(tokens/s)
┌──────────────────────────────────────┐
│ Ollama 0.18: 1154 tokens/s           │
│ Ollama 0.19: 1810 tokens/s (+57%)   │ ⭐
└──────────────────────────────────────┘

デコード性能(tokens/s)
┌──────────────────────────────────────┐
│ Ollama 0.18: 58 tokens/s             │
│ Ollama 0.19: 112 tokens/s (+93%)    │ ⭐
└──────────────────────────────────────┘

※テスト環境:2026年3月29日実施
※モデル:Alibaba Qwen3.5-35B-A3B (NVFP4量子化)
※注記:ソース情報が不完全のため、詳細な実装仕様は別途確認を推奨

技術的詳細:MLXとの統合

Apple SiliconデバイスにおいてOllama 0.19はMLXフレームワークを基盤として統一メモリアーキテクチャを活用。GPU処理とCPU間のデータ効率化により、推論パフォーマンスの向上を実現する。

試してみるには

必要要件

セットアップコマンド

# 基本的な実行
ollama run qwen3.5:35b-a3b-coding-nvfp4

影響範囲と対応状況

項目 詳細
最小メモリ要件 32GB統一メモリ
対応チップ Apple Silicon(GPU Neural Accelerator搭載)
バージョン Ollama 0.19(プレビュー)
テスト対象モデル Qwen3.5-35B-A3B(コーディング用)

業界への影響

参考リンク


この記事はAI業界の最新動向を速報でお届けする「AI Heartland ニュース」です。

よくある質問
Q. Ollama 0.19が必要とするMacのスペックは?
32GB以上の統一メモリを搭載したMac、かつApple Silicon上のGPU Neural Acceleratorを備えたデバイスが必須。記事では具体的なチップモデルについては記載されていない。
Q. MLXとは何で、なぜOllamaに統合されたのか?
MLXはAppleの機械学習フレームワーク。Apple Siliconの統一メモリアーキテクチャを活かすように最適化されており、本統合でプリフィル性能が57%、デコード性能が93%向上した。
Q. NVFP4量子化フォーマットのメリットは?
NVIDIAが提供するフォーマットで、モデル精度を保ちながらメモリ帯域幅と保存容量を削減。本番環境と同じ推論結果が得られる『Production Parity』を実現。
Q. 複数の会話でキャッシュを再利用するとメモリ削減になるのか?
はい。改善されたキャッシュ機能により、複数の会話でキャッシュを再利用でき、メモリ使用量が削減される。特に共有システムプロンプトを用いた場合、分岐時のキャッシュヒット率が向上する。
Q. Ollama 0.19でQwen3.5以外のモデルは使えるのか?
記事本文では、プレビュー段階ではQwen3.5-35B-A3Bのテストが報告されている。他のモデル対応について具体的な情報は記事に記載されていない。
← 【速報】JavaScript主流ライブラリAxios、NPM供給チェーン攻撃でRAT配布 Phuc Nt My Translator:複数言語対応の翻訳ツールをOSSで実装 →