この記事ではDevOps・自動化に特化して解説します。AI自動化・DevOps全般は AI自動化ツール完全ガイド2026|ノーコードからコードまで徹底比較 をご覧ください。

Ollama 0.19プレビューの概要

Ollamaが公式ブログで、Appleの機械学習フレームワーク MLX を統合したプレビュー版(v0.19)を発表した。Apple Silicon搭載Macでのローカル大規模言語モデル実行において、従来版と比較してプリフィル性能が57%、デコード性能が93%向上する結果が報告されている。

テストに使用されたモデルはAlibabaの Qwen3.5-35B-A3B(コーディング最適化版、NVFP4量子化)で、プリフィルは1,154 tokens/s から 1,810 tokens/s へ、デコードは58 tokens/s から 112 tokens/s へそれぞれ向上した。

Ollama 0.19 MLX 性能ハイライト
プリフィル: 1,154 → 1,810 tokens/s(+57%)
デコード: 58 → 112 tokens/s(+93%)
テストモデル: Qwen3.5-35B-A3B(NVFP4量子化)
最小要件: 32GB 統合メモリ Mac(Apple Silicon)

MLXとは何か:Apple Silicon専用ML基盤

MLX(Machine Learning eXchange)はAppleが2023年11月にオープンソース化した機械学習フレームワークだ。PyTorchやJAXに似たAPIを持ちながら、Apple Siliconの 統合メモリアーキテクチャ(Unified Memory Architecture) を最大限に活用するよう設計されている。

通常のGPU(NVIDIA)との大きな違いは、CPUとGPUが別々のメモリを持つのではなく、すべてのプロセッサが同一の物理メモリを共有している点にある。これにより:

  • ゼロコピー転送: CPU-GPU間のデータコピーが不要
  • 動的なリソース配分: モデルのどの部分をCPU/GPU/Neural Engineで処理するかを動的に決定
  • メモリ効率: 同じメモリ容量でより大きなモデルを扱える
graph TD subgraph "従来型GPU推論(NVIDIA等)" C1["CPU
(システムRAM)"] -->|"PCIe転送
(高レイテンシ)"| G1["GPU
(VRAM 分離)"] G1 -->|"結果転送"| C1 end subgraph "Apple Silicon + MLX(統合メモリ)" UM["統合メモリ
(CPU/GPU共有)"] UM --- CPU["CPU コア"] UM --- GPU["GPU コア"] UM --- NE["Neural Engine"] CPU <-->|"ゼロコピー"| GPU GPU <-->|"ゼロコピー"| NE end style UM fill:#e8f4fd style G1 fill:#f9f9f9

Ollama 0.19がMLXを採用したことで、Apple Siliconの統合メモリアーキテクチャを推論エンジンレベルで活用できるようになった。

主要な新機能の詳細

MLXバックエンドによる推論高速化

MLX統合の核心は、推論パイプライン全体をApple Silicon向けに最適化した点にある。

プリフィル(Prefill)はユーザーの入力プロンプトを一括処理して最初のトークンを生成するフェーズで、1,154 → 1,810 tokens/sの57%向上を達成した。長いシステムプロンプトや大量のコンテキストを処理する際に特に効果が出る。

デコード(Decode)はトークンを一つずつ逐次生成するフェーズで、58 → 112 tokens/sの93%向上を達成した。会話の流れの中での応答速度に直結する部分で、ユーザー体験への影響が最も大きい。

NVFP4量子化フォーマットの対応

NVIDIAが開発した NVFP4(4ビット浮動小数点)量子化フォーマットをサポートした。これは従来のINT4量子化と異なり、浮動小数点の表現精度を保ちながらモデルサイズを削減できる。

Production Parity」という表現でOllama公式ブログが強調しているのは、NVFP4量子化モデルがNVIDIA GPU上での本番推論と同等の精度を保つという意味だ。開発環境のMacと本番環境のGPUサーバーで結果の再現性が保てる。

キャッシング機能の大幅改善

改善項目 詳細 ユースケース
会話横断キャッシュ 複数の会話セッション間でKVキャッシュを再利用 AIアシスタント、継続的な開発支援
ブランチキャッシュ効率化 共有システムプロンプト使用時の分岐ヒット率向上 エージェント系ツール、RAGシステム

これはコーディングアシスタントとして使う場合に特に重要だ。毎回の会話でシステムプロンプト(数百トークン)を再処理する必要がなくなる。

インストールと動作確認

# Ollama 0.19 プレビュー版のインストール
# 公式サイトからダウンロードするか、brewで最新版を取得
brew install ollama

# または直接インストールスクリプト
curl -fsSL https://ollama.com/install.sh | sh

# バージョン確認
ollama --version
# Qwen3.5-35B-A3B(NVFP4量子化版)を実行
ollama run qwen3.5:35b-a3b-coding-nvfp4

# モデル一覧を確認
ollama list

# 実行中のモデルとリソース使用状況を確認
ollama ps
# API経由でのアクセス(OpenAI互換)
curl http://localhost:11434/api/generate \
  -d '{
    "model": "qwen3.5:35b-a3b-coding-nvfp4",
    "prompt": "Write a Go function to parse JSON",
    "stream": false
  }'

# OpenAI SDK互換モードで使用
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:35b-a3b-coding-nvfp4",
    "messages": [
      {"role": "user", "content": "Explain unified memory in Apple Silicon"}
    ]
  }'
セットアップと動作要件チェックリスト
□ Apple Silicon Mac(M1/M2/M3/M4シリーズ)
□ 統合メモリ 32GB以上(Qwen3.5-35Bの場合)
□ macOS Ventura以降推奨
□ Ollama 0.19(プレビュー)以降
□ モデルダウンロードに十分なストレージ(35Bモデルで約20GB)
□ ollama ps で GPU使用確認: "metal" バックエンドが表示されること

Apple Silicon推論環境の比較

ローカルLLM実行ツールとして Ollama の他に LM Studio と llama.cpp が主な選択肢だ。

ツール バックエンド セットアップ難易度 GUI API互換性 MLX対応
Ollama 0.19 Metal + MLX 低い(1コマンド) なし OpenAI互換 ✅ ネイティブ
LM Studio Metal / llama.cpp 低い(GUIインストーラ) あり OpenAI互換 ⚠️ 部分対応
llama.cpp Metal / CPU 高い(ビルド必要) なし 独自 ⚠️ 外部連携
MLX-LM(直接) MLX 中程度(Python環境) なし 独自 ✅ ネイティブ

Ollamaの強みはシンプルさとOpenAI互換APIにある。既存のOpenAI SDKを使ったコードの base_urlhttp://localhost:11434/v1 に変えるだけでローカル推論に切り替えられる。

LangChainなどのAIフレームワークはOllama互換のOpenAI APIを通じてローカルモデルを簡単に組み込める。

ユースケース別の推奨構成

MLXバックエンド統合によって恩恵を受けるユースケースを整理する。

graph LR subgraph "開発者ユースケース" CA["コーディング
アシスタント"] -->|"Qwen3.5-35B
(コーディング特化)"| O["Ollama 0.19
+ MLX"] RA["RAGシステム
構築"] -->|"埋め込み + 生成
全ローカル"| O AG["AIエージェント
実験"] -->|"高速プリフィル
(ツール呼び出し)"| O end subgraph "メリット" O --> P["プライバシー保護
データ外部送信なし"] O --> C["コスト削減
APIコール料金なし"] O --> L["低レイテンシ
ネットワーク不要"] end style O fill:#e8f4fd

特に効果が大きいシナリオ

  • コーディングエージェント: 長いコードコンテキスト(数千行)の処理でプリフィル高速化の恩恵が大きい
  • RAGシステム: 複数ドキュメントを参照する際の長大なプロンプト処理が高速化
  • プライバシー重視の企業: 機密コードや社内文書をクラウドに送れない場合のローカル代替

OpenHandsのようなAIコーディングエージェントをローカルで動かす場合、Ollama 0.19のMLXバックエンドは現実的な選択肢になる。

Apple Siliconとクラウド推論の比較

指標 MacBook Pro M4 Max 64GB GPT-4o(OpenAI API) Claude 3.5 Sonnet(API)
デコード速度 ~112 tok/s(35Bモデル) ~60-80 tok/s(推定) ~70-90 tok/s(推定)
コスト ハードウェア代のみ $15/1M output tokens $15/1M output tokens
プライバシー 完全ローカル クラウド送信 クラウド送信
モデル品質 35Bクラス GPT-4クラス Claudeクラス
レイテンシ ネットワーク不要 ネットワーク依存 ネットワーク依存

35Bモデルと最先端クラウドモデルの能力差は依然として存在するが、コーディング補完やドキュメント要約など 限定されたタスク ではローカルモデルが実用水準に達しつつある。

今後の展望

Ollama公式ブログは、v0.19をまだプレビューとして位置付けており、安定版リリースに向けてテストを継続中だ。Apple SiliconのNeural Engine(NPU)をさらに活用する最適化、新しいApple Siliconチップへの対応、MLXベースの量子化フォーマットのさらなる拡充が期待される。

AppleがMLXを継続的に発展させており、毎月のコミットで推論速度の向上が続いている。Ollama + MLXの組み合わせは、LangChainのエージェントシステムRAGFlowのローカル運用など、プライバシーを重視したAIインフラの基盤として定着していく可能性が高い。

関連記事: AI自動化ツール完全ガイド2026|ノーコードからコードまで徹底比較

参照ソース