Kimi K2.6｜Moonshot AIの1兆パラメータLLM — 300エージェント並列でGPT-5.4超えのコーディング性能

MoonshotAI/Kimi-K2

llm text-generation agent ⭐ 10636 Python

2026.04.21 1分更新 2026.04.27

A AI Heartland · 編集部

Kimi K2.6｜Moonshot AIの1兆パラメータLLM — 300エージェント並列でGPT-5.4超えのコーディング性能 - AIツール日本語解説 | AI Heartland

SWE-Bench ProでGPT-5.4（57.7%）を上回る58.6%を達成しつつ完全オープンウェイトで公開。Claude Sonnet 4.6比で入力5倍・出力6倍安価なAPIで即日利用できる実力派モデル。

この記事ではLLMに特化して解説します。LLM全般は LLMとは？仕組みからローカル実行まで徹底解説【2026年完全ガイド】をご覧ください。

この記事のポイント

Kimi K2.6はMoonshot AIが2026年4月に公開したオープンウェイト1兆パラメータMoEモデル。HuggingFaceで重みが入手可能
300サブエージェント／4,000ステップ／12時間以上の連続自律実行を実証。コーディング・エージェント領域でGPT-5.4・Claude Opus 4.6に肉薄
OpenAI互換API・vLLM/SGLang/KTransformersでのセルフホスト・Modified MITライセンスまで、商用利用判断に必要な情報を凝縮

Kimi K2.6とは：Moonshot AIが公開したオープンウェイト1兆パラメータモデル

Kimi K2.6は、中国のAIスタートアップMoonshot AIが2026年4月13日に公開したオープンウェイトのMixture-of-Experts（MoE）言語モデルだ。総パラメータ数1兆個、フォワードパスあたりのアクティブパラメータ数320億個という構成で、コーディング・エージェント実行・多段階推論の3領域で最前線の性能を示している。

モデルはKimi Codeサブスクライバー向けのコードプレビュー版として提供が開始され、同時にHuggingFace（moonshotai/Kimi-K2.6）でもオープンウェイトが公開された。ライセンスはModified MITで、月間アクティブユーザー1億人または月次売上2,000万ドルを超える商用展開を除いて自由に利用できる。

Moonshot AIはKimiシリーズを通じて「Scaling out, not just up」という設計哲学を採用している。単純にモデルサイズを大きくするのではなく、エージェントを横方向にスケールさせることで、長時間・高複雑度のタスクを現実的なコストで処理する方向性だ。K2.6ではこのビジョンが具体的な数字として現れている。前世代K2.5の100サブエージェント/1,500ステップから、K2.6では300サブエージェント/4,000ステップまで拡張されており、単一の自律実行セッションで12時間以上継続して稼働できることが公式ブログで実証されている。

公式テックブログに記載された実例では、Zig言語を使用してQwen3.5-0.8Bモデルの推論を最適化するタスクを自律実行し、4,000以上のツール呼び出しと12時間以上の連続実行を経て、スループットを約15トークン/秒から193トークン/秒へと約13倍に改善した。このような長時間・高度なエンジニアリングタスクが自律実行できるのが、K2.6の最大の特徴だ。

技術アーキテクチャ：MoEとMLA（Multi-head Latent Attention）の詳細

Kimi K2.6のアーキテクチャは、HuggingFaceのモデルカードに詳細が公開されている。主要な仕様を以下の表に整理する。

仕様項目	値
アーキテクチャ	Mixture-of-Experts (MoE)
総パラメータ数	1兆個（1T）
アクティブパラメータ数	320億個（32B）
レイヤー数	61層（うち1層が密結合層）
Attentionヘッド数	64
MoE専門家数	384
トークンあたり選択専門家数	8（＋共有専門家1）
Attention隠れ次元数	7,168
MoE専門家隠れ次元数	2,048（専門家あたり）
語彙サイズ	160,000
コンテキスト長	256Kトークン（262,144）
Attentionメカニズム	MLA（Multi-head Latent Attention）
活性化関数	SwiGLU
ビジョンエンコーダ	MoonViT（4億パラメータ）
知識カットオフ	2025年4月

MLA（Multi-head Latent Attention）とは
MLAはDeepSeekが提案し、Moonshot AIが採用しているKVキャッシュ圧縮技術だ。通常のMHAではKey/Valueをヘッド数分保存するが、MLAでは低次元の潜在ベクトルに圧縮してから展開する仕組みを使う。これにより推論時のメモリ使用量を大幅に削減しつつ、モデル品質を維持できる。大規模なコンテキスト（256K）を扱う際のメモリ効率改善に特に効果的だ。

K2.6はネイティブマルチモーダルモデルで、テキストだけでなく画像・動画も入力として処理できる。MoonViT（4億パラメータ）がビジュアルエンコーダとして機能し、UIデザインのスクリーンショットからコードを生成したり、動画から仕様を読み取ってシステムを構築したりといった「コーディング駆動設計」を実現している。

アーキテクチャの全体像をMermaidで整理する。

flowchart TD A["入力テキスト・画像・動画"] --> B["MoonViT
ビジョンエンコーダ（4億パラメータ）"] A --> C["テキストトークナイザー
語彙数160K"] B --> D["Embedding統合レイヤー"] C --> D D --> E["MLA（Multi-head Latent Attention）
KVキャッシュ圧縮 / 256Kコンテキスト"] E --> F["MoEレイヤー×60
384専門家 / トークンあたり8+1を選択"] F --> G{"推論モード選択"} G -->|"Thinking Mode"| H["拡張推論チェーン
reasoning_contentを返す"] G -->|"Instant Mode"| I["高速応答
推論チェーンなし"] H --> J["出力テキスト"] I --> J J --> K{"Agent Swarm起動?"} K -->|"Yes"| L["最大300サブエージェント
4,000ステップ並列実行"] K -->|"No"| M["単一応答で完了"] L --> N["タスク分解・調整
Claw Groups連携"] N --> J

384の専門家のうちトークンごとに8個＋共有専門家1個が選択される設計は、計算コストを抑えながら広範な知識を保持するMoEの特性を最大限に活かしている。1Tの総パラメータのうち常にアクティブなのは32Bのみで、これが他の1Tモデルより推論コストを低く抑える理由だ。

ベンチマーク性能：GPT-5.4・Claude Opus 4.6との比較

K2.6の公式ベンチマーク結果をカテゴリ別に整理する。

エージェント・検索系ベンチマーク

ベンチマーク	Kimi K2.6	GPT-5.4	Claude Opus 4.6
HLE-Full（ツール使用）	54.0	52.1	53.0
BrowseComp	83.2	82.7	83.7
BrowseComp（Agent Swarm）	86.3	—	—
DeepSearchQA（F1スコア）	92.5	—	—

コーディング系ベンチマーク

ベンチマーク	Kimi K2.6	GPT-5.4	Claude Opus 4.6
SWE-Bench Verified	80.2%	—	80.8%
SWE-Bench Pro	58.6%	57.7%	53.4%
LiveCodeBench v6	89.6%	—	—
Terminal-Bench 2.0	66.7%	—	—

数学・推論系ベンチマーク

ベンチマーク	Kimi K2.6
AIME 2026	96.4%
HMMT 2026	92.7%
GPQA-Diamond	90.5%
MMMU-Pro（ビジョン）	79.4%
MathVision（Pythonあり）	93.2%

SWE-Bench Proでは58.6%を記録し、GPT-5.4（57.7%）およびClaude Opus 4.6（53.4%）を上回った。SWE-Bench ProはSWE-Bench Verifiedの上位版で、より難易度の高い実際のGitHubイシュー修正タスクで構成される。実務に近い複雑な修正タスクでの実力を示す指標として注目されている。

SWE-Bench Verifiedでは80.2%でClaude Opus 4.6（80.8%）にわずかに及ばないが、エージェント的なタスク（HLE-Full、BrowseComp）ではK2.6がリードしている。さらにAgent Swarmを活用したBrowseComp Swarmでは86.3%と、シングルエージェントの83.2%から3ポイント以上向上しており、並列実行による性能改善効果が確認できる。

SWE-Bench Pro vs SWE-Bench Verified
SWE-Bench Verifiedは実際のGitHubイシューを人手で検証したセットで、AIコーディングモデルの標準的なベンチマークとなっている。SWE-Bench Proはその難易度を上げた上位版で、より長いコンテキスト・複数ファイルにまたがる変更が必要なタスクが中心だ。実際の開発現場に近い難易度という意味でSWE-Bench Proのスコアが重要視されつつある。

価格帯を考慮すると、K2.6の競争力はさらに際立つ。Claude Sonnet 4.6が入力$3.00/百万トークン・出力$15.00/百万トークンであるのに対し、K2.6 APIは入力$0.60・出力$2.50と、入力で5倍・出力で6倍安価だ。近いパフォーマンスをこのコストで実現できるのは、大量のコーディングタスクを自動化したい開発者・企業にとって魅力的な選択肢となる。

Agent Swarmの進化：300エージェントが4,000ステップを同時実行

K2.6最大の差別化ポイントがAgent Swarmの大幅な強化だ。K2.5からK2.6への進化を整理する。

項目	K2.5	K2.6	変化
最大サブエージェント数	100	300	3倍
最大実行ステップ数	1,500	4,000	2.7倍
継続実行時間（実績）	—	12時間以上	—
並列処理速度向上（比較時）	4.5倍	—	—

Agent Swarmの動作原理は、コーディングタスクを細粒度のサブタスクに分解し、それぞれを専門化したサブエージェントに並列で割り当てることにある。メインのK2.6インスタンスがオーケストレーターとして機能し、各サブエージェントの進捗を監視・調整しながら最終的な成果を統合する。

Agent Swarmの利用コストに注意
300サブエージェントを最大ステップで実行した場合、トークン消費量は単一エージェントの数十倍に達する可能性がある。実際の利用では、タスクの複雑度に応じてサブエージェント数を調整するか、Kimi Codeの月額サブスクリプション（トークン使用量込み）を利用するのが現実的だ。

公式ブログで公開された実例では、Zig言語でのLLM推論最適化タスクを自律実行した。具体的には：

ベースラインのプロファイリング：Qwen3.5-0.8Bモデルのボトルネックを自動特定
並列実装試行：複数のサブエージェントがそれぞれ異なる最適化アプローチを実装
ベンチマーク比較：各実装の性能を自動測定・比較
反復改善：最も有望なアプローチを選択し、さらに細かい最適化を繰り返す

この一連のプロセスを4,000以上のツール呼び出しと12時間以上の連続実行で完遂し、スループットを15トークン/秒から193トークン/秒へ約13倍向上させた。

AIエージェントフレームワーク比較2026で触れているように、マルチエージェントシステムの設計にはタスク分解の粒度・エラー復旧・状態管理が重要課題となる。K2.6のAgent Swarmはこれらをモデル内部で処理するため、開発者が明示的なオーケストレーションコードを書く必要がない点が特徴だ。

OpenAI互換APIで始めるKimi K2.6の統合

K2.6のAPIはOpenAI互換インターフェースを採用しており、既存のOpenAI/Anthropicクライアントコードをほとんど変更せずに利用できる。

基本的なチャット完了（Thinkingモード）

import openai

client = openai.OpenAI(
    api_key="YOUR_MOONSHOT_API_KEY",
    base_url="https://api.moonshot.ai/v1"
)

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[
        {
            "role": "system",
            "content": "You are Kimi, an AI assistant created by Moonshot AI."
        },
        {
            "role": "user",
            "content": "このPythonコードを最適化してください。\n\ndef slow_func(n):\n    result = []\n    for i in range(n):\n        result.append(i ** 2)\n    return result"
        }
    ],
    max_tokens=4096
)

# Thinkingモードでは reasoning と content が両方返る
print(f"推論プロセス: {response.choices[0].message.reasoning}")
print(f"回答: {response.choices[0].message.content}")

ThinkingモードはデフォルトでONになっており、reasoning_content（内部推論）とcontent（最終回答）が別フィールドで返される。推論の深さが必要な複雑なタスクに適している。

Instantモード（高速応答）

推論チェーンが不要なシンプルなタスクには、thinkingを無効化するInstantモードが有効だ。

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[
        {"role": "user", "content": "Pythonでフィボナッチ数列を返す関数を書いてください。"}
    ],
    max_tokens=4096,
    extra_body={"thinking": {"type": "disabled"}},  # Instantモード
    temperature=0.6,   # Instantモードの推奨設定
    top_p=0.95
)

print(response.choices[0].message.content)

画像入力（マルチモーダル）

UIのスクリーンショットからコードを生成する例：

import base64
import requests

def generate_code_from_ui(image_path: str, prompt: str) -> str:
    """UIスクリーンショットからコードを生成する"""
    with open(image_path, "rb") as f:
        image_base64 = base64.b64encode(f.read()).decode()

    client = openai.OpenAI(
        api_key="YOUR_MOONSHOT_API_KEY",
        base_url="https://api.moonshot.ai/v1"
    )

    response = client.chat.completions.create(
        model="kimi-k2.6",
        messages=[
            {
                "role": "user",
                "content": [
                    {"type": "text", "text": prompt},
                    {
                        "type": "image_url",
                        "image_url": {
                            "url": f"data:image/png;base64,{image_base64}"
                        }
                    }
                ]
            }
        ],
        max_tokens=8192
    )

    return response.choices[0].message.content

# 使用例
code = generate_code_from_ui(
    "ui_mockup.png",
    "このUIのスクリーンショットを元にReactコンポーネントを生成してください。"
)
print(code)

推論コンテキストの保持（マルチターン）

Thinkingモードでマルチターン会話を行う際、前のターンの推論コンテキストを引き継ぐにはreasoning_contentを含めたメッセージ履歴を渡す。

messages = [
    {"role": "user", "content": "このシステムの設計上の問題点を3つ挙げてください。"},
    {
        "role": "assistant",
        "reasoning_content": "まず5つの問題点が考えられる...",  # 前のターンの推論
        "content": "1. スケーラビリティの問題... 2. セキュリティの懸念... 3. ..."
    },
    {"role": "user", "content": "4番目と5番目の問題点も教えてください。"}
]

response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=messages,
    extra_body={"thinking": {"type": "enabled", "keep": "all"}},
    temperature=1.0,  # Thinkingモードの推奨設定
    top_p=0.95
)

Temperature設定の使い分け
Thinking Mode（推論あり）ではtemperature=1.0, top_p=0.95が推奨。Instant Mode（推論なし）ではtemperature=0.6, top_p=0.95が推奨。コーディングなど決定論的な出力が必要なタスクでもThinking ModeはTemperature 1.0を維持する。

セルフホスト環境の構築：vLLM・SGLang・KTransformersでローカルデプロイ

K2.6はHuggingFaceでオープンウェイトが公開されており、対応する推論エンジンでセルフホストが可能だ。

動作要件

# transformersバージョンの確認（必須要件: >=4.57.1, <5.0.0）
pip install "transformers>=4.57.1,<5.0.0"

# HuggingFace Hub経由でモデルをダウンロード
huggingface-cli download moonshotai/Kimi-K2.6 --local-dir ./kimi-k2.6

1兆パラメータのBF16モデルは約2TBのストレージと2TB以上のGPUメモリを必要とするため、フル精度でのローカル実行は研究機関・大規模クラウド環境を想定している。個人開発者向けにはGGUF量子化版（ubergarm/Kimi-K2.6-GGUF、unsloth/Kimi-K2.6-GGUF）が有志によってHuggingFaceで公開されており、より少ないリソースでの実行が可能だ。

vLLMによるサービング

vLLMは大規模LLMの高速サービングに最も広く使われるエンジンで、K2.6のMoEアーキテクチャにも対応している。

# vLLMサーバーの起動（テンソル並列4GPU想定）
vllm serve moonshotai/Kimi-K2.6 \
    --tensor-parallel-size 4 \
    --max-model-len 32768 \
    --trust-remote-code \
    --dtype bfloat16

# OpenAI互換エンドポイントとして動作するため、ベースURLを変更するだけで利用可能
client = openai.OpenAI(
    api_key="not-required-for-local",
    base_url="http://localhost:8000/v1"
)

SGLangによるサービング

SGLangは構造化生成とバッチ処理に特化したエンジンで、エージェントループのような繰り返し推論に適している。

# SGLangサーバーの起動
python -m sglang.launch_server \
    --model-path moonshotai/Kimi-K2.6 \
    --tp 4 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 30000

GGUF量子化版の精度に注意
ubergarm/unslothが提供するGGUF版は公式リリースではなく、有志による量子化変換だ。ベンチマーク数値は公式API/フルモデルのものであり、量子化版では性能が低下する場合がある。本番環境では公式APIの使用を推奨する。

量子化の観点では、BitNetのような1ビット量子化アプローチとK2.6のMoEアーキテクチャは異なるトレードオフを持つ。BitNetはモデルを極限まで圧縮してCPU実行を可能にするアプローチで、K2.6のような大規模MoEはアクティブパラメータを限定することで推論コストを抑える。用途や実行環境によって最適な選択肢は異なる。

Claw Groups（研究プレビュー）：AIエージェントと人間の新しい協業モデル

Claw Groupsは、Kimi K2.6が研究プレビューとして公開した革新的なマルチエージェント協業フレームワークだ。従来のAgent Swarmが単一モデルによる完全自律実行を目指すのに対し、Claw Groupsは人間・複数のAIエージェント・異なるモデルが同じタスクグループ内で協働する仕組みを提供する。

主な特徴：

異種モデル間の協業：K2.6だけでなく、異なるモデルが動作するエージェントも同一グループに参加できる
人間参加型：人間が途中でフィードバックや承認を与えながらタスクを進めることができる
動的タスク再割り当て：あるエージェントが停滞した場合、K2.6がコーディネーターとしてタスクを他のエージェントに再割り当てする
クロスデバイス実行：異なるデバイス・サーバーで動作するエージェントが同一グループに参加可能

OpenHandsのようなコーディングエージェントやAIエージェントフレームワーク比較2026で紹介されているフレームワークを、Claw Groupsの参加エージェントとして組み合わせる応用も技術的には可能性として考えられる。ただし、Claw Groupsは現時点で研究プレビュー段階であり、プロダクション利用にはまだ制約がある。

sequenceDiagram participant H as 人間（ユーザー） participant K as K2.6（コーディネーター） participant A1 as エージェント1（K2.6） participant A2 as エージェント2（外部モデル） participant A3 as エージェント3（K2.6） H->>K: 複雑なタスクを依頼 K->>K: タスクを並列サブタスクに分解 K->>A1: サブタスク1（フロントエンド実装） K->>A2: サブタスク2（バックエンドAPI設計） K->>A3: サブタスク3（テスト自動化） A1-->>K: 進捗報告 A2-->>K: 完了報告 K->>H: 中間結果の確認依頼 H->>K: フィードバックと承認 K->>A3: フィードバックを反映して継続 A1-->>K: 完了 A3-->>K: 完了 K->>H: 統合した最終成果物を提供

Claw Groupsの概念は、AIエージェントが単なるツールから「チームメンバー」として機能するパラダイムシフトを示している。タスクが途中で止まった場合にK2.6がリカバリーを自動処理する点は、実際の開発プロジェクトにおいて信頼性を高める重要な機能だ。

ライセンスと商用利用：Modified MITの詳細

Kimi K2.6はコードリポジトリとモデルウェイトの両方をModified MITライセンスで公開している。通常のMITとの違いは商用利用の制限条件にある。

月間アクティブユーザー1億人または月次売上2,000万ドルを超える商用展開には、Moonshot AIへの商用ライセンス申請と帰属表示が必要。これを下回るスタートアップ・個人開発者・研究機関は、通常のMITライセンスと同様に自由に利用できる。

利用規模	ライセンス条件
個人・研究	制限なし（帰属表示のみ）
小〜中規模スタートアップ（MAU 1億人未満・月収 2,000万ドル未満）	Modified MIT（商用利用可）
大規模商用展開（MAU 1億人以上または月収 2,000万ドル以上）	商用ライセンス申請が必要

この条件はDeepSeekやQwenなど中国発の主要オープンモデルの多くが採用している「事実上オープン」の形式で、大半の開発者・企業にとって実質的な制限はない。

競合モデルとのポジショニング

K2.6のポジションを他の主要モデルと比較する。

モデル	オープンウェイト	SWE-Bench Pro	コンテキスト	入力価格（$/1Mトークン）
Kimi K2.6	あり	58.6%	256K	$0.60
GPT-5.4	なし	57.7%	128K	$5.00
Claude Opus 4.6	なし	53.4%	200K	$15.00
Claude Sonnet 4.6	なし	—	200K	$3.00
Gemini 3.1 Pro	なし	—	1M	$3.50

オープンウェイトで1兆パラメータのMoEモデルがSWE-Bench Proトップクラスの性能を示しているのはK2.6のみだ。大手プロプライエタリモデルに匹敵する性能をオープンウェイトかつ低価格のAPIで提供している点が、エンタープライズ採用・セルフホスト用途での最大の訴求ポイントとなっている。

Cursor（GitHubのプログラミングアシスタント）が自社コーディングモデルのベースにKimiシリーズを採用していた事実（TechCrunch, 2026年3月報道）は、業界内でのKimiの技術的評価の高さを示す象徴的な出来事だ。