Kimi K2.6とは:Moonshot AIが公開したオープンウェイト1兆パラメータモデル
Kimi K2.6は、中国のAIスタートアップMoonshot AIが2026年4月13日に公開したオープンウェイトのMixture-of-Experts(MoE)言語モデルだ。総パラメータ数1兆個、フォワードパスあたりのアクティブパラメータ数320億個という構成で、コーディング・エージェント実行・多段階推論の3領域で最前線の性能を示している。
モデルはKimi Codeサブスクライバー向けのコードプレビュー版として提供が開始され、同時にHuggingFace(moonshotai/Kimi-K2.6)でもオープンウェイトが公開された。ライセンスはModified MITで、月間アクティブユーザー1億人または月次売上2,000万ドルを超える商用展開を除いて自由に利用できる。
Moonshot AIはKimiシリーズを通じて「Scaling out, not just up」という設計哲学を採用している。単純にモデルサイズを大きくするのではなく、エージェントを横方向にスケールさせることで、長時間・高複雑度のタスクを現実的なコストで処理する方向性だ。K2.6ではこのビジョンが具体的な数字として現れている。前世代K2.5の100サブエージェント/1,500ステップから、K2.6では300サブエージェント/4,000ステップまで拡張されており、単一の自律実行セッションで12時間以上継続して稼働できることが公式ブログで実証されている。
公式テックブログに記載された実例では、Zig言語を使用してQwen3.5-0.8Bモデルの推論を最適化するタスクを自律実行し、4,000以上のツール呼び出しと12時間以上の連続実行を経て、スループットを約15トークン/秒から193トークン/秒へと約13倍に改善した。このような長時間・高度なエンジニアリングタスクが自律実行できるのが、K2.6の最大の特徴だ。
技術アーキテクチャ:MoEとMLA(Multi-head Latent Attention)の詳細
Kimi K2.6のアーキテクチャは、HuggingFaceのモデルカードに詳細が公開されている。主要な仕様を以下の表に整理する。
| 仕様項目 | 値 |
|---|---|
| アーキテクチャ | Mixture-of-Experts (MoE) |
| 総パラメータ数 | 1兆個(1T) |
| アクティブパラメータ数 | 320億個(32B) |
| レイヤー数 | 61層(うち1層が密結合層) |
| Attentionヘッド数 | 64 |
| MoE専門家数 | 384 |
| トークンあたり選択専門家数 | 8(+共有専門家1) |
| Attention隠れ次元数 | 7,168 |
| MoE専門家隠れ次元数 | 2,048(専門家あたり) |
| 語彙サイズ | 160,000 |
| コンテキスト長 | 256Kトークン(262,144) |
| Attentionメカニズム | MLA(Multi-head Latent Attention) |
| 活性化関数 | SwiGLU |
| ビジョンエンコーダ | MoonViT(4億パラメータ) |
| 知識カットオフ | 2025年4月 |
MLAはDeepSeekが提案し、Moonshot AIが採用しているKVキャッシュ圧縮技術だ。通常のMHAではKey/Valueをヘッド数分保存するが、MLAでは低次元の潜在ベクトルに圧縮してから展開する仕組みを使う。これにより推論時のメモリ使用量を大幅に削減しつつ、モデル品質を維持できる。大規模なコンテキスト(256K)を扱う際のメモリ効率改善に特に効果的だ。
K2.6はネイティブマルチモーダルモデルで、テキストだけでなく画像・動画も入力として処理できる。MoonViT(4億パラメータ)がビジュアルエンコーダとして機能し、UIデザインのスクリーンショットからコードを生成したり、動画から仕様を読み取ってシステムを構築したりといった「コーディング駆動設計」を実現している。
アーキテクチャの全体像をMermaidで整理する。
ビジョンエンコーダ(4億パラメータ)"] A --> C["テキストトークナイザー
語彙数160K"] B --> D["Embedding統合レイヤー"] C --> D D --> E["MLA(Multi-head Latent Attention)
KVキャッシュ圧縮 / 256Kコンテキスト"] E --> F["MoEレイヤー×60
384専門家 / トークンあたり8+1を選択"] F --> G{"推論モード選択"} G -->|"Thinking Mode"| H["拡張推論チェーン
reasoning_contentを返す"] G -->|"Instant Mode"| I["高速応答
推論チェーンなし"] H --> J["出力テキスト"] I --> J J --> K{"Agent Swarm起動?"} K -->|"Yes"| L["最大300サブエージェント
4,000ステップ並列実行"] K -->|"No"| M["単一応答で完了"] L --> N["タスク分解・調整
Claw Groups連携"] N --> J
384の専門家のうちトークンごとに8個+共有専門家1個が選択される設計は、計算コストを抑えながら広範な知識を保持するMoEの特性を最大限に活かしている。1Tの総パラメータのうち常にアクティブなのは32Bのみで、これが他の1Tモデルより推論コストを低く抑える理由だ。
ベンチマーク性能:GPT-5.4・Claude Opus 4.6との比較
K2.6の公式ベンチマーク結果をカテゴリ別に整理する。
エージェント・検索系ベンチマーク
| ベンチマーク | Kimi K2.6 | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|---|
| HLE-Full(ツール使用) | 54.0 | 52.1 | 53.0 |
| BrowseComp | 83.2 | 82.7 | 83.7 |
| BrowseComp(Agent Swarm) | 86.3 | — | — |
| DeepSearchQA(F1スコア) | 92.5 | — | — |
コーディング系ベンチマーク
| ベンチマーク | Kimi K2.6 | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|---|
| SWE-Bench Verified | 80.2% | — | 80.8% |
| SWE-Bench Pro | 58.6% | 57.7% | 53.4% |
| LiveCodeBench v6 | 89.6% | — | — |
| Terminal-Bench 2.0 | 66.7% | — | — |
数学・推論系ベンチマーク
| ベンチマーク | Kimi K2.6 |
|---|---|
| AIME 2026 | 96.4% |
| HMMT 2026 | 92.7% |
| GPQA-Diamond | 90.5% |
| MMMU-Pro(ビジョン) | 79.4% |
| MathVision(Pythonあり) | 93.2% |
SWE-Bench Proでは58.6%を記録し、GPT-5.4(57.7%)およびClaude Opus 4.6(53.4%)を上回った。SWE-Bench ProはSWE-Bench Verifiedの上位版で、より難易度の高い実際のGitHubイシュー修正タスクで構成される。実務に近い複雑な修正タスクでの実力を示す指標として注目されている。
SWE-Bench Verifiedでは80.2%でClaude Opus 4.6(80.8%)にわずかに及ばないが、エージェント的なタスク(HLE-Full、BrowseComp)ではK2.6がリードしている。さらにAgent Swarmを活用したBrowseComp Swarmでは86.3%と、シングルエージェントの83.2%から3ポイント以上向上しており、並列実行による性能改善効果が確認できる。
SWE-Bench Verifiedは実際のGitHubイシューを人手で検証したセットで、AIコーディングモデルの標準的なベンチマークとなっている。SWE-Bench Proはその難易度を上げた上位版で、より長いコンテキスト・複数ファイルにまたがる変更が必要なタスクが中心だ。実際の開発現場に近い難易度という意味でSWE-Bench Proのスコアが重要視されつつある。
価格帯を考慮すると、K2.6の競争力はさらに際立つ。Claude Sonnet 4.6が入力$3.00/百万トークン・出力$15.00/百万トークンであるのに対し、K2.6 APIは入力$0.60・出力$2.50と、入力で5倍・出力で6倍安価だ。近いパフォーマンスをこのコストで実現できるのは、大量のコーディングタスクを自動化したい開発者・企業にとって魅力的な選択肢となる。
Agent Swarmの進化:300エージェントが4,000ステップを同時実行
K2.6最大の差別化ポイントがAgent Swarmの大幅な強化だ。K2.5からK2.6への進化を整理する。
| 項目 | K2.5 | K2.6 | 変化 |
|---|---|---|---|
| 最大サブエージェント数 | 100 | 300 | 3倍 |
| 最大実行ステップ数 | 1,500 | 4,000 | 2.7倍 |
| 継続実行時間(実績) | — | 12時間以上 | — |
| 並列処理速度向上(比較時) | 4.5倍 | — | — |
Agent Swarmの動作原理は、コーディングタスクを細粒度のサブタスクに分解し、それぞれを専門化したサブエージェントに並列で割り当てることにある。メインのK2.6インスタンスがオーケストレーターとして機能し、各サブエージェントの進捗を監視・調整しながら最終的な成果を統合する。
300サブエージェントを最大ステップで実行した場合、トークン消費量は単一エージェントの数十倍に達する可能性がある。実際の利用では、タスクの複雑度に応じてサブエージェント数を調整するか、Kimi Codeの月額サブスクリプション(トークン使用量込み)を利用するのが現実的だ。
公式ブログで公開された実例では、Zig言語でのLLM推論最適化タスクを自律実行した。具体的には:
- ベースラインのプロファイリング:Qwen3.5-0.8Bモデルのボトルネックを自動特定
- 並列実装試行:複数のサブエージェントがそれぞれ異なる最適化アプローチを実装
- ベンチマーク比較:各実装の性能を自動測定・比較
- 反復改善:最も有望なアプローチを選択し、さらに細かい最適化を繰り返す
この一連のプロセスを4,000以上のツール呼び出しと12時間以上の連続実行で完遂し、スループットを15トークン/秒から193トークン/秒へ約13倍向上させた。
AIエージェントフレームワーク比較2026で触れているように、マルチエージェントシステムの設計にはタスク分解の粒度・エラー復旧・状態管理が重要課題となる。K2.6のAgent Swarmはこれらをモデル内部で処理するため、開発者が明示的なオーケストレーションコードを書く必要がない点が特徴だ。
OpenAI互換APIで始めるKimi K2.6の統合
K2.6のAPIはOpenAI互換インターフェースを採用しており、既存のOpenAI/Anthropicクライアントコードをほとんど変更せずに利用できる。
基本的なチャット完了(Thinkingモード)
import openai
client = openai.OpenAI(
api_key="YOUR_MOONSHOT_API_KEY",
base_url="https://api.moonshot.ai/v1"
)
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[
{
"role": "system",
"content": "You are Kimi, an AI assistant created by Moonshot AI."
},
{
"role": "user",
"content": "このPythonコードを最適化してください。\n\ndef slow_func(n):\n result = []\n for i in range(n):\n result.append(i ** 2)\n return result"
}
],
max_tokens=4096
)
# Thinkingモードでは reasoning と content が両方返る
print(f"推論プロセス: {response.choices[0].message.reasoning}")
print(f"回答: {response.choices[0].message.content}")
ThinkingモードはデフォルトでONになっており、reasoning_content(内部推論)とcontent(最終回答)が別フィールドで返される。推論の深さが必要な複雑なタスクに適している。
Instantモード(高速応答)
推論チェーンが不要なシンプルなタスクには、thinkingを無効化するInstantモードが有効だ。
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[
{"role": "user", "content": "Pythonでフィボナッチ数列を返す関数を書いてください。"}
],
max_tokens=4096,
extra_body={"thinking": {"type": "disabled"}}, # Instantモード
temperature=0.6, # Instantモードの推奨設定
top_p=0.95
)
print(response.choices[0].message.content)
画像入力(マルチモーダル)
UIのスクリーンショットからコードを生成する例:
import base64
import requests
def generate_code_from_ui(image_path: str, prompt: str) -> str:
"""UIスクリーンショットからコードを生成する"""
with open(image_path, "rb") as f:
image_base64 = base64.b64encode(f.read()).decode()
client = openai.OpenAI(
api_key="YOUR_MOONSHOT_API_KEY",
base_url="https://api.moonshot.ai/v1"
)
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": prompt},
{
"type": "image_url",
"image_url": {
"url": f"data:image/png;base64,{image_base64}"
}
}
]
}
],
max_tokens=8192
)
return response.choices[0].message.content
# 使用例
code = generate_code_from_ui(
"ui_mockup.png",
"このUIのスクリーンショットを元にReactコンポーネントを生成してください。"
)
print(code)
推論コンテキストの保持(マルチターン)
Thinkingモードでマルチターン会話を行う際、前のターンの推論コンテキストを引き継ぐにはreasoning_contentを含めたメッセージ履歴を渡す。
messages = [
{"role": "user", "content": "このシステムの設計上の問題点を3つ挙げてください。"},
{
"role": "assistant",
"reasoning_content": "まず5つの問題点が考えられる...", # 前のターンの推論
"content": "1. スケーラビリティの問題... 2. セキュリティの懸念... 3. ..."
},
{"role": "user", "content": "4番目と5番目の問題点も教えてください。"}
]
response = client.chat.completions.create(
model="kimi-k2.6",
messages=messages,
extra_body={"thinking": {"type": "enabled", "keep": "all"}},
temperature=1.0, # Thinkingモードの推奨設定
top_p=0.95
)
Thinking Mode(推論あり)では
temperature=1.0, top_p=0.95が推奨。Instant Mode(推論なし)ではtemperature=0.6, top_p=0.95が推奨。コーディングなど決定論的な出力が必要なタスクでもThinking ModeはTemperature 1.0を維持する。
セルフホスト環境の構築:vLLM・SGLang・KTransformersでローカルデプロイ
K2.6はHuggingFaceでオープンウェイトが公開されており、対応する推論エンジンでセルフホストが可能だ。
動作要件
# transformersバージョンの確認(必須要件: >=4.57.1, <5.0.0)
pip install "transformers>=4.57.1,<5.0.0"
# HuggingFace Hub経由でモデルをダウンロード
huggingface-cli download moonshotai/Kimi-K2.6 --local-dir ./kimi-k2.6
1兆パラメータのBF16モデルは約2TBのストレージと2TB以上のGPUメモリを必要とするため、フル精度でのローカル実行は研究機関・大規模クラウド環境を想定している。個人開発者向けにはGGUF量子化版(ubergarm/Kimi-K2.6-GGUF、unsloth/Kimi-K2.6-GGUF)が有志によってHuggingFaceで公開されており、より少ないリソースでの実行が可能だ。
vLLMによるサービング
vLLMは大規模LLMの高速サービングに最も広く使われるエンジンで、K2.6のMoEアーキテクチャにも対応している。
# vLLMサーバーの起動(テンソル並列4GPU想定)
vllm serve moonshotai/Kimi-K2.6 \
--tensor-parallel-size 4 \
--max-model-len 32768 \
--trust-remote-code \
--dtype bfloat16
# OpenAI互換エンドポイントとして動作するため、ベースURLを変更するだけで利用可能
client = openai.OpenAI(
api_key="not-required-for-local",
base_url="http://localhost:8000/v1"
)
SGLangによるサービング
SGLangは構造化生成とバッチ処理に特化したエンジンで、エージェントループのような繰り返し推論に適している。
# SGLangサーバーの起動
python -m sglang.launch_server \
--model-path moonshotai/Kimi-K2.6 \
--tp 4 \
--trust-remote-code \
--host 0.0.0.0 \
--port 30000
ubergarm/unslothが提供するGGUF版は公式リリースではなく、有志による量子化変換だ。ベンチマーク数値は公式API/フルモデルのものであり、量子化版では性能が低下する場合がある。本番環境では公式APIの使用を推奨する。
量子化の観点では、BitNetのような1ビット量子化アプローチとK2.6のMoEアーキテクチャは異なるトレードオフを持つ。BitNetはモデルを極限まで圧縮してCPU実行を可能にするアプローチで、K2.6のような大規模MoEはアクティブパラメータを限定することで推論コストを抑える。用途や実行環境によって最適な選択肢は異なる。
Claw Groups(研究プレビュー):AIエージェントと人間の新しい協業モデル
Claw Groupsは、Kimi K2.6が研究プレビューとして公開した革新的なマルチエージェント協業フレームワークだ。従来のAgent Swarmが単一モデルによる完全自律実行を目指すのに対し、Claw Groupsは人間・複数のAIエージェント・異なるモデルが同じタスクグループ内で協働する仕組みを提供する。
主な特徴:
- 異種モデル間の協業:K2.6だけでなく、異なるモデルが動作するエージェントも同一グループに参加できる
- 人間参加型:人間が途中でフィードバックや承認を与えながらタスクを進めることができる
- 動的タスク再割り当て:あるエージェントが停滞した場合、K2.6がコーディネーターとしてタスクを他のエージェントに再割り当てする
- クロスデバイス実行:異なるデバイス・サーバーで動作するエージェントが同一グループに参加可能
OpenHandsのようなコーディングエージェントやAIエージェントフレームワーク比較2026で紹介されているフレームワークを、Claw Groupsの参加エージェントとして組み合わせる応用も技術的には可能性として考えられる。ただし、Claw Groupsは現時点で研究プレビュー段階であり、プロダクション利用にはまだ制約がある。
Claw Groupsの概念は、AIエージェントが単なるツールから「チームメンバー」として機能するパラダイムシフトを示している。タスクが途中で止まった場合にK2.6がリカバリーを自動処理する点は、実際の開発プロジェクトにおいて信頼性を高める重要な機能だ。
ライセンスと商用利用:Modified MITの詳細
Kimi K2.6はコードリポジトリとモデルウェイトの両方をModified MITライセンスで公開している。通常のMITとの違いは商用利用の制限条件にある。
月間アクティブユーザー1億人または月次売上2,000万ドルを超える商用展開には、Moonshot AIへの商用ライセンス申請と帰属表示が必要。これを下回るスタートアップ・個人開発者・研究機関は、通常のMITライセンスと同様に自由に利用できる。
| 利用規模 | ライセンス条件 |
|---|---|
| 個人・研究 | 制限なし(帰属表示のみ) |
| 小〜中規模スタートアップ(MAU 1億人未満・月収 2,000万ドル未満) | Modified MIT(商用利用可) |
| 大規模商用展開(MAU 1億人以上または月収 2,000万ドル以上) | 商用ライセンス申請が必要 |
この条件はDeepSeekやQwenなど中国発の主要オープンモデルの多くが採用している「事実上オープン」の形式で、大半の開発者・企業にとって実質的な制限はない。
競合モデルとのポジショニング
K2.6のポジションを他の主要モデルと比較する。
| モデル | オープンウェイト | SWE-Bench Pro | コンテキスト | 入力価格($/1Mトークン) |
|---|---|---|---|---|
| Kimi K2.6 | あり | 58.6% | 256K | $0.60 |
| GPT-5.4 | なし | 57.7% | 128K | $5.00 |
| Claude Opus 4.6 | なし | 53.4% | 200K | $15.00 |
| Claude Sonnet 4.6 | なし | — | 200K | $3.00 |
| Gemini 3.1 Pro | なし | — | 1M | $3.50 |
オープンウェイトで1兆パラメータのMoEモデルがSWE-Bench Proトップクラスの性能を示しているのはK2.6のみだ。大手プロプライエタリモデルに匹敵する性能をオープンウェイトかつ低価格のAPIで提供している点が、エンタープライズ採用・セルフホスト用途での最大の訴求ポイントとなっている。
Cursor(GitHubのプログラミングアシスタント)が自社コーディングモデルのベースにKimiシリーズを採用していた事実(TechCrunch, 2026年3月報道)は、業界内でのKimiの技術的評価の高さを示す象徴的な出来事だ。
まとめ:Kimi K2.6が向いているユースケース
Kimi K2.6は、以下のようなユーザーとユースケースに最も高い価値を発揮する。
向いているケース:
- 長時間・複雑なコーディングタスクの自動化(リファクタリング、テスト生成、最適化)
- GPT-5.4/Claude Opus 4.6相当の性能を低コストで使いたい開発者・スタートアップ
- セルフホスト環境でオープンウェイトのトップモデルを運用したい組織
- UIデザインからコードを生成するコーディング駆動設計のワークフロー
- マルチエージェントシステムの基盤モデルとして活用したいチーム
注意点:
- フル精度のローカル実行には2TB級のGPUメモリが必要で、現実的には公式APIかGGUF量子化版の利用になる
- 純粋な推論・ビジョン理解ではGPT-5.4やClaudeが依然優位な場面もある(公式ブログが認めている)
- Claw Groupsは研究プレビュー段階のため、プロダクション利用への組み込みは慎重な評価が必要
- Agent Swarm実行時のトークン消費量は単一エージェントの数十倍になる可能性がある
Moonshot AIのKimiシリーズはK2→K2.5→K2.6と急速に進化しており、Agent Swarmの規模拡大と品質向上が続いている。コーディングエージェントの活用方法やエージェントエンジニアリングのロードマップと組み合わせることで、Kimi K2.6の可能性をより深く理解できるだろう。
参照ソース
- Kimi K2.6 Tech Blog: Advancing Open-Source Coding(Moonshot AI公式)
- moonshotai/Kimi-K2.6 - Hugging Face モデルカード
- MoonshotAI/Kimi-K2 - GitHub公式リポジトリ
- Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarms(The Decoder)
- Kimi K2.6 Developer Guide: Benchmarks, API & Agent Swarm(Lushbinary)
- Kimi Code K2.6 Preview: What Developers Need to Know(BuildFastWithAI)