Agent0徹底解説｜外部データゼロで自己進化するAIエージェントの共進化メカニズム

aiming-lab/Agent0

agents

2026.03.31 1分

Agent0徹底解説｜外部データゼロで自己進化するAIエージェントの共進化メカニズム - AIツール日本語解説 | AI Heartland

人手によるデータセット作成が不要。2つのエージェントが競争的に進化し、数学推論+18%・汎用推論+24%の性能向上を外部データゼロで実現するフレームワーク。

この記事ではAIエージェントに特化して解説します。AIエージェント全般は AIエージェントフレームワーク比較2026年版をご覧ください。

Agent0が示した「データ不要で進化するエージェント」という新潮流

LLMエージェントの性能を向上させるには、通常は膨大な人手キュレーションデータや人間のフィードバック（RLHF）が欠かせない。しかし、2025年末に公開されたAgent0はこの前提を真っ向から覆した。UNC-Chapel Hill、Salesforce Research、Stanford Universityの共同研究チームが開発したこのフレームワークは、外部データセットも人間の監督も一切使わずに、AIエージェントが自律的に推論能力を進化させることを実証している。

Agent0の共進化フレームワーク概要

数字を見ればそのインパクトは明白だ。ベースモデルからの性能向上は数学推論で+18%、汎用推論で+24%。既存の自己進化手法（Absolute Zero、R-Zero、Socratic-Zero）を全て上回り、GitHubスター数も1,100を超えた。

「優れた解を出せるときもあるが、適切なガイダンスなしには重要なコンテキストが抜け落ちる。知識を蓄積しながら成長することもできない」——従来のエージェント開発で繰り返し指摘されてきたこの課題に、Agent0はまったく新しい解を提示した。

Agent0の核心となるアイデアは「共生的競争（Symbiotic Competition）」だ。2つのエージェント（Curriculum AgentとExecutor Agent）が互いに競い合いながら進化する仕組みで、OpenHandsのようにコード生成に特化したエージェントとは異なり、エージェント自体の推論能力を自己改善するメタフレームワークとして位置づけられる。

本記事では、Agent0のアーキテクチャから具体的なインストール手順、ベンチマーク結果、そしてビジョン言語版Agent0-VLまで、公式リポジトリと論文（arXiv:2511.16043 / 2511.19900）をベースに体系的に解説する。

この章のポイント
Agent0は外部データ不要・人間の監督不要で自己進化するAIエージェントフレームワーク
数学推論+18%、汎用推論+24%という既存手法超えの性能を達成
UNC-Chapel Hill・Salesforce Research・Stanfordの共同研究、Apache 2.0で公開

Curriculum AgentとExecutor Agent：共進化の2つの主役

Agent0の中心にあるのは、2つのエージェントによる多段階共進化（Multi-step Co-evolution）だ。このセクションでは、それぞれの役割と相互作用を詳しく見ていく。

Curriculum Agent：ちょうど難しい問題を作り続ける役割

Curriculum Agentは、Executor Agentにとって「ちょうど難しい」フロンティアタスクを自動生成する。教育学でいう「最近接発達領域（ZPD: Zone of Proximal Development）」に相当する概念で、簡単すぎても難しすぎても学習効果は薄い。Curriculum AgentはExecutor Agentの現在の能力を把握し、段階的に難易度を上げた課題を提案する。

Executor Agent：ツールを使って難問を解決する役割

Executor Agentは、提案されたタスクを外部ツールを活用しながら解決する。ここで重要なのがツール統合推論（Tool-Integrated Reasoning）だ。Pythonコード実行、数式計算、検索といった外部ツールを内部推論と組み合わせることで、モデル単体では到達できない精度で問題を解く。

この循環が自己強化サイクルを形成し、イテレーションを重ねるごとに両エージェントの能力が螺旋的に向上していく。既存の自己進化手法がモデル単体の能力に制約されるのに対し、Agent0はツール統合によってこの制約を突破する設計になっている。

既存の自己進化手法との違い

手法	データ依存	ツール統合	共進化	特徴
Absolute Zero	不要	なし	単一モデル	モデル内部の自己対話のみ
R-Zero	不要	なし	Q生成+A生成	2ロールで自己進化するがツール無し
Socratic-Zero	不要	部分的	対話形式	問答による能力改善
Agent0	不要	あり	2エージェント	ツール統合+共進化の組み合わせ

共進化が効く理由
1人のエージェントが自分だけで学習すると「自分が解ける問題しか作れない」という壁にぶつかる。Curriculum AgentとExecutor Agentを分離することで、生成側は評価側の限界を超えた問題を出そうとし、解決側はそれに追いつこうとする。この競争関係が学習の停滞を防ぐ。

この章のポイント
Curriculum Agentは適応的難易度のタスクを生成、Executor Agentはツールを使って解決
両者の共進化ループが性能向上の原動力
既存手法との決定的な差は「ツール統合×共進化」の組み合わせにある

インストールと環境構築：最短5分で動かす

Agent0のセットアップはPython環境があれば非常にシンプルだ。ここでは公式リポジトリに基づく手順を紹介する。

# リポジトリをクローン
git clone https://github.com/aiming-lab/Agent0.git
cd Agent0

# 依存関係をインストール
pip install -r requirements.txt

# 環境変数（必要に応じて）
export HF_TOKEN="your_huggingface_token"
export WANDB_API_KEY="your_wandb_key"

Agent0（言語エージェント版）とAgent0-VL（ビジョン言語版）は同じリポジトリに同梱されており、ディレクトリ構造は以下のようになっている。

Agent0/
├── Agent0/           # 言語エージェント版
│   ├── src/          # コアロジック（Curriculum/Executor）
│   ├── configs/      # 設定ファイル（YAML）
│   ├── scripts/      # トレーニング・評価スクリプト
│   └── README.md     # 詳細ドキュメント
├── Agent0-VL/        # ビジョン言語版
│   ├── src/
│   ├── configs/
│   └── README.md
└── requirements.txt

設定ファイルでベースモデルやツール、イテレーション数など主要パラメータを調整できる。

# Agent0の基本設定例（configs/から抜粋）
config = {
    "base_model": "Qwen/Qwen3-8B",
    "num_iterations": 3,                  # 共進化イテレーション数
    "tool_integration": True,             # ツール統合推論の有効化
    "curriculum_difficulty": "adaptive",  # 適応的難易度調整
    "executor_tools": ["python", "calculator", "search"],
    "reward_shaping": "self_consistency", # 報酬設計
    "batch_size": 16,
}

GPUメモリは8Bモデルで最低40GB必要なので、A100・H100・L40S級のGPUが想定環境だ。ローカル環境で試しづらい場合は、Modal・RunPod・Paperspaceなどのクラウドで動かすのが現実的になる。

vLLMを使うと推論が高速化される
Agent0はExecutor Agentが数百〜数千回の推論を繰り返すため、素のHugging Face Transformersではトレーニング時間が膨大になる。vllmを使ってバッチ推論することで、イテレーションあたりの時間を5〜10倍短縮できる。設定ファイルでinference_backend: "vllm"を指定する。

この章のポイント
git cloneとpip installの2コマンドで環境構築完了
Agent0（テキスト）とAgent0-VL（ビジョン言語）は同一リポジトリで提供
8Bモデルで40GB以上のGPUメモリが必要、vLLMで推論高速化を推奨

ベンチマーク徹底分析：数学推論+18%、汎用推論+24%の意味

Agent0の性能は、複数のベンチマークで既存手法を上回る結果を示している。このセクションでは数字の背後にある意味を丁寧に読み解く。

数学推論ベンチマーク：全手法中トップの平均スコア

以下はQwen3-8B-Baseをベースモデルとした比較だ。

手法	平均	MATH	GSM8K	Olympiad	AIME25
Base Model	49.2	78.0	89.1	44.7	16.7
Base + Tool	53.2	79.2	90.7	47.9	18.7
Absolute Zero	52.6	76.6	92.0	47.8	18.2
R-Zero	54.7	82.0	94.1	48.9	19.2
Socratic-Zero	56.1	81.2	87.3	55.1	24.5
Agent0	58.2	82.4	94.5	54.0	24.8

Agent0はベースモデルから+18.3%（49.2→58.2）の改善を達成。次点のSocratic-Zeroに対しても+3.7%上回っている。特に注目すべきはGSM8K（94.5%）とMATH（82.4%）で、どちらも全手法中トップのスコアだ。AIME25（米国数学オリンピック予選）でも24.8%と、ベースモデルの16.7%から約50%の改善を示している。

汎用推論ベンチマーク：推論力の底上げを証明

数学だけでなく、より一般的な推論タスクでも性能向上が観察されている。

手法	総合平均	数学平均	SuperGPQA	MMLU-Pro	BBEH
Base Model	34.5	49.2	28.3	51.8	8.6
Absolute Zero	39.9	52.6	33.5	62.5	10.8
R-Zero	38.7	54.7	31.4	58.2	10.6
Agent0	42.1	58.2	33.0	63.4	13.7

汎用推論でも総合平均42.1と全手法中最高だ。特筆すべきはBBEH（Big-Bench Extra Hard）での13.7というスコアで、ベースモデルの8.6から59%の大幅改善を見せている。BBEHは論理・推論・知識を横断する難問ベンチマークで、ここで伸びているということは数学以外の思考力も底上げされていることを意味する。

Agent0は「特定タスクに特化して伸ばす」ではなく、「推論能力そのものを押し上げる」フレームワークであり、数学で学んだ推論パターンが他ドメインにも転移している点が興味深い。

ツール追加だけの場合と共進化ありの比較

論文の重要な実験結果として、「単にツールを追加しただけ」と「Agent0の共進化」の差分が切り出されている。

条件	ベース比改善	コメント
Base Model	0%（基準）	素のモデル
Base Model + Tool	+4.0%	ツール追加のみ
Agent0（共進化+Tool）	+9.0%	ツール追加の2倍以上の効果

ツール統合と共進化の組み合わせが、単なるツール追加の2倍以上の効果を発揮している。これはツール使用能力そのものが共進化の過程で洗練されていくことを意味する。

この章のポイント
数学推論で+18.3%、汎用推論で総合+24%の全手法中トップ性能を達成
BBEHでは+59%と、推論能力そのものが底上げされている
共進化はツール追加単体の2倍以上の効果をもたらす

Agent0-VL：ビジョン言語エージェントへの拡張

Agent0シリーズにはビジョン言語版のAgent0-VLも含まれる。テキストだけでなく画像を含むマルチモーダルタスクに対応し、SolverとVerifierのデュアルロール構造を採用している。

Agent0-VLのフレームワーク

Solver・Verifierのデュアルロール設計

Agent0-VLの特徴は、ツール統合を推論フェーズだけでなく検証フェーズにも適用している点だ。Verifierがツールを使って推論結果を客観的に検証することで、ビジョン言語モデルに起きやすいハルシネーション（幻覚）を抑制する。

# Agent0-VLのデュアルロール概念コード
class Agent0VL:
    def solve_and_verify(self, image, question):
        # Solver: 画像と質問から推論して答えを出す
        solver_answer = self.solver.reason(
            image=image,
            question=question,
            tools=["zoom_crop", "ocr", "python"]
        )

        # Verifier: ツールで客観的に答えを検証
        verification = self.verifier.check(
            image=image,
            question=question,
            answer=solver_answer,
            tools=["pixel_compare", "region_analyze"]
        )

        # 検証結果を報酬にフィードバック
        return solver_answer, verification

反復的自己進化の推移データ

Agent0-VL-7Bの自己進化推移を見ると、イテレーションごとに着実にスコアが向上していることがわかる。

# Agent0-VL-7Bの自己進化推移（7ベンチマーク平均）
Base Model  → 57.3%
Iteration 1 → 60.5% (+5.2%)
Iteration 2 → 63.6% (+4.0%)
Iteration 3 → 65.5% (+2.8%)
# 累積で +8.2% の性能向上

Agent0-VL-8B（Qwen3-VL-8Bベース）は平均74.6%を達成し、GPT-4oの60.5%を大幅に上回る。オープンソースのビジョン言語モデルとしてはトップクラスの性能だ。

マルチモーダルへの適用で見えた発見

ドメイン	Base	Agent0-VL	差分
図表理解（ChartQA）	61.2	78.4	+17.2
文書理解（DocVQA）	74.5	83.1	+8.6
数学視覚推論（MathVista）	53.1	68.9	+15.8
科学図解（AI2D）	69.3	75.8	+6.5

図表・グラフ解釈など「視覚情報から数値や論理を引き出すタスク」で特に改善幅が大きい。これはBrowser UseのようなWeb画面操作エージェントと組み合わせたときに、UI理解の精度向上に直結する発見だ。

この章のポイント
Agent0-VLはSolver・Verifierのデュアルロール構造でハルシネーションを抑制
Agent0-VL-8BはGPT-4o（60.5%）を大幅に上回る平均74.6%を達成
図表・数学視覚推論で特に効果が大きく、Web操作エージェントへの応用価値が高い

技術的な仕組み：ツール統合推論が性能を引き上げる本質

Agent0の性能向上の鍵はTool-Integrated Reasoning（ツール統合推論）にある。このセクションでは、なぜこれが効くのかを構造的に理解していく。

従来の自己進化が抱えていた「能力の天井」

従来の自己進化手法では、モデルが自身の内部パラメータだけで推論を進めるため、モデル固有の能力が天井となっていた。例えば複雑な算術計算はLLMが苦手な領域で、どれだけ自己対話を重ねても根本的な精度向上には限界があった。

graph TD A["従来の自己進化手法"] --> B["モデル内部の推論のみ
能力の天井がある"] C["Agent0のアプローチ"] --> D["ツール統合推論
外部ツールで天井を突破"] D --> E["ツール使用能力も
共進化で改善"] E --> F["より複雑なタスクに
対応可能に"] F -->|"Curriculum Agentが
難易度を引き上げ"| D

Agent0が天井を突破する3つの仕掛け

Agent0は以下の3つを組み合わせて、この天井を突破している。

# Agent0の設計原則（擬似コード）

# 1. 外部ツールへの委譲
def executor_step(task):
    if needs_calculation(task):
        return python_interpreter.run(task)  # 計算はツールに委譲
    else:
        return llm.reason(task)              # 論理推論はLLMで

# 2. ツール使用自体の学習
def train_tool_usage(trajectory):
    # いつツールを呼ぶか、どう呼ぶかをRLで学習
    reward = compute_success_reward(trajectory)
    policy.update(trajectory, reward)

# 3. カリキュラムによる段階的難易度引き上げ
def generate_curriculum(executor_ability):
    difficulty = executor_ability + EPSILON  # わずかに上を狙う
    return task_generator.sample(difficulty=difficulty)

報酬設計：正解ラベルなしでどう学習するか

外部データがないということは「正解ラベル」もない。Agent0では自己整合性（Self-Consistency）と相互検証（Cross-Verification）を報酬信号に使う。

報酬源	仕組み	例
自己整合性	複数回推論して多数決が取れれば高報酬	数式を5回解いて同じ答えが出れば信頼
相互検証	Curriculum AgentとExecutor Agentの不一致を罰	生成側の意図と解決側の理解が一致するか
ツール実行結果	コード実行が成功すれば報酬	Python実行が例外を出さない
難易度整合	Executorが解けた/解けなかったが設計通りか	Curriculumの想定と実際の結果が合うか

これらを組み合わせることで、人間のラベルなしでも学習信号を生成できる。LangChainのようなアプリケーションフレームワークが外部APIやベクトルDBを使って能力を拡張するのに対し、Agent0はモデル自身の能力進化を内部ループで閉じている点が根本的に異なる。

なぜ「共進化」が崩壊しないのか
2つのエージェントが互いに学習し合うと、理論上はゴール関数が崩壊する（collapse）リスクがある。Agent0はCurriculum Agentに「難しすぎる問題を出しすぎると報酬が下がる」制約を入れ、Executor Agentには「解ける難易度を段階的に上げる」ガイドを入れている。このバランスが共進化を安定化させる。

この章のポイント
ツール統合推論でモデル単体の「能力の天井」を物理的に突破
正解ラベルがなくても自己整合性・相互検証・ツール実行結果を報酬に使える
Curriculum側と Executor側にバランス制約を入れて共進化を安定化させている

Agent0と既存フレームワークの比較：どのレイヤーにあるのか

AIエージェントフレームワークは目的によって選択肢が異なる。Agent0の位置づけを主要ツールと比較して整理する。

特徴	Agent0	LangChain	OpenHands	Browser Use	ForgeCode
目的	エージェント自己進化	LLMアプリ構築	コード生成・修正	Web操作	コード補完
外部データ依存	不要	タスク依存	タスク依存	タスク依存	タスク依存
自己改善機能	あり（共進化）	なし	なし	なし	なし
マルチモーダル	VL版あり	プラグイン対応	テキスト中心	画像+DOM	テキスト中心
ライセンス	Apache 2.0	MIT	MIT	MIT	Apache 2.0
主な用途	研究・推論改善	プロダクション開発	ソフトウェア開発	ブラウザ自動化	コード補完

Agent0は「エージェントの推論能力そのものを進化させる」研究フレームワークであり、OpenHandsやLangChainのようなアプリケーション構築ツールとは異なるレイヤーに位置する。Agent0で進化させたモデルを、LangChainベースのアプリに組み込むといった相互補完的な活用が想定される。

実際の組み合わせ方：補完関係の具体例

アプリ層       ┌──────────────────────────┐
              │ LangChain / LlamaIndex     │  アプリケーション構築
              └───────────▲───────────────┘
                          │ 呼び出し
エージェント層 ┌──────────────────────────┐
              │ OpenHands / Browser Use    │  タスク実行エージェント
              └───────────▲───────────────┘
                          │ 使う
モデル層       ┌──────────────────────────┐
              │ Agent0で進化させたモデル    │  推論能力を強化
              └──────────────────────────┘

用途別の選び方

やりたいこと	推奨ツール	理由
RAGアプリを作りたい	LangChain	ベクトルDB連携・プロンプト管理が充実
コードを書かせたい	OpenHands	ファイル操作・コマンド実行が自然
Webサイトを操作させたい	Browser Use	ブラウザ操作に特化
コード補完を強化したい	ForgeCode	VS Code統合
モデル自体を賢くしたい	Agent0	推論能力の自己進化

Agent0は他のフレームワークの「置き換え」ではない。むしろ、上記フレームワークの裏側で動くモデルを強化する土台として位置づけるのが正しい理解だ。

この章のポイント
Agent0はアプリ層・エージェント層ではなく「モデル層」を強化するフレームワーク
LangChain・OpenHands・Browser Useとは競合ではなく補完関係
用途別ではアプリ構築=LangChain、コード=OpenHands、モデル強化=Agent0と使い分け

Agent0あり vs なし：実際の開発現場で何が変わるか

Agent0を使うかどうかで、AI開発のワークフローがどう変わるかを整理する。

場面	Agent0なし	Agent0あり
推論性能の向上	人手でデータセットを作成（数千時間）	共進化ループを回すだけ
新ドメインへの適応	そのドメインの訓練データが必要	Curriculumが自動生成
モデルの継続改善	新しいラベル付きデータが必要	外部データ不要で無限ループ
コスト構造	データ作成費用が支配的	GPU計算コストのみ
専門家の関与	高品質ラベル付けに専門家が必要	不要（一部評価は必要）

コスト比較の実例

従来手法：数学推論モデル改善プロジェクト
├─ データ収集・ラベル付け: $50,000（専門家2名×3ヶ月）
├─ GPU訓練コスト:        $15,000（A100×8×2週間）
└─ 合計:                 $65,000

Agent0：同等の改善を狙う場合
├─ データ収集:          $0（不要）
├─ GPU訓練コスト:        $25,000（共進化で訓練期間が長い）
└─ 合計:                 $25,000（約60%削減）

特に注目すべきは「専門家の関与がほぼ不要」な点だ。数学オリンピック級の問題をラベル付けできる人材は希少で高価だが、Agent0はそもそもラベル付けを必要としない。

Agent0が特に効くケース
・専門領域（医療・法律・科学）で高品質ラベル付けが困難
・モデルの継続的な改善を自動化したい
・特定ベンチマーク（数学・推論）の性能を押し上げたい
・研究用途でベースラインモデルを強化したい

一方、プロダクション環境で即使えるアプリを作りたい場合はOpenHandsやLangChain、Webブラウザ操作ならBrowser Useを使うべきだ。Agent0は「モデルを強くする」ためのツールであり、「アプリを作る」ためのツールではない。

この章のポイント
Agent0は「データ作成コスト」を実質ゼロにする
専門家ラベル付けが困難な領域ほど効果が大きい
アプリ開発用途ではなく、モデル強化フェーズで使う

📌 まとめ：Agent0が示す「自己進化エージェント」の未来

Agent0は「データなしでエージェントが進化する」という、AIエージェント開発の新しい方向性を示したフレームワークだ。本記事のポイントを振り返る。

Curriculum AgentとExecutor Agentの共生的競争による自己進化メカニズム
ツール統合推論でモデル能力の天井を物理的に突破
数学推論+18%、汎用推論+24%の改善を外部データゼロで実現
Agent0-VL-8BはGPT-4oを上回る74.6%でマルチモーダルにも対応
自己整合性・相互検証・ツール実行結果を組み合わせた報酬設計で安定化

「エージェントがエージェント自身を進化させる」——この研究が示した方向性は、今後のLLM開発コストと質の両面に大きな影響を与える可能性がある。

Apache 2.0ライセンスでコードが公開されており、研究用途はもちろん、LangChainやOpenHandsなどのアプリケーション基盤と組み合わせた応用も期待できる。ForgeCodeのようなコード補完ツールやBrowser Useのようなブラウザ操作エージェントの裏側で動くモデル強化にも活用価値がある。

自己進化するエージェントの研究に関心があるなら、まずはリポジトリをクローンしてCurriculum AgentとExecutor Agentの共進化ループを実際に動かしてみる価値がある。1イテレーションを回すだけでも、なぜ「データ不要で進化する」ことが可能なのか、その設計思想を体感できるはずだ。