OpenSpace徹底解説｜AIエージェントを自己進化させるOSS——トークン46%削減の仕組み

HKUDS/OpenSpace

coding

2026.03.25 1分更新 2026.04.13

OpenSpace徹底解説｜AIエージェントを自己進化させるOSS——トークン46%削減の仕組み - AIツール日本語解説 | AI Heartland

タスク実行のたびにスキルを自動改善し、トークン消費を46%削減する。エージェント間で知見を共有でき、使うほど賢く・安くなる点が従来ツールと異なる。

AIエージェントは高性能になったが、「同じ失敗を繰り返しトークンを浪費する」問題は解決されていない。香港大学HKUDSが公開したOpenSpaceは、エージェントのスキルを自動で学習・修正・進化させるオープンソースフレームワークだ。GitHub Stars 5,100超、Fork 619、MITライセンスで公開されており、2026年3月のオープンソース化以降、急速にコミュニティが拡大している。

この記事では、OpenSpaceの自己進化メカニズム、セットアップ手順、MCP経由での既存エージェント統合、そしてGDPValベンチマークの実測データまでを公式リポジトリ・論文ベースで網羅的に解説する。

この記事ではAIエージェントに特化して解説します。AIエージェント全般は AIエージェントフレームワーク比較2026年版をご覧ください。

OpenSpaceが解決する課題——「学ばないエージェント」問題

従来のAIエージェントには構造的な弱点がある。OpenHandsのようなコーディングエージェントも含め、多くのツールは「タスクを実行するが、学ばない」という限界を持つ。同じプロンプトを何百回叩いても、推論コストは毎回同じようにかかる。

OpenSpaceは「エージェントにスキルを育てさせる」という発想で、この課題に正面から取り組んでいる。タスクを実行するたびに成功パターンが蓄積され、失敗があれば原因を分析して自動修復する。結果として、使えば使うほどトークンが減り、精度が上がっていく。

課題	従来のエージェント	OpenSpace導入後
トークン浪費	毎回ゼロから推論を開始	成功パターンを再利用し46%削減
失敗の繰り返し	同じエラーを何度も踏む	自動修復スキルが蓄積される
知見の孤立	エージェント間で学びを共有できない	クラウドで全エージェントに即時反映
スキル劣化	API変更でスキルが壊れても検知しない	ツール成功率を監視し自動修復
属人化	ベテランの判断がエージェントに伝わらない	成功ログから自動でスキル抽出

「エージェントが自分で書いたものを、将来の自分が再利用できる形で保存する——それがスキルの核心だ」

これはClaude Skillsにも共通するテーマだが、OpenSpaceはそこに「進化」という要素を加えている点が特徴だ。スキルは書いた瞬間に完成ではなく、使いながら育つ。

この章のポイント
従来エージェントの課題は「実行はできるが学習しない」こと
OpenSpaceはタスク実行の副産物としてスキルを育てる発想
トークン削減・失敗の自動修復・知見共有を1つのフレームワークで解決

自己進化アーキテクチャ——FIX / DERIVED / CAPTUREDの3モード

OpenSpaceの中核は、タスク実行を起点とした自己進化ループだ。進化のサイクルは以下のように回る。

graph TD A["タスク実行"] --> B["実行結果の分析"] B --> C{"成功？"} C -->|成功| D["CAPTURED
成功パターンを
新スキルとして抽出"] C -->|失敗| E["FIX
壊れたスキルを
自動修復"] D --> F["スキルDB更新"] E --> F F --> G["DERIVED
既存スキルから
強化版を派生"] G --> H["クラウド共有
全エージェントに反映"] H --> A

この3つの進化モードがOpenSpaceの「使うほど賢くなる」仕組みを支えている。

FIX — ツールやAPIの変更でスキルが動かなくなった場合、エラーを検知して自動修復する。同じスキルIDの新バージョンとして上書きされる
DERIVED — 成功したスキルから、より特化した版や強化版を自動生成する。親スキルと共存し、タスクに応じて使い分けられる
CAPTURED — タスクが成功した際、その実行パターンを新しいスキルとして自動抽出する。親を持たない完全に新規のスキルが生まれる

特筆すべきは、これら3モードが独立したトリガーで動くことだ。ユーザーが何もしなくても、バックグラウンドで進化が継続する設計になっている。

進化トリガーの3系統

トリガー	発動条件	動作
実行後分析	毎タスク完了時	録画を分析しFIX/DERIVED/CAPTUREDを提案
ツール劣化検知	ツール成功率の低下時	依存スキルを一括進化
メトリクス監視	定期スキャン	適用率・完了率の低いスキルを進化対象に

暴走を防ぐセーフガード

進化が自動化されているだけに、誤った方向への暴走は致命的だ。OpenSpaceは以下のセーフガードを組み込んでいる。

確認ゲート — 進化候補は自動検知の後、検証パスを通ったものだけが既存スキルを置き換える
アンチループガード — 同じスキルが短時間に何度も進化対象になるのを抑制
プロンプトインジェクション検知 — 外部入力に埋め込まれた悪意のある命令を検出
認証情報流出防止 — スキル化の際にAPI key・トークンを自動マスク

進化モードの使い分けを意識する
FIXは修復、DERIVEDは強化、CAPTUREDは発見。3つが揃うと「壊れた時にも直り」「成功した時には深まり」「未知のパターンも蓄積される」フルスタックの学習ループになる。

この章のポイント
3つの進化モード（FIX/DERIVED/CAPTURED）が独立して回る
ユーザー操作なしでバックグラウンド進化が継続する設計
確認ゲート・アンチループ・インジェクション検知で暴走を防止

セットアップ——Python 3.12とMCP対応エージェントがあれば動く

OpenSpaceはPython 3.12以上が前提だ。基本的なインストールは3ステップで完了する。

git clone https://github.com/HKUDS/OpenSpace.git && cd OpenSpace
pip install -e .
openspace-mcp --help   # インストール確認

リポジトリのassets/フォルダが約50MBあるため、必要に応じて軽量クローンも用意されている。

git clone --filter=blob:none --sparse https://github.com/HKUDS/OpenSpace.git
cd OpenSpace
git sparse-checkout set '/*' '!assets/'
pip install -e .

ポイントは「ローカルで完結する機能だけならAPI keyが不要」という点だ。タスク実行、スキル進化、ローカルスキル検索まで、ネットワーク接続なしに動く。クラウドコミュニティからスキルをダウンロード/アップロードする時だけ OPENSPACE_API_KEY を使う。

動作モードの選び方

OpenSpaceには大きく2つの動かし方がある。

モード	用途	特徴
Path A（MCP統合）	Claude Code / Codex / Cursorに追加	既存エージェントにプラグイン、操作感は変えない
Path B（単体利用）	AIコワーカーとして直接実行	CLI・Python APIから独立したエージェントとして駆動

既存のワークフローに組み込むならPath Aが自然だ。特定のエージェントに縛られず、OpenSpace自体をフロントエンドにしたい場合はPath Bが向く。

起動トランスポートの選択

stdioがデフォルトだが、リモートホスト向けにSSEとstreamable HTTPもサポートしている。

# SSEモードで起動（リモートホスト向け）
openspace-mcp --transport sse --host 127.0.0.1 --port 8080

# streamable HTTPモードで起動
openspace-mcp --transport streamable-http --host 127.0.0.1 --port 8081

SSEのエンドポイントは http://127.0.0.1:8080/sse、streamable HTTPは http://127.0.0.1:8081/mcp となる。stdioはホスト設定でcommandを指定するだけで動作するため、ローカル開発では最もシンプルだ。

この章のポイント
インストールはクローン＋pip install -e .の3分作業
ローカル動作はAPI key不要、クラウド機能のみkey必須
MCP統合（Path A）と単体利用（Path B）の2経路から選べる

Claude Code・Codex・Cursorに統合する（Path A）

既存エージェントにOpenSpaceを追加する手順は、驚くほど短い。MCP（Model Context Protocol）設定に1ブロック追加するだけだ。

{
  "mcpServers": {
    "openspace": {
      "command": "openspace-mcp",
      "toolTimeout": 600,
      "env": {
        "OPENSPACE_HOST_SKILL_DIRS": "/path/to/your/agent/skills",
        "OPENSPACE_WORKSPACE": "/path/to/OpenSpace",
        "OPENSPACE_API_KEY": "sk-xxx"
      }
    }
  }
}

次に、エージェント側のスキルディレクトリに2つのブリッジスキルをコピーする。

cp -r OpenSpace/openspace/host_skills/delegate-task/ /path/to/your/agent/skills/
cp -r OpenSpace/openspace/host_skills/skill-discovery/ /path/to/your/agent/skills/

この2つのスキルがClaude Codeに「OpenSpaceの使い方」を教える役割を持つ。追加のシステムプロンプトやエージェント側のコード改造は不要だ。

対応エージェント一覧

エージェント	対応状況	備考
Claude Code	公式サポート	`~/.claude/skills/` に配置
Codex	公式サポート	`~/.codex/skills/` または任意パス
Cursor	公式サポート	MCP設定ファイル経由
OpenClaw	公式サポート	HKUDS関連プロジェクト
nanobot	公式サポート	軽量エージェント向け

SKILL.md形式をサポートするエージェントなら、原則としてMCP経由で繋がる。LangChainベースのRAGパイプラインと組み合わせれば、検索精度とエージェント能力の両方を強化する構成も可能だ。

設定後のフロー

flowchart LR A["ユーザー依頼"] --> B["Claude Code"] B --> C["skill-discovery
MCPスキル検索"] C --> D["delegate-task
OpenSpaceへ委譲"] D --> E["OpenSpaceが
スキル実行＋進化"] E --> F["結果をClaude Code
に返却"] F --> G["ユーザーに応答"] E --> H["スキルDB更新
（バックグラウンド）"]

ユーザー側の体験は変わらない。Claude Codeに話しかけるだけで、OpenSpaceが背後で進化ループを回す。

この章のポイント
MCP設定1ブロック＋スキル2つのコピーで統合完了
SKILL.md形式のエージェントならほぼすべてに接続可能
ユーザー体験は変えずに、裏側でスキル進化ループを走らせる

OpenSpaceを単体で使う（Path B）

MCP統合を使わず、OpenSpaceを直接AIコワーカーとして動かすこともできる。

# インタラクティブモード
openspace

# タスク指定で実行
openspace --model "anthropic/claude-sonnet-4-5" \
  --query "Dockerコンテナの監視ダッシュボードを作成"

Python APIからも呼び出せる。以下はタスク実行と進化結果を確認する最小サンプルだ。

import asyncio
from openspace import OpenSpace

async def main():
    async with OpenSpace() as cs:
        result = await cs.execute(
            "GitHubトレンドリポジトリを分析してレポート作成"
        )
        print(result["response"])

        # 進化したスキルの確認
        for skill in result.get("evolved_skills", []):
            print(f"  進化: {skill['name']} ({skill['origin']})")

asyncio.run(main())

result["evolved_skills"] には、そのタスクで新たにCAPTURED/FIXED/DERIVEDされたスキルがリストで入る。バッチ実行のログに加えておくと、後で「どのタスクが何を学んだか」が追跡できる。

クラウドスキルの管理CLI

# コミュニティからスキルをダウンロード
openspace-download-skill <skill_id>

# 自作スキルをアップロード
openspace-upload-skill /path/to/skill/dir

公式サイト open-space.cloud ではコミュニティスキルが検索可能だ。ローカル環境を作る前に、既存スキルのラインアップを眺めるだけでもOpenSpaceのカバー範囲が掴める。

ローカルダッシュボード

Node.js 20以上を入れておくと、Web UIでスキル進化の履歴とリネージュグラフを可視化できる。進化のDAG（有向非巡回グラフ）により、「どのスキルがいつ、どのエラーをきっかけに生まれたか」が一目で追える。ブラウザを使う監査ログとして、本番運用では有効だ。

この章のポイント
CLI／Python API／Web UIの3経路で単体利用が可能
evolved_skills フィールドで学習内容を追跡できる
クラウドコミュニティのスキル検索はブラウザだけでも利用可能

GDPValベンチマークでの実測データ——4.2倍の収益とトークン46%削減

OpenSpaceの効果はGDPValベンチマークで定量的に実証されている。44職種・220タスクの実務課題で、同じLLM（Qwen 3.5-Plus）を使ったベースライン（ClawWork）と比較した結果だ。

指標	ベースライン（ClawWork）	OpenSpace	改善率
収益	$2,735	$11,484	4.2倍
品質スコア	40.8%	70.8%	+30pp
Phase 2トークン消費	100%（Phase 1比）	45.9%	54%削減
バリューキャプチャ率	—	72.8%	$15,764中$11,484獲得

テストはPhase 1（コールドスタート）で50タスクを順次実行し、Phase 2（ウォームリラン）で同じ50タスクを再実行する設計だ。Phase 1で蓄積された165のスキルがPhase 2の効率を劇的に改善する。

GDPVal Benchmark Results

タスクの中身も実務に即している。複雑な労働組合契約書からの給与計算ツール作成、15のPDFから税務申告書を準備、カリフォルニアプライバシー法の法律メモ作成など、実際にGDPを生み出す業務が対象だ。

カテゴリ別の改善効果

カテゴリ	収益改善	トークン削減	具体例
コンプライアンス・フォーム（11タスク）	+18.5pp	-51%	税務申告、薬局コンプライアンスチェック
エンジニアリング（4タスク）	+8.7pp	-43%	Web3フルスタック、CNC安全システム
ドキュメント・書簡（7タスク）	+3.3pp	-56%	プライバシー法メモ、調査報告書
スプレッドシート（15タスク）	+7.3pp	-37%	給与計算、売上予測、価格モデル
メディア制作（3タスク）	+5.8pp	-46%	音声編集、動画CGI合成
戦略・分析（10タスク）	+1.0pp	-32%	サプライヤー交渉、エネルギー取引分析

生まれたスキルの内訳が示唆すること

自動進化で蓄積された165スキルの内訳は以下のようになっている。

カテゴリ	スキル数	主な生成起点
ファイル形式I/O	44	実行失敗からのFIX
実行復旧	29	リトライログからのCAPTURE
ドキュメント生成	26	成功パターンのDERIVED
品質保証	23	レビュー結果の再利用
その他ドメイン	43	タスク成功時のCAPTURED

注目すべきは、ドメイン知識よりも「実行の信頼性」に関するスキルが大半を占めた点だ。32/44のファイル形式スキルは実際の実行失敗から生まれたもので、本番環境のバグ修正がそのままスキルとして蓄積される仕組みの有効性を示している。

「自動化で増えるのは『賢い戦略』ではなく『地味な失敗リカバリー』だった——これこそがエージェントの再現性を支える」

この章のポイント
GDPValで収益4.2倍、Phase 2でトークン54%削減、品質+30ppを実証
コンプライアンス・ドキュメント系でトークン削減が最も大きい
生成スキルの大半は「実行失敗リカバリー」——地味な蓄積が差を生む

他エージェントツールとの比較と使い分け

Browser UseやForgeCodeのような特定タスクに特化したエージェントと比較すると、OpenSpaceの位置づけが明確になる。

比較項目	特化型エージェント	OpenSpace
学習能力	なし（毎回同じ処理）	タスクごとに自動進化
スキル共有	エージェント間で不可	クラウド経由で即時共有
トークン効率	改善なし	使うほど削減（Phase 2で54%削減）
対応範囲	単一タスク特化	マルチエージェント統合
障害復旧	手動対応が必要	自動修復（FIXモード）
導入コスト	ツールごとに個別設定	MCP設定1つで統合

OpenSpaceは特化型ツールの「代替」ではなく「上位レイヤー」として機能する。既存エージェントにプラグインし、その能力を底上げするエンジンだ。

スキル粒度と役割分担

レイヤー構成：

┌───────────────────────────────────────────────┐
│ ユーザー依頼（自然言語）                        │
├───────────────────────────────────────────────┤
│ Claude Code / Codex / Cursor（フロントエージェント）│
├───────────────────────────────────────────────┤
│ OpenSpace（スキル管理・進化・実行ルーティング）   │
├───────────────────────────────────────────────┤
│ Browser Use / ForgeCode / カスタムツール（実行層）│
├───────────────────────────────────────────────┤
│ モデル（Claude / GPT / Qwen 等）                │
└───────────────────────────────────────────────┘

OpenSpaceは「フロントエージェント」と「実行層」の間に入り、過去の成功パターンを再利用する役割を担う。

どのレイヤーから導入するか
まずは既存のClaude Code／Codex運用に1週間プラグインしてみて、蓄積されるスキル数とトークン推移を観察するのが最短ルート。5,000トークンクラスの定型タスクがあると、効果が数日で体感できる。

この章のポイント
OpenSpaceは特化型エージェントの「代替」ではなく「上位レイヤー」
フロントエージェントと実行層の間でスキル管理と進化を担う
既存運用に1週間プラグインするだけで、効果が数字で可視化される

導入前／導入後——何が具体的に変わるか

OpenSpaceを入れる前後で何が変わるか、具体的な対比で整理する。

場面	導入前	導入後
同じ種類のタスクを再実行	毎回フル推論でトークンを消費	既存スキルを再利用してトークン削減
外部APIの仕様変更	スクリプトが壊れたまま気づかない	ツール成功率低下を検知し自動修復
別プロジェクトへのノウハウ移管	ベテランのプロンプトを手動コピー	スキルDB経由で自動再利用
新人オンボーディング	チーム固有の手順を口頭共有	SKILL.mdが専門家の代わり
コスト管理	見積もりが推論ごとに変動	Phase 2で54%の削減が実測可能

運用上の注意点

暴走監視を怠らない
自動進化はアンチループガードを持つとはいえ、誤ったパターンを大量にCAPTUREしてしまうリスクはゼロではない。ダッシュボードでスキル追加レートを週次でチェックし、異常値があればリネージュグラフで起点を確認する運用が望ましい。

2026年4月時点でWhatsAppやFeishuとのメッセージングゲートウェイ、SSE/streamable HTTPによるリモートMCPサーバー対応など、機能拡張が続いている。公式ロードマップでは、スキル間の依存関係を自動で解析する「スキル依存グラフ」のリリースが予告されている。

この章のポイント
再実行・API変更・ノウハウ移管の3場面で効果が出やすい
自動進化は便利だが「スキル追加レートの監視」は運用側の仕事
2026年4月時点でメッセージゲートウェイ・リモートMCP対応が進行中

📌 まとめ

OpenSpaceは「エージェントが学習しない」という根本的な課題に対する実用的な解答だ。MITライセンスで公開されており、MCP経由で既存のClaude CodeやCodexに数分で統合できる。GDPValベンチマークの4.2倍の収益改善とPhase 2でのトークン54%削減は、スキル進化の効果を定量的に裏付けている。

この記事の要点を整理すると：