この記事ではAIエージェントに特化して解説します。AIエージェント全般は AIエージェントフレームワーク完全比較2026|LangGraph/CrewAI/AutoGen他 をご覧ください。

基調講演全体の速報は Code with Claude 2026速報|新モデルなし、全製品一気に強化 を参照。本記事はそのうち Managed Agents の3大機能(Dreaming/Outcomes/Multi-Agent Orchestration)と Memory 昇格を、API仕様まで踏み込んで深掘りする。

何が起きたか — 「夜の間に自己改善するエージェント」が現実に

2026年5月6日、サンフランシスコで開催された Anthropic の開発者カンファレンス Code with Claude 2026 で、Claude Managed Agents(4月にパブリックベータ開始した、Anthropic ホスティング型のエージェントランタイム)に 3つの大型機能 と Memory の正式β昇格が同時発表された。

機能 ステータス 一言で何か
Memory public beta(昇格) セッション横断のファイルベース記憶
Dreaming research preview 過去セッション群を定期走査して Memory を再構成する自己改善パイプライン
Outcomes public beta ルーブリック評価器を別コンテキストで走らせ、合格まで自己修正
Multi-Agent Orchestration public beta リードエージェントから specialist subagent への並列ファンアウト

特に注目を集めたのは Dreaming。Anthropic公式ブログは次のように説明している。

“Dreaming surfaces patterns that a single agent can’t see on its own, including recurring mistakes, workflows that agents converge on, and preferences shared across a team.”

単一のエージェントでは見えないパターン(繰り返すミス、収束するワークフロー、チーム横断の好み)を浮かび上がらせる

人間が寝ている間にエージェントが過去の自分の作業を振り返り、Memory を整理して翌朝に賢くなって戻ってくる。これは LLM 運用の常識(毎セッションが独立で、知識が積み上がらない)を根本から覆す設計だ。

加えて、楽天が本番投入して 97%のファーストパスエラー削減・27%のコスト削減・34%のレイテンシ削減 を達成したという具体的な数字が公開された点も大きい。Memory + Dreaming は単なるリサーチ機能ではなく、実運用で測定可能な ROI を生んでいる。

この章のポイント
2026-05-06 Code with Claude SF にて発表(既存製品の総力アップデート)
Memory が public beta に昇格、Dreaming は research preview 開始
楽天で97%エラー削減・27%コスト削減・34%レイテンシ削減という実数値を公開

Dreaming — 「過去を読み直して Memory を再構成する」非同期ジョブ

コンセプト

Memory ストアは、エージェントが作業しながらインクリメンタルに書き込む。これを長く運用すると、重複・矛盾・古くなったエントリ が溜まってくる。Dreaming はこれをまとめて掃除する。

公式ドキュメント(/docs/en/managed-agents/dreams)から引用:

“A dream reads an existing memory store alongside past session transcripts, then produces a new, reorganized memory store: duplicates merged, stale or contradicted entries replaced with the latest value, and new insights surfaced.”

入力ストアは絶対に変更しない(output ストアが新規に作られる)。気に入らなければ捨てればいい、という設計思想だ。

アーキテクチャ図

flowchart LR subgraph IN["入力"] M0["Memory Store v0
(既存・読み込み専用)"] S1["Session 1"] S2["Session 2"] S3["…最大100セッション"] end subgraph DREAM["Dream パイプライン
(async, 数分〜数十分)"] READ["1. 全入力を読み込み"] PATTERN["2. パターン抽出
(重複・矛盾・新知見)"] WRITE["3. 新ストアに再構成"] end M0 --> READ S1 --> READ S2 --> READ S3 --> READ READ --> PATTERN PATTERN --> WRITE WRITE --> OUT["Memory Store v1
(新規・人間がレビュー可)"] OUT --> NEXT["次セッションに
memory_store として attach"]

API 仕様

/v1/dreams を叩く。ベータヘッダーが2つ必要

Python SDK での起動例(公式ドキュメントから):

dream = client.beta.dreams.create(
    inputs=[
        {"type": "memory_store", "memory_store_id": store_id},
        {"type": "sessions", "session_ids": [session_a, session_b]},
    ],
    model="claude-opus-4-7",
    instructions="Focus on coding-style preferences; ignore one-off debugging notes.",
)
print(dream.id)  # drm_01...

返ってくるレスポンスは status: "pending" で始まり、ポーリングで running → completed を追跡する。

while dream.status in ("pending", "running"):
    time.sleep(10)
    dream = client.beta.dreams.retrieve(dream.id)
    print(f"status={dream.status} input_tokens={dream.usage.input_tokens}")

完了すると outputs[] に新しい memory_store_id が入っている。これを次のセッション作成時に resources として渡せば、整理された Memory で動き出す。

制約と料金

項目
1 dream あたりの最大セッション数 100
instructions の文字数 最大 4,096 文字
サポートモデル claude-opus-4-7, claude-sonnet-4-6
料金 選択モデルの標準APIトークン料金(プレミアム課金なし)
実行時間 数分〜数十分(入力サイズに比例)

usage フィールドに input/output/cache_creation/cache_read の各トークン数が記録される。小規模なバッチで品質を確認してから本番ロールアウトすることが公式に推奨されている。

ライフサイクル

status 意味
pending 作成済み、キュー待ち
running パイプライン実行中(session_id フィールドに内部セッションID。SSEでイベントストリーム可)
completed 正常終了。outputs[] に新ストア
failed エラーで停止。途中まで書き込まれた output ストアは残る
canceled キャンセル。output ストアは残る
Tip:失敗・キャンセル時も output ストアが残るので、何が書き込まれたか検証できる。不要なら Memory Stores API で削除する。

よくあるエラー

error.type 発生条件
timeout パイプラインが実行時間予算を超過
input_memory_store_too_large 入力ストアがサイズ上限超過
input_memory_store_unavailable 入力ストアが実行中に削除/アーカイブされた
input_session_unavailable 入力セッションが実行中に削除/アーカイブされた
memory_store_org_limit_exceeded 組織の Memory Store 数上限に到達

Simon Willison のデモ観察

Simon Willison のライブブログによれば、デモでは Dreaming が descent-playbook.md というファイルを過去セッションから生成してみせた。具体的には、複数の試行錯誤セッションを読み込ませ、エージェントが「降下手順のベストプラクティス」を1ファイルにまとめ直す、というシナリオだ。

“Claude Managed Agents can inspect previous sessions overnight to self-improve and create new memories.”

「夜間の自己改善」という表現は誇張ではなく、文字通り cron で dreams.create を回せば毎晩 Memory が整理される という運用が成立する。

Outcomes — ルーブリック評価器で「合格まで自己修正」

コンセプト

エージェントの最大の弱点は「いつ完成したか自分で判断できない」こと。Outcomes はこれを解決する。

開発者は rubric(評価基準)を書く。エージェントが出力を生成すると、別のコンテキストウィンドウで動く grader(評価器)がその rubric に照らして採点する。基準を満たすまで、エージェントは自己修正を繰り返す。

公式ブログの表現:

“Set what success looks like so Claude can iterate and get it done.”

評価器を 別コンテキスト で走らせる点が肝で、エージェント自身の推論バイアスから切り離して採点できる。

性能数値(Anthropic 社内テスト)

ベンチマーク Outcomes なし → あり
全体タスク成功率 +最大 10pt
docx ドキュメント生成 +8.4%
pptx プレゼン生成 +10.1%

公式ブログより:

“Outcomes improved task success by up to 10 points over a standard prompting loop, with the largest gains on the hardest problems.”

「難しい問題ほど効果が大きい」 という挙動は、ルーブリック駆動の自己修正ループが本質的に効いている証拠だ。簡単な問題は1発で通るので余地が小さく、難しい問題は何度も修正される過程で精度が積み上がる。

適合するワークロード

公式ドキュメントは以下のユースケースを推奨している:

逆に、正解が一意に決まらないクリエイティブな探索タスク(ブレスト、アイデア出し)には rubric が書けないので向かない。

Simon Willison のメンタルモデル

Simon は Outcomes を 「Ralph loop」 パターンになぞらえて解説している。Ralph loop とは、ある目標に対してエージェントが自己評価しながら反復改善する古典的なエージェント設計パターンで、Outcomes はその「評価器を別コンテキストで持つ」工夫を入れた洗練版と捉えるとわかりやすい。

Multi-Agent Orchestration — リードから specialist への並列ファンアウト

コンセプト

1つのエージェントに全部やらせると、コンテキストが肥大化し、判断が遅くなり、専門性も曖昧になる。Multi-Agent Orchestration はこれを 「リードエージェント + 複数 specialist subagent」 の編成で解決する。

公式の説明:

“A lead agent breaks the job into pieces and delegates each one to a specialist with its own model, prompt, and tools, with these specialists working in parallel on a shared filesystem and contributing to the lead agent’s overall context.”

各 specialist は 個別のモデル・プロンプト・ツール を持てる。例えば:

公式デモ(インシデント調査)

公式ブログのユースケース例:

“A lead agent can run an investigation while subagents fan out through deploy history, error logs, metrics, and support tickets.”

インシデント発生時、リードがデプロイ履歴・エラーログ・メトリクス・サポートチケットを 並列に subagent に走らせ、それぞれの結果を集約して原因仮説を立てる。シーケンシャル実行に比べてレイテンシが大幅に短縮される。

「Moon Landing Drone」デモ

Code with Claude のキーノートでは、Multi-Agent Orchestration のショーケースとして「月着陸ドローン」のシミュレーションが披露された。Simon の記録:

“The moon landing drone demo showed multiple specialized agents (Commander, Detector, Navigator) coordinating to accomplish objectives impossible for single instances.”

Commander(指令)・Detector(観測)・Navigator(航法)の3エージェントが協調して、単一エージェントでは到達不能な複雑タスクを成功させた。

Console での可観測性

公式ドキュメント:

“You can trace every step in the Claude Console: which agent did what, in what order, and why, giving you full visibility into how your task was delegated and executed.”

これは運用上きわめて重要。マルチエージェントは「ブラックボックスで何が起きたかわからない」になりがちだが、Anthropic の Console では どの subagent が何を実行したか・どの順序で・なぜ呼ばれたか が可視化される。

Memory — public beta 昇格、楽天が示した実運用 ROI

Memory の基本

Memory は filesystem-based。エージェントが普段使っている bash・コード実行と同じインターフェースで読み書きできる。Markdown ファイルの構造化フォルダだと思えばよい。

公式ドキュメントから:

“Memory files are portable and programmable—Memories are files that can be exported and independently managed via the API, giving developers full control.”

公開された機能

機能 内容
Cross-session learning セッション間で知見を保持・共有
Scoped access 複数エージェント間でストア共有、アクセススコープ設定可
Audit log どのエージェント・どのセッションが書いた変更か追跡
Version control 古いバージョンへロールバック、履歴からの編集削除
Concurrent safety 複数エージェントが同一ストアに同時書き込みしても上書きされない

楽天の本番事例(Yusuke Kaji 氏のステートメント)

楽天は Memory を本番投入し、以下の結果を公開した:

“Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.”

— Yusuke Kaji, General Manager, AI for Business at Rakuten

指標 改善
ファーストパスエラー −97%
コスト −27%
レイテンシ −34%

3指標が同時に大幅改善している点が示唆的だ。Memory に過去のミスを書き残すことで、

  1. 同じミスを繰り返さない(エラー削減
  2. 試行錯誤回数が減る(コスト削減
  3. 最初から正解に近い手順を取る(レイテンシ削減

という3重の効果が連動している。

4機能の関係性 — どう組み合わせて使うか

典型的な統合ユースケース
1. Multi-Agent Orchestration でリード+specialist編成を組む
2. 各エージェントは Memory ストアを参照/書き込み
3. Outcomes でルーブリック評価し、合格まで自己修正
4. 1日の終わりに Dreaming をスケジュール起動して Memory を整理
5. 翌日のセッションは整理済みの新ストアから開始

これは「継続学習する組織型エージェント」の最初の本格実装と言える。従来のエージェントが「毎朝記憶喪失で出社する派遣社員」だとすれば、この4機能を組み合わせたエージェント群は「ナレッジを共有し、夜間に振り返り会をする正社員チーム」に近い。

競合との比較

Multi-Agent Orchestration や Memory に類する機能は他社も提供しているが、4機能を統合して提供しているのは Anthropic だけだ。

機能 Claude Managed Agents OpenAI Assistants Google Vertex AI Agent Builder
永続Memory public beta(filesystem) あり(Threads) あり(Vector Store)
自己改善(Dreaming相当) research preview なし なし
ルーブリック評価器 public beta(Outcomes) なし 限定(Eval Service)
マルチエージェント編成 public beta(共有FS) Swarm(実験的) あり
実行履歴の可視化 Claude Console Threads UI Cloud Logging
ホスティング Anthropic OpenAI Google Cloud

Dreaming に相当する 「メタ認知的に過去セッションを振り返って Memory を再構成する」機能 は、現時点で Anthropic にしかない独自機能だ。

エンジニアへの影響

試してみるには

  1. Claude API キーを取得(console
  2. Managed Agents は API アカウントでデフォルト有効。managed-agents-2026-04-01 ベータヘッダーを必ず付ける
  3. Dreaming / Outcomes / Multi-Agent は research preview で申請制Request access
  4. Memory は public beta、Managed Agents 本体(Sessions/Environments/Agents)と一緒にAPI アカウントで即利用可

最小構成のセッション作成例(Dreaming の output ストアを次のセッションに attach):

session = client.beta.sessions.create(
    agent=agent_id,
    environment_id=environment_id,
    resources=[
        {"type": "memory_store", "memory_store_id": output_store_id},
    ],
)

AIエージェントフレームワーク完全比較2026 で取り上げている LangGraph や CrewAI との大きな違いは、ホスティング・サンドボックス・セッション永続化を Anthropic 側が引き受ける 点だ。OSS フレームワークでこれと同等のものを自前で組むには、Kubernetes・Vault・Postgres・監査ログ基盤を全部整える必要がある。

利用条件・対応プラン(2026年5月時点)

「Pro/Max/Team サブスクで Managed Agents を使えるのか?」「Dreaming は誰でも触れるのか?」は読者から最もよく聞かれる質問だ。Claude.ai のコンシューマプラン(Pro/Max/Team/Enterprise)と Anthropic API(Console)では契約系統が完全に別物であり、Managed Agents は API/Console 側でのみ利用可能な点をまず押さえておく必要がある。

4機能のステータス・対応経路(公式ドキュメントベース)

機能 ステータス 対応プラン アクセス方法 ベータヘッダー
Managed Agents 本体(Sessions / Environments / Agents) Public beta Anthropic API / Console アカウント API キーがあれば即利用可、申請不要 managed-agents-2026-04-01
Memory Public beta(Managed Agents の一部として) API / Console 即利用可 managed-agents-2026-04-01
Dreaming Research preview API / Console 申請制Request access フォーム managed-agents-2026-04-01
Outcomes Research preview API / Console 申請制(同フォーム) managed-agents-2026-04-01
Multi-Agent Orchestration Research preview API / Console 申請制(同フォーム) managed-agents-2026-04-01

公式ドキュメント(platform.claude.com/docs/en/managed-agents/overview)の該当箇所を直接引用する。

“Claude Managed Agents is currently in beta. All Managed Agents endpoints require the managed-agents-2026-04-01 beta header.” “Access to Claude Managed Agents (enabled by default for all API accounts).” “Certain features (outcomes and multiagent) are in research preview. Request access to try them.”

つまり整理すると:

Claude Pro / Max / Team サブスクでは使えない

ここが日本のユーザーにとって最も重要なポイントだ。Claude.ai の Pro/Max/Team/Enterprise サブスクでは Managed Agents は利用できない。Pro契約をしていても、Managed Agents API を叩くには別途 Anthropic API(Console)のアカウントを開設し、API キーを発行する必要がある。

この設計は Claude Code(コンシューマプラン側で動く)と対照的で、混同しやすい。違いを整理すると:

プラットフォーム 契約 提供機能 課金
Claude.ai 系(Pro/Max/Team/Enterprise) コンシューマサブスク Claude Code、Claude Web、Routines、Skills、Code Review (Team/Ent) サブスク定額 + extra usage
Anthropic API(Console) API アカウント Messages API、Managed Agents、Files API、Batch API トークン従量 + Managed Agents は別途 $0.08/session-hour

「Pro契約していれば Dreaming も使える」という誤解はよく見るが、両者は完全に別契約系統で、料金体系も別だ。Managed Agents を使うには Console(console.anthropic.com)でアカウントを作り、API キーを発行する必要がある。

Dreaming / Outcomes / Multi-Agent の申請フロー

Research preview の3機能(Dreaming・Outcomes・Multi-Agent Orchestration)は、API アカウントを持っているだけでは使えない。claude.com/form/claude-managed-agents のフォームから access request を出す必要がある。フォームでは以下を聞かれる(2026年5月時点):

承認には数日〜数週間かかると報告されている。申請が通るまでは、Managed Agents 本体 + Memory で先に PoC を組み、Dreaming/Outcomes/Multi-Agent は承認後に組み合わせる、という段階的な開発が現実的だ。

課金体系

Managed Agents は通常の API トークン課金に加え、セッション実行時間のランタイム課金が別途発生する。

例えば1セッション平均30分の Outcomes ワークフローを1日10回回すと、ランタイム課金だけで月 $12(10回 × 30日 × 0.5h × $0.08)。これに API トークンが上乗せされる。Dreaming のように長時間動くジョブは $0.08/h が積み重なるので、夜間バッチで何時間も走らせる設計は要監視だ。

ZDR(Zero Data Retention)との関係

Anthropic の Zero Data Retention 契約を結んでいる組織でも、Managed Agents 本体・Memory は利用可能(公式ドキュメントに ZDR 不可の明記なし)。ただし Claude Code 側の Code Review は ZDR 有効化組織では使えないと明記されているので、ZDRを使う大企業ユーザーは Managed Agents で代替するのが現実的な選択肢になる。

まとめると

まとめ

3行まとめ
1. Code with Claude SF(5/6)で Managed Agents に Dreaming/Outcomes/Multi-Agent Orchestration が追加され、Memory が public beta に昇格
2. 数値根拠:Outcomes で +最大10pt(pptx +10.1% / docx +8.4%)、楽天 Memory 本番運用で −97%エラー / −27%コスト / −34%レイテンシ
3. Dreaming は API レベルで非常に丁寧な設計(input不変・別outputストア・部分結果保存・SSEで可観測)。「夜間に自己改善するエージェント」が現実に運用可能になった

関連記事: AIエージェントフレームワーク完全比較2026|LangGraph/CrewAI/AutoGen他Code with Claude 2026速報|新モデルなし、全製品一気に強化Claude Managed Agents発表(4月):エージェントの構築からデプロイまでをAnthropicがホスティング

参照ソース


この記事はAI業界の最新動向を速報でお届けする「AI Heartland ニュース」です。