🏠 ホーム ニュース 📚 トピック解説 🏷️ タグ一覧 ℹ️ About
🔍 記事を検索
カテゴリ
📡 RSSフィード
Follow
X (Twitter) Threads
Quick Links
ニュース一覧 🏷️ タグから探す
🧠 Claude 🤖 Agent 💬 LLM 🔌 MCP 🛠️ Tool
Subscribe
📡 RSSフィード
ホーム explain 2026.03.31

Claude Codeで40体のAIエージェントを構築→1ヶ月で全廃止した実験の教訓

🤖
// なぜ使えるか
月$200のMaxプラン環境で40体のAIエージェントを並列運用した結果、context rot・compaction崩壊・指示逸脱の3つの壁にぶつかり全廃止。「1人から始めろ」という結論に至った過程。

実験の概要

こはく氏(@Kohaku_NFT)がClaude Code Maxプラン(月$200)の環境で、40体のAIエージェントを構築して1ヶ月間運用した実験の記録。

エージェントの構成:

役割分担、ルール設定、階層構造の設計に丸2日。40体分のguidelinesファイルは合計数万トークン。

時系列: どう壊れていったか

Day 1-3    ✅ 正常稼働。指示通りに返ってくる
Day 7      ⚠️  出力の再現性が低下。同じ指示に違う結果
Day 7-14   🔴 役割を逸脱するエージェントが出現
Day 14     🔴 40人中どれが崩れているか特定不能。ログ追跡 2-3h/日
Day 30     💀 全廃止。ログ確認だけで週10時間以上

こはく氏の言葉:

作業時間を減らすために作ったのに、気づけばログ確認だけで週10時間以上溶けた

壊れる3つの構造的理由

理由1: context rot(記憶の腐敗)

トークン数が増えるほどLLMの精度と想起力が劣化する現象。Anthropic公式ドキュメントでも「文脈は大きければいいわけではない」と明記されている

Claude Codeの現行仕様では、コンテキストの約83.5%(200Kウィンドウで約167Kトークン)に達するとcompactionが発動する。2026年3月時点で1Mコンテキストが一般利用可能になったが、Anthropic CPOのJon Bell氏によるとcompactionイベントは15%減に留まる。

トークン数と安定性の関係(実測ベース):

  ~50K tokens   ████████████████████  安定
  ~100K tokens  ████████████████      ブレ始める
  ~150K tokens  ██████████            明確に劣化
  ~200K tokens  ████                  compaction発動

こはく氏の実測: 10万トークンを超えると出力のブレが目立ち始めた。

理由2: compaction後の構成崩壊

長時間運用で会話履歴が自動圧縮(compaction)される。Claude Codeの公式リリースノートにも「圧縮後に一部のエージェントが消えたり、重複生成される不具合」が報告されている。

会話の流れの中だけで役割や引き継ぎを設定していると、圧縮が走った瞬間にその前提ごと消え去る。

こはく氏の表現:

「3人が消えて、2人が重複して、残りの35人はそれに気づかない」

graph LR subgraph Before["Compaction前(5人が正常稼働)"] direction LR A1["✅ A"] --> A2["✅ B"] --> A3["✅ C"] --> A4["✅ D"] --> A5["✅ E"] end Before -- "⚡ 自動圧縮が発動" --> After subgraph After["Compaction後(構成が崩壊)"] direction LR B1["✅ A"] --> B2["❌ B 消失"] --> B3["✅ C"] --> B4["⚠️ C 重複"] --> B5["✅ E"] end style B2 fill:#7f1d1d,stroke:#ef4444,color:#fff style B4 fill:#78350f,stroke:#f59e0b,color:#fff

実測: 40人体制で3時間回すとほぼ確実に圧縮が走り、崩壊する。

理由3: テキストのルールは絶対命令ではない

「自分で作業するな。指示だけ出せ」と書いても、LLMにとってルール文は文脈の一部として処理される。履歴、途中のやりとり、直前の出力に引っ張られて解釈がズレる。

学術研究でも裏付けられている。2025年の論文「Why Do Multi-Agent LLM Systems Fail?」では、マルチエージェントの失敗を14のモードに分類。主要な3カテゴリ:

失敗カテゴリ 内容
仕様・設計の失敗 タスク仕様違反、役割逸脱 「レビューだけしろ」と言ったのにコードを書き始める
エージェント間の不一致 情報隠蔽、タスク逸脱 AがBに必要な情報を渡さない
タスク検証・終了の失敗 早期終了、検証不足 バグがあるのに「完了」と報告

この論文ではChatDevの正確性が25%程度と報告されており、マルチエージェントの信頼性がまだ低い段階であることを示している。

なぜ「人数を増やす」が機能しないのか

Googleの2026年3月のレポート「Scaling Principles for Agentic Architectures」でも、マルチエージェントのスケーリングにおける3つの効果が報告されている:

効果 内容
ツール調整トレードオフ 多くのツールを使うタスクほど、マルチエージェントのオーバーヘッドで性能が下がる
能力飽和 エージェントを追加しても効果が逓減する
トポロジー依存のエラー増幅 中央集権型のほうがエラーが少ない

こはく氏の実体験もこの研究結果と一致する。40体の分散型アーキテクチャは、理論的にも実践的にもスケーリングの壁にぶつかる構造だった。

「育てれば良くなる」は順番が違う

guidelinesを育てる = ファイルが増える = コンテキストが重くなる = context rotが加速。

こはく氏:

壊れやすい仕組みの上に知識を積んでも、崩れやすくなるだけ。エスカレーションルールもない会社に人を増やすのと同じ。

エージェントには全体視野がない

40人全員が自分のコンテキストの中だけで動いている。隣のエージェントが何をやっているか知らない。

graph TD A["Agent A
自分のコンテキスト"] --> A1[タスク実行] --> A2[出力] B["Agent B
自分のコンテキスト"] --> B1[タスク実行] --> B2[出力] C["Agent C
自分のコンテキスト"] --> C1[タスク実行] --> C2[出力] A2 -. "AがBの出力に矛盾
→ 誰も気づかない" .-> B2 B2 -. "BがCのタスクを重複実行
→ 誰も気づかない" .-> C2 Chief["チーフエージェント
自分のコンテキストの壁"] -. "全体最適できない" .-> A Chief -. "全体最適できない" .-> B Chief -. "全体最適できない" .-> C

こはく氏:

全体をみわたして意思決定する。AとBの矛盾に気づく。Cの出力がDを壊すことを予測する。これは2026年では人間の仕事。

出力の精度を上げる2つのルール

AIの出力がポンコツに見える原因は、プロンプトではなく「一発で完璧に」を求めていること。

ルール1: 「待て」

一発で完成させようとせず、レビューと修正を繰り返す。1回目の出力は下書き。

graph TD subgraph X["❌ 従来"] A1[プロンプト] --> A2[完成品を期待] --> A3[ポンコツ] --> A4[諦める] end subgraph O["✅ 改善"] B1[プロンプト] --> B2[下書き] --> B3[フィードバック] --> B4[修正] --> B5[再レビュー] --> B6[完成] end

ルール2: 「検証しろ」

作ったエージェントと別のエージェントにチェックさせる。自分で作ったものを自分でチェックしてもミスに気づきにくい。これは人間もAIも同じ。

graph TD subgraph X["❌ 従来"] A1[Agent Aが生成] --> A2[Agent Aがチェック] --> A3[見落とす] end subgraph O["✅ 改善"] B1[Agent Aが生成] --> B2[Agent Bがチェック] --> B3[客観的に検出] end

この2つを徹底してからやり直し率が体感で7割減。

まとめ: 40人より1人の設計

教訓 詳細
40人は構造的に壊れやすい context rot / compaction / 指示の限界
育てる前に土台 壊れない設計が先、知識の積み上げは後
「動く」≠「使える」 エラー検知・特定・修正・担当の4条件が必要
全体視野は人間 現時点ではAIに全体最適の判断は難しい
プロンプトが悪いのではない 「待て」と「検証しろ」で精度は上がる

AI社員を40人雇うのは、1人を使いこなしたあとでいい。

参考リンク


この記事はAI関連コンテンツの解説記事です。

よくある質問
なぜ40体のAIエージェントを全廃止したのか
運用保守コスト(ログ確認だけで週10時間以上)が実利を完全に上回った。context rot、compaction後の構成崩壊、指示逸脱の3つの構造的問題が原因。
context rotとは何か
トークン数が増えるほどLLMの精度と想起が劣化する現象。実測では10万トークンを超えると出力のブレが目立ち始めた。Anthropic公式ドキュメントでも言及されている。
compaction後に何が起きるのか
会話履歴の自動圧縮により、一部のエージェントが消えたり重複生成される。40人体制で3時間回すとほぼ確実に圧縮が走り、構成が崩壊する。
AI出力の精度を上げるにはどうすればよいか
2つのルール。1つ目は「待て」:一発で完成させず、レビューと修正を繰り返す。2つ目は「検証しろ」:作成者と別のエージェントにチェックさせる。これでやり直し率が体感7割減。
広告
🔌
MCP対応ツール特集
Claude Codeと連携できるMCPサーバーの日本語解説まとめ
X 🧵 Threads Facebook LINE B! はてブ
Next Read →
⚙️ AIコーディングエージェント「Superpowers」公開—TDD・仕様管理を自動注入
← OpenAI Codex Plugin CC:C/C++コード生成の自動化プラグイン AIコーディングエージェント「Superpowers」公開—TDD・仕様管理を自動注入 →