なぜ40体のAIエージェントを全廃止したのか

運用保守コスト（ログ確認だけで週10時間以上）が実利を完全に上回った。context rot、compaction後の構成崩壊、指示逸脱の3つの構造的問題が原因。

context rotとは何か

トークン数が増えるほどLLMの精度と想起が劣化する現象。実測では10万トークンを超えると出力のブレが目立ち始めた。Anthropic公式ドキュメントでも言及されている。

compaction後に何が起きるのか

会話履歴の自動圧縮により、一部のエージェントが消えたり重複生成される。40人体制で3時間回すとほぼ確実に圧縮が走り、構成が崩壊する。

AI出力の精度を上げるにはどうすればよいか

2つのルール。1つ目は「待て」：一発で完成させず、レビューと修正を繰り返す。2つ目は「検証しろ」：作成者と別のエージェントにチェックさせる。これでやり直し率が体感7割減。

Claude Codeで40体のAIエージェントを構築→1ヶ月で全廃止した実験の教訓

実験の概要

こはく氏（@Kohaku_NFT）がClaude Code Maxプラン（月$200）の環境で、40体のAIエージェントを構築して1ヶ月間運用した実験の記録。

エージェントの構成:

リーダー — 全体の指揮・タスク振り分け
ライター — 文章生成
リサーチャー — 情報収集
コーダー — コード実装
レビュアー — 品質チェック

役割分担、ルール設定、階層構造の設計に丸2日。40体分のguidelinesファイルは合計数万トークン。

時系列: どう壊れていったか

Day 1-3    ✅ 正常稼働。指示通りに返ってくる
Day 7      ⚠️  出力の再現性が低下。同じ指示に違う結果
Day 7-14   🔴 役割を逸脱するエージェントが出現
Day 14     🔴 40人中どれが崩れているか特定不能。ログ追跡 2-3h/日
Day 30     💀 全廃止。ログ確認だけで週10時間以上

こはく氏の言葉:

作業時間を減らすために作ったのに、気づけばログ確認だけで週10時間以上溶けた

壊れる3つの構造的理由

理由1: context rot（記憶の腐敗）

トークン数が増えるほどLLMの精度と想起力が劣化する現象。Anthropic公式ドキュメントでも「文脈は大きければいいわけではない」と明記されている。

Claude Codeの現行仕様では、コンテキストの約83.5%（200Kウィンドウで約167Kトークン）に達するとcompactionが発動する。2026年3月時点で1Mコンテキストが一般利用可能になったが、Anthropic CPOのJon Bell氏によるとcompactionイベントは15%減に留まる。

トークン数と安定性の関係（実測ベース）:

  ~50K tokens   ████████████████████  安定
  ~100K tokens  ████████████████      ブレ始める
  ~150K tokens  ██████████            明確に劣化
  ~200K tokens  ████                  compaction発動

こはく氏の実測: 10万トークンを超えると出力のブレが目立ち始めた。

理由2: compaction後の構成崩壊

長時間運用で会話履歴が自動圧縮（compaction）される。Claude Codeの公式リリースノートにも「圧縮後に一部のエージェントが消えたり、重複生成される不具合」が報告されている。

会話の流れの中だけで役割や引き継ぎを設定していると、圧縮が走った瞬間にその前提ごと消え去る。

こはく氏の表現:

「3人が消えて、2人が重複して、残りの35人はそれに気づかない」

graph LR subgraph Before["Compaction前（5人が正常稼働）"] direction LR A1["✅ A"] --> A2["✅ B"] --> A3["✅ C"] --> A4["✅ D"] --> A5["✅ E"] end Before -- "⚡ 自動圧縮が発動" --> After subgraph After["Compaction後（構成が崩壊）"] direction LR B1["✅ A"] --> B2["❌ B 消失"] --> B3["✅ C"] --> B4["⚠️ C 重複"] --> B5["✅ E"] end style B2 fill:#7f1d1d,stroke:#ef4444,color:#fff style B4 fill:#78350f,stroke:#f59e0b,color:#fff

実測: 40人体制で3時間回すとほぼ確実に圧縮が走り、崩壊する。

理由3: テキストのルールは絶対命令ではない

「自分で作業するな。指示だけ出せ」と書いても、LLMにとってルール文は文脈の一部として処理される。履歴、途中のやりとり、直前の出力に引っ張られて解釈がズレる。

学術研究でも裏付けられている。2025年の論文「Why Do Multi-Agent LLM Systems Fail?」では、マルチエージェントの失敗を14のモードに分類。主要な3カテゴリ:

失敗カテゴリ	内容	例
仕様・設計の失敗	タスク仕様違反、役割逸脱	「レビューだけしろ」と言ったのにコードを書き始める
エージェント間の不一致	情報隠蔽、タスク逸脱	AがBに必要な情報を渡さない
タスク検証・終了の失敗	早期終了、検証不足	バグがあるのに「完了」と報告

この論文ではChatDevの正確性が25%程度と報告されており、マルチエージェントの信頼性がまだ低い段階であることを示している。

なぜ「人数を増やす」が機能しないのか

Googleの2026年3月のレポート「Scaling Principles for Agentic Architectures」でも、マルチエージェントのスケーリングにおける3つの効果が報告されている:

効果	内容
ツール調整トレードオフ	多くのツールを使うタスクほど、マルチエージェントのオーバーヘッドで性能が下がる
能力飽和	エージェントを追加しても効果が逓減する
トポロジー依存のエラー増幅	中央集権型のほうがエラーが少ない

こはく氏の実体験もこの研究結果と一致する。40体の分散型アーキテクチャは、理論的にも実践的にもスケーリングの壁にぶつかる構造だった。

「育てれば良くなる」は順番が違う

guidelinesを育てる = ファイルが増える = コンテキストが重くなる = context rotが加速。

こはく氏:

壊れやすい仕組みの上に知識を積んでも、崩れやすくなるだけ。エスカレーションルールもない会社に人を増やすのと同じ。

エージェントには全体視野がない

40人全員が自分のコンテキストの中だけで動いている。隣のエージェントが何をやっているか知らない。

graph TD A["Agent A
自分のコンテキスト"] --> A1[タスク実行] --> A2[出力] B["Agent B
自分のコンテキスト"] --> B1[タスク実行] --> B2[出力] C["Agent C
自分のコンテキスト"] --> C1[タスク実行] --> C2[出力] A2 -. "AがBの出力に矛盾
→ 誰も気づかない" .-> B2 B2 -. "BがCのタスクを重複実行
→ 誰も気づかない" .-> C2 Chief["チーフエージェント
自分のコンテキストの壁"] -. "全体最適できない" .-> A Chief -. "全体最適できない" .-> B Chief -. "全体最適できない" .-> C

こはく氏:

全体をみわたして意思決定する。AとBの矛盾に気づく。Cの出力がDを壊すことを予測する。これは2026年では人間の仕事。

出力の精度を上げる2つのルール

AIの出力がポンコツに見える原因は、プロンプトではなく「一発で完璧に」を求めていること。

ルール1: 「待て」

一発で完成させようとせず、レビューと修正を繰り返す。1回目の出力は下書き。

graph TD subgraph X["❌ 従来"] A1[プロンプト] --> A2[完成品を期待] --> A3[ポンコツ] --> A4[諦める] end subgraph O["✅ 改善"] B1[プロンプト] --> B2[下書き] --> B3[フィードバック] --> B4[修正] --> B5[再レビュー] --> B6[完成] end

ルール2: 「検証しろ」

作ったエージェントと別のエージェントにチェックさせる。自分で作ったものを自分でチェックしてもミスに気づきにくい。これは人間もAIも同じ。

graph TD subgraph X["❌ 従来"] A1[Agent Aが生成] --> A2[Agent Aがチェック] --> A3[見落とす] end subgraph O["✅ 改善"] B1[Agent Aが生成] --> B2[Agent Bがチェック] --> B3[客観的に検出] end

この2つを徹底してからやり直し率が体感で7割減。

まとめ: 40人より1人の設計

教訓	詳細
40人は構造的に壊れやすい	context rot / compaction / 指示の限界
育てる前に土台	壊れない設計が先、知識の積み上げは後
「動く」≠「使える」	エラー検知・特定・修正・担当の4条件が必要
全体視野は人間	現時点ではAIに全体最適の判断は難しい
プロンプトが悪いのではない	「待て」と「検証しろ」で精度は上がる

AI社員を40人雇うのは、1人を使いこなしたあとでいい。

参考リンク

この記事はAI関連コンテンツの解説記事です。