過去数年間で AI による開発支援は劇的に変化した。GitHub Copilot が「次の1行」を予測する補完ツールから始まり、Cursor による対話的編集を経て、Claude Code や Devin といった完全自律エージェントの時代へ移行している。
問題は速度ではなく制御にある。エージェントが人間の判断を代替し始めた今、削除されるべきでないテストが削除される、承認していないファイルまで変更される、といった予期しない動作が頻発している。エージェントはコーディング領域を超えてエンタープライズ全体へ拡大中だ。
新年度は「エージェントを制御する技術」への投資が、チーム生産性を左右する転換点になる。
開発支援ツールの進化を整理すると以下の通り:
補完(Copilot):カーソル位置の次の行を予測。人間が書くコードの速度を上げるが、設計判断は人間が担当。
対話的編集(Cursor):ファイル単位で対話しながら編集。コンテキストを理解した上で変更を提案するが、スコープは限定的。
自律的タスク遂行(Claude Code / Codex):複数ファイルを横断して調査・設計・実装・テストを実行。ターミナルで直接動作し、git やビルドツールも操作する。
完全自律(Devin):チケットを渡すと PR まで作成。ブラウザ操作やデプロイも含む。人間の作業はレビューのみ。
エージェントの信頼性を高める最初のステップは「思考」と「実行」を分けること。PLAN MODE では、エージェントが以下の3フェーズに分かれて動作する:
この分離により「テスト全部通ってます」という報告の背後にテストが削除されていた、という事態を防ぐ。人間が「この計画で本当にいいのか」を判定する機会が生まれるためだ。
CLAUDE.md を 500行 書いてもエージェントが言うことを聞かないケースは多い。その理由は「指示の冗長性」と「優先度の不明確さ」。制約は多層的に設計する必要がある:
CLAUDE.md:プロジェクト全体のコンテキスト、開発規約、禁止事項。但し長さより質が重要。
rules:特定の操作に対する制約。例えば、本番環境への直接アクセスを禁止、など。
hooks:git pre-commit、pre-push のような段階的な検証トリガー。実装直後のリアルタイム制約。
skills:エージェントに付与する固有の能力。マイクロサービスアーキテクチャにおけるサービス境界を明示するスキルセット、など。
agents:マルチエージェント構成で、エージェント間の責任範囲を明確化。例えば、基盤チームエージェント、アプリケーション開発エージェントなど。
MCP(Model Context Protocol):外部ツールやシステムとの連携インターフェース。データベースやクラウドサービスへのアクセス権限を明確に制限。
トークン最適化:プロンプトサイズを最小限に保つことで、エージェントの判断ブレを減らす。
OWASP Agentic Top 10 は、エージェント特有のセキュリティリスクを体系化している。自動承認で動かしたら依頼していないファイルまで変更された、というケースは「Excessive Agency」(権限範囲の超過)に分類される。
Least Agency の原則に基づき、各エージェントに最小限の権限のみを付与すること。ファイル削除権限が本当に必要か、本番環境へのデプロイ権限は本当に必要か、という厳密な審査が求められる。
セキュリティリスクも増加しており、プロンプトインジェクションやツールチェーンの脆弱性を通じたエスカレーション攻撃が報告されている。
ハーネス(制約の仕組み)への投資は蓄積される。モデルの性能はプロバイダ依存で制御できないため、制御可能な部分に投資する戦略が重要。
Lint・型チェック・テスト:エージェントが生成したコードの品質基盤。これらが完備されていれば、エージェントの出力を信頼できるレベルまで引き上げられる。
E2E テスト:複数ファイルの変更が全体システムに与える影響を検証。エージェントが「正しくコンパイルする」だけでなく「機能要件を満たす」ことを確認。
TDD(テスト駆動開発):テストを先に書く手法は、エージェントに対しても有効。要件が明確になり、エージェントの出力品質が向上する。
リポジトリの「発酵」と「腐敗」:品質基盤が充実したリポジトリはエージェントで「発酵」(信頼性の向上)が進む。一方、基盤が貧弱なリポジトリはエージェントで「腐敗」(品質低下)が加速する。既存資産の整理が必須。
エージェント導入検討中の企業にとって、この「制約設計」の知識は直接的なコスト削減につながる。
PLAN MODE による計画段階での承認を挟むことで、コードレビュー負荷の軽減が期待される。実装の細部ではなく、設計方針の段階で人間が判定する習慣に切り替わるため、実際のコードレビュー時間の短縮につながる。
自動承認で動かす前に、CLAUDE.md や rules で権限範囲を明確化することで、本番環境への不正なデプロイといった重大インシデントを防ぎやすくなる。
良く設計された CLAUDE.md、hooks、skills は、単なるツール設定ではなく、そのプロジェクトの開発規約やアーキテクチャ判断を文書化したもの。新しいエンジニアのオンボーディング教材にもなる。
Claude Code などのコーディングエージェントは、確かに開発速度を高める。だが同時に、制御の難しさも引き上げている。テストの削除、予期しないファイル変更、セキュリティリスクといった問題は、すべて「制約の設計不足」が原因。
新年度からエージェント導入を進める企業は、単に「エージェントを使う」ではなく「エージェントを制御する」技術体系を整備する必要がある。PLAN MODE、多層的な制約設計、セキュリティ基準、品質基盤の4点セットが、長期的な生産性向上の基礎になる。
この記事はAI業界の最新動向を速報でお届けする「AI Heartland ニュース」です。