AIエージェントとは、LLM(大規模言語モデル)が「計画→判断→ツール実行→結果評価」を自律的にループで回し、人間の代わりにタスクを最後までやり切る仕組みです。

ChatGPTのような対話型AIが「質問に答える」のに対し、AIエージェントは「行動する」点が決定的に違います。メール送信・コード実行・外部API呼び出し・ブラウザ操作まで、自分でツールを選んで実行します。

2026年現在、フレームワークが乱立し用語も種類も分かりにくくなっています。本記事は仕組み・3要素・種類・主要OSS比較・最小コード・落とし穴までを一枚で俯瞰できる入門ハブとしてまとめます。

AIエージェントフレームワークの細かい選定基準は AIエージェントフレームワーク比較2026|LangGraph・CrewAI・Dify等9種をStar数・実コードで検証 をご覧ください。本記事はその前段にあたる「そもそもAIエージェントとは何か」を解説します。

この記事のポイント
  • ・AIエージェントとは、LLMが「計画→行動→観測→省察」を自律ループで回し、行動でタスクを完了させる仕組み。
  • ・チャットボットとの違いは「ツールを使って行動する」点。メール・コード・API・GUI操作が可能。
  • ・エージェントの中核は計画(Planning)・記憶(Memory)・ツール実行(Tool Use)の3要素。
  • ・種類はReAct型・マルチエージェント型・自律型・computer use型の4つで整理できる。
  • ・主要OSSはLangChain/LangGraph/AutoGen/CrewAI/OpenAI Agents SDK/Claude Agent SDK/Mastra。

30秒で理解するAIエージェントの全体像

細部に入る前に、まず最短で要点を押さえます。

・AIエージェント=LLMが「計画→判断→ツール実行→結果評価」を自律ループで回す仕組み
・チャットボットとの違いは「行動」を持つ点。メール送信・コード実行・外部API呼び出しが可能
・主要フレームワーク:LangChain / AutoGen / CrewAI / OpenAI Agents SDK / Claude Agent SDK / Mastra
・2026年は「マルチエージェント連携」と「computer use(GUI操作)」が二大トレンド

この4点が頭に入っていれば、以降はそれを掘り下げる内容です。順に見ていきましょう。

AIエージェントとは何か:定義とチャットボットとの違い

AIエージェントの定義はシンプルです。「目標を与えると、LLMが自分で計画を立て、ツールを使って実行し、結果を見て次の手を決める」自律的なソフトウェアを指します。

鍵は「自律ループ」です。1回の応答で終わらず、結果を観測して計画を修正し、目標に達するまで行動を繰り返します。

LLM単体との違い

LLM単体は「入力に対して文章を返す」だけです。外部に働きかける手段を持ちません。

エージェントはそのLLMを「頭脳」として使い、ツール(関数・API・コマンド)という「手足」を接続します。これにより文章生成が「行動」に変わります。

チャットボットとの違い

チャットボットとエージェントは出発点が同じLLMでも、役割が異なります。

・チャットボット:質問に答えるのが仕事。出力はテキスト。状態は基本的に会話履歴のみ
・AIエージェント:目標を達成するのが仕事。出力は「実行された行動」。ツール・記憶・計画を持つ

つまりチャットボットは「答える」、エージェントは「動いて完了させる」と覚えると区別しやすくなります。

自律性の度合いによる分類

「エージェント的(agentic)」かどうかは0か1かではなく、自律性の度合いで連続的に変わります。

人間の関与が多い順に「ワークフロー型(手順固定)→ ツール使用型(LLMがツールを選ぶ)→ ReAct型(推論と行動を交互)→ 自律型(長期目標を自分で分解)」と並びます。自律性が上がるほど柔軟になる一方、暴走リスクとコストも増えます。

Anthropicは技術記事「Building effective agents」で、固定的な制御フローを持つものを「ワークフロー」、LLMが自分で手順を決めるものを「エージェント」と区別しています。実務ではこの2つを組み合わせるのが現実的です。

なぜ今AIエージェントが普及したのか

エージェントという発想自体は古くからありますが、実用になったのは最近です。背景には3つの技術的な進歩があります。

・推論力の向上:モデルが多段階の計画を立てられるほど賢くなった
・function callingの標準化:LLMが構造化された形でツールを正確に呼べるようになった
・コンテキスト長の拡大:長い作業履歴や大量の資料を一度に渡せるようになった

この3つが揃ったことで、「LLMに行動させる」という構想が2024〜2025年に一気に現実化しました。2026年はそれが個人開発から企業の業務システムまで広がる普及期にあたります。

裏を返せば、エージェントの性能はモデルの賢さに強く依存します。同じフレームワークでも、土台のLLMが変われば成功率は大きく変わります。だからこそモデル選定はエージェント設計の出発点になります。

エージェントの仕組み:中核となる3要素

AIエージェントの仕組みは、突き詰めると3つの要素で説明できます。計画・記憶・ツール実行です。

flowchart TB U[ユーザーの目標] --> LLM[LLM
推論エンジン=頭脳] LLM --> P[計画 Planning] LLM --> M[記憶 Memory] LLM --> T[ツール実行 Tool Use] T --> EXT[外部API / コード実行 / Web操作] EXT -->|結果| LLM M -->|文脈| LLM

計画(Planning)

計画とは、大きな目標を実行可能な小さなステップへ分解する能力です。

「競合3社を調べてレポートを作る」という指示を、「①各社サイトを取得②要点抽出③表に整理④文章化」のような手順に落とし込みます。

高度なエージェントは、途中で失敗すると計画自体を立て直します。この「再計画」が、手順固定のRPAとの大きな差です。

記憶(Memory)

記憶は「短期記憶」と「長期記憶」に分かれます。

・短期記憶:今のタスクの文脈。コンテキストウィンドウに載る会話・観測結果
・長期記憶:過去の経験・知識。ベクトルDBやファイルに保存し、必要時に検索して呼び出す

長期記憶の実装にはRAG(検索拡張生成)がよく使われます。知識検索の仕組みは RAGとは?仕組み・構築方法・主要OSSを実コードで解説する完全ガイド2026 で詳しく扱っています。

ツール実行(Tool Use)

ツール実行は、エージェントに「手足」を与える部分です。LLMが「どのツールを・どの引数で呼ぶか」をJSON形式で出力し、プログラム側が実際に実行して結果を返します。

これはfunction calling(ツール呼び出し)と呼ばれる機構で、現在の主要モデルはほぼ標準対応しています。ツールの例は「Web検索」「ファイル読み書き」「コード実行」「外部API」など無限です。

Plan → Act → Observe → Reflect ループ

3要素を時間軸で動かすと、エージェントの基本動作である自律ループになります。

flowchart LR A[計画
Plan] --> B[行動
Act ツール実行] B --> C[観測
Observe 結果取得] C --> D[省察
Reflect 評価] D -->|目標未達| A D -->|目標達成| E[完了
Done]

このループの源流は2022年の論文「ReAct: Synergizing Reasoning and Acting in Language Models」(arXiv:2210.03629)です。推論(Reasoning)と行動(Acting)を交互に生成させる発想が、現在の大半のエージェント実装の土台になっています。

AIエージェントの種類:4つのタイプで整理する

種類は無数にありますが、設計の観点では次の4タイプに整理すると見通しが良くなります。

ReAct型(推論と行動を交互に)

最も基本的で広く使われる型です。「考える→ツールを使う→結果を見る」を1ステップずつ交互に繰り返します。

単一のエージェントが順番に処理するため、挙動が追いやすくデバッグしやすいのが利点です。多くの入門チュートリアルはこの型から始まります。

マルチエージェント型(分業・協調)

役割の異なる複数エージェントが分業・協調してタスクを進める型です。

flowchart TB O[オーケストレーター
Lead Agent] --> A1[調査担当
Sub Agent] O --> A2[分析担当
Sub Agent] O --> A3[執筆担当
Sub Agent] A1 -->|結果| O A2 -->|結果| O A3 -->|結果| O O --> R[最終成果物]

CrewAIの「役割を持つクルー」やAutoGenの「会話するエージェント群」がこの型です。複雑な多段階タスクで威力を発揮しますが、エージェント間で文脈がズレると破綻しやすい難しさもあります。

マルチエージェントは万能ではありません。Cognition社は「Don't Build Multi-Agents」で、文脈分離による脆さを理由に単一スレッド構成を推奨しました。一方Anthropicは「How we built our multi-agent research system」で並列サブエージェントの有効性を示しています。両者の共通結論は「成否を分けるのはメモリ管理」です。まず単一エージェントで作り、必要になってから分割するのが安全です。

自律型(長期目標を持つ)

「目標だけ与えれば、あとは全部やっておいて」という長期自律型です。初期のAuto-GPTが代表例として知られます。

理想的ですが、2026年時点でも長時間の完全放置は暴走・コスト膨張・品質低下を招きやすく、本番では人間のチェックポイントを挟むのが一般的です。

computer use型(GUI操作)

画面を見てマウス・キーボードを操作し、人間のようにPCを使う型です。APIが無いツールも操作できる点が革新的です。

Anthropicが2024年10月に「computer use」をベータ公開して以降、Google・OpenAIなども追随し、2026年の最重要トレンドになっています。

種類 特徴 向くタスク 難しさ
ReAct型 推論と行動を交互に1本道で実行 検索→要約、QA、単純な自動化 低(追いやすい)
マルチエージェント型 役割分担で協調 リサーチ→分析→執筆など多段階 高(文脈共有が課題)
自律型 長期目標を自分で分解 長時間の調査・開発 高(暴走・コスト管理)
computer use型 画面をGUI操作 API非対応アプリの操作 中〜高(誤操作リスク)

AIエージェントとRPA・従来の自動化との違い

「自動化ならRPAやスクリプトで十分では?」という疑問はよく出ます。違いを正しく理解すると、エージェントを使うべき場面が見えてきます。

RPA(Robotic Process Automation)は「人があらかじめ定義した手順」を正確に繰り返す技術です。決定論的で監査しやすい反面、画面レイアウトの変更や想定外のエラーに弱いのが弱点です。

AIエージェントはLLMがその場で計画を立て直すため、手順を全部書かなくても目標を与えれば状況に応じて判断します。柔軟ですが非決定論的で、同じ入力でも毎回まったく同じ動きになるとは限りません。

観点 従来のスクリプト/RPA AIエージェント
動作の決め方 人が手順を全部書く LLMがその場で計画
想定外への対応 弱い(エラーで停止) 強い(再計画する)
再現性 高い(決定論的) 低い(非決定論的)
監査のしやすさ 高い 中(思考過程の記録が必要)
向く業務 定型・大量・厳密 判断・調査・非定型
実務では二者択一ではなく併用が正解です。定型で厳密な部分はRPAやスクリプトに任せ、判断や調査が必要な部分だけエージェントに委ねる。この「決定論的な土台+判断はLLM」という設計が、コストと信頼性のバランスが最も良くなります。

代表的OSSフレームワーク比較

ここからはAIエージェントを実際に作るための主要OSSフレームワークを比較します。スター数は2026年6月時点の概算です。

フレームワーク スター 言語 設計思想・得意分野 学習コスト
LangChain 約139K Python 最大のエコシステム。膨大な連携部品 中〜高
AutoGen 約59K Python/C#/TS 会話するマルチエージェント(※後述)
CrewAI 約53K Python 役割ベースの宣言的マルチエージェント 低〜中
LangGraph 約34K Python グラフで制御フローを厳密に記述
OpenAI Agents SDK 約27K Python 軽量。Swarmの後継。100+モデル対応
Mastra 約25K TypeScript TS製。本番運用機能が充実 低〜中
Claude Agent SDK 約7K Python/TS Claude Codeの汎用化。MCP標準対応 低〜中

各フレームワークの違いを設計思想で押さえておきましょう。

・LangChain:とにかく連携部品が多い「全部入り」。低レベル制御は姉妹のLangGraphへ分離
・LangGraph:ノード=処理・エッジ=遷移でループや分岐を明示。human-in-the-loopに強い
・CrewAI:「役割」「目標」を宣言するだけで協調が動く。初心者が概念を掴みやすい
・OpenAI Agents SDK:抽象化が薄く軽量。OpenAI Swarm(教育用・非推奨)の本番版
・Mastra:TypeScript一本で組める。評価・可観測性など運用機能が標準装備
・Claude Agent SDK:Claude Codeを汎用化した基盤。旧称はClaude Code SDK

AutoGenは2026年時点でメンテナンスモードです。MicrosoftはAutoGenとSemantic Kernelを統合した「Microsoft Agent Framework」へ移行を進めており、新規採用はそちらが推奨されています。学習用には今も有用ですが、新規本番採用時は後継の動向を確認してください。

より詳しい9種の実コード比較は AIエージェントフレームワーク比較2026 に、本番品質へ引き上げる設計原則は 12-Factor Agents完全解説:本番投入できるLLMエージェント設計12原則を一次ソースで読む にまとめています。

最小コード例:まず動かして理解する

概念は手を動かすと一気に腑に落ちます。代表的な2パターンの最小コードを示します。

1. LangChain/LangGraphでReActエージェント

現在のLangChainでは、ReActエージェントはcreate_react_agent(LangGraph)で数行で作れます。

# pip install langgraph langchain-openai
from langgraph.prebuilt import create_react_agent
from langchain_core.tools import tool

@tool
def get_weather(city: str) -> str:
    """指定都市の天気を返すツール(ダミー実装)"""
    return f"{city}は晴れ、気温24度です。"

# モデル + ツールを渡すだけでReActループが組み上がる
agent = create_react_agent("openai:gpt-4o", tools=[get_weather])

result = agent.invoke(
    {"messages": [{"role": "user", "content": "東京の天気は?"}]}
)
print(result["messages"][-1].content)

このコードの裏では、LLMが「get_weatherを呼ぶべきだ」と判断→ツール実行→結果を観測→最終回答、というReActループが自動で回っています。

2. CrewAIでマルチエージェント連携

CrewAIは「役割」と「目標」を宣言するだけで、複数エージェントの協調が組めます。

# pip install crewai
from crewai import Agent, Task, Crew

researcher = Agent(
    role="リサーチャー",
    goal="テーマの最新情報を3点に要約する",
    backstory="一次ソース重視の調査が得意な専門家",
)
writer = Agent(
    role="ライター",
    goal="要約を分かりやすい日本語の記事にする",
    backstory="初心者向け解説が得意な編集者",
)

task1 = Task(description="AIエージェントの2026動向を調査", agent=researcher)
task2 = Task(description="調査結果を800字の記事に", agent=writer)

crew = Crew(agents=[researcher, writer], tasks=[task1, task2])
print(crew.kickoff())

リサーチャーの出力をライターが受け取り、分業で記事を完成させます。これが最小のマルチエージェント連携です。

3. 自前で書く最小エージェントループ

フレームワークの内部で何が起きているかを理解するため、自前のループも示します。擬似コードに近い最小形です。

def run_agent(goal, llm, tools, max_steps=5):
    history = [{"role": "user", "content": goal}]
    for step in range(max_steps):          # ループ上限=暴走防止
        action = llm.decide(history, tools) # 計画+行動の決定
        if action["type"] == "final":       # 省察: 目標達成と判断
            return action["answer"]
        result = tools[action["name"]](**action["args"])  # ツール実行
        history.append({"role": "observation", "content": result})  # 観測
    return "上限ステップに達しました"

max_stepsでループ回数を必ず制限している点に注目してください。これは次章で述べる「暴走対策」の最小実装です。

実践ユースケース

AIエージェントが実務で使われている代表的な領域を挙げます。

コーディング自動化

最も普及した用途です。コード生成・リファクタリング・テスト作成・PR作成までをエージェントが担います。

GitHub CopilotやCursorのエージェントモードが代表例です。関連動向は GitHub Copilotのネイティブアプリ「Project Polaris」をBuild 2026の発表から読む で扱っています。AIコーディング全体の作法は Vibe Coding完全ガイド2026 にまとめています。

調査・リサーチ自動化

複数ソースを横断して情報を集め、要約・比較してレポート化する用途です。マルチエージェント型が活きる領域でもあります。

KarpathyのAIエージェント実装を読み解いた autoresearch:KarpathyのAIエージェントが一晩でLLMを自律改善する最小構成フレームワーク入門 は、調査自動化の最小構成として参考になります。

カスタマーサポート

問い合わせ内容を理解し、社内ナレッジを検索し、必要なら返金APIなどを実行する用途です。RAGによる長期記憶とツール実行を組み合わせます。

データ分析・レポート生成

データ取得→集計→可視化→文章化までをエージェントに任せる用途です。定型の週次・月次レポートは特に費用対効果が高い領域です。

導入時の落とし穴とセキュリティ

エージェントは強力ですが、自律的に「行動する」ぶん固有のリスクがあります。導入前に必ず押さえておきましょう。

無限ループ・暴走

計画が失敗し続けると、同じ行動を延々と繰り返すことがあります。対策は明快で、ループ回数・実行時間・コストに必ず上限を設けることです。先の最小コードのmax_stepsがその最小実装です。

APIコストの想定外膨張

自律ループは1タスクで数十回モデルを呼ぶことがあり、コストが想定の数倍になりがちです。

トークン消費の最適化手法は AIエージェントのトークン最適化ガイド2026 にまとめています。予算アラートとキャッシュは最初から組み込むべきです。

プロンプトインジェクション

エージェントがWebや外部ファイルから読み込んだテキストに「これまでの指示を無視して〜せよ」という攻撃命令が仕込まれる脅威です。

外部から来るテキストは決して全面的に信頼しないでください。実際にGitHubのコメント経由でAIエージェントを乗っ取る攻撃が報告されています([GitHubコメント経由のプロンプトインジェクションでAIエージェントを攻撃する手口](/security/github-comment-prompt-injection-ai-agent-attack/))。外部入力とシステム指示を分離し、危険なツールには人間承認を挟むのが基本防御です。

ツール権限の最小化

エージェントに与えるツールの権限は最小限にします。ファイル削除・送金・本番DB操作などの破壊的操作は、human-in-the-loop(人間承認)を必須にします。

認証情報を狙う攻撃への多層防御は トークン窃取を多層で止める——セッション・AI推論・課金まで含めた防御パターン が参考になります。

2026年の最新動向

最後に、2026年のエージェント領域で押さえておくべき3つの潮流を挙げます。

computer useの普及

画面をGUI操作するcomputer use型が、Claude・Gemini・OpenAI・Microsoft MAIなど各社で実装され主流化しています。APIの無い業務システムも自動化対象に入り、適用範囲が一気に広がりました。

MCP(Model Context Protocol)の標準化

エージェントとツール/データソースを繋ぐ「共通端子」がMCPです。Anthropicが2024年に策定し、OpenAIも採用、2025年にはLinux Foundation傘下へ寄贈され事実上の標準になりました。

各フレームワークがMCP対応を進めており、ツール連携の再利用性が大きく向上しています。仕組みと自作方法は MCPサーバーの作り方2026年完全ガイド:TypeScript・Python両対応チュートリアル で解説しています。

「コンテキスト層」の整理

エージェントの賢さは「どの文脈を渡すか」で決まります。2026年は記憶・知識・権限を束ねる「コンテキスト層」を整理する動きが加速しました。

Microsoftが提唱する文脈基盤は Microsoft IQとは?Build 2026で示されたコンテキスト層の全体像 に、Claude Codeのコンテキスト管理の実装は ハーネスエンジニアリング完全解説 にまとめています。モデル選定そのものは LLMとは?完全ガイド2026 を参照してください。

AIエージェントの始め方:初心者の3ステップ

ここまでの内容を踏まえ、初心者が最短で実用に到達するための順序を示します。いきなり複雑な構成に挑むより、段階を踏むほうが結局は速く到達できます。

ステップ1:単一エージェントで「動く」を体験する

最初は欲張らず、ReAct型の単一エージェントを1本動かします。CrewAIやOpenAI Agents SDKなら、本記事の最小コード例レベルで「LLMがツールを呼ぶ」感覚が掴めます。

ここでの目標は完成度ではなく、「計画→ツール実行→観測」のループを自分の目で見ることです。ツールは天気取得や電卓など、結果が一目で分かるものを選びます。

ステップ2:ツールと記憶を足して実用化する

動きが分かったら、自分の業務に直結するツールを足します。Web検索・ファイル読み書き・社内APIなどです。

繰り返し使う知識はRAGで長期記憶に持たせます。この段階で「コスト上限」「ループ上限」を必ず入れておきます。実用化と暴走対策はセットで進めるのが鉄則です。

ステップ3:必要になってからマルチエージェント化する

単一エージェントで限界を感じたら、はじめて分業を検討します。最初からマルチエージェントにしないのが重要です。

フレームワーク選びで迷ったら、下の早見フローを目安にしてください。重要なのは「最初の1本を最後まで動かす」ことで、フレームワークは後から乗り換えられます。完璧な選定より、まず手を動かすことを優先しましょう。
flowchart TD Q1{使う主モデルは?} Q1 -->|Claude| C[Claude Agent SDK] Q1 -->|OpenAI| O[OpenAI Agents SDK] Q1 -->|こだわらない| Q2{言語は?} Q2 -->|TypeScript| M[Mastra] Q2 -->|Python| Q3{何を重視?} Q3 -->|宣言的に楽に| CR[CrewAI] Q3 -->|制御を厳密に| LG[LangGraph] Q3 -->|連携部品の多さ| LC[LangChain]

この3ステップと早見フローに沿えば、初心者でも遠回りせずに実用的なエージェントへ到達できます。最初から完璧を目指さず、小さく作って育てる姿勢が成功の近道です。

まとめ

AIエージェントとは、LLMが「計画→行動→観測→省察」を自律ループで回し、ツールを使って行動でタスクを完了させる仕組みです。チャットボットとの違いは「答える」か「動いて完了させる」か。中核は計画・記憶・ツール実行の3要素で、種類はReAct型・マルチエージェント型・自律型・computer use型に整理できます。まずはCrewAIやOpenAI Agents SDKなど最小コードで動くものから始め、暴走・コスト・プロンプトインジェクションへの対策を最初から組み込むのが、2026年の安全な第一歩です。

参考リンク

ReAct: Synergizing Reasoning and Acting in Language Models(arXiv:2210.03629) — エージェントの自律ループの原典
Anthropic: Building effective agents — ワークフローとエージェントの区別、設計指針
Anthropic: Introducing computer use — computer use型の公式発表
Anthropic: Introducing the Model Context Protocol — MCPの公式発表
Cognition: Don’t Build Multi-Agents — マルチエージェントの注意点
LangChain GitHubCrewAI GitHubOpenAI Agents SDK GitHub