Stirrup入門｜ArtificialAnalysis製・ベストプラクティス内蔵の軽量AIエージェントビルダー解説

Q: 独自ツールは追加できる？

できる。PydanticのBaseModelでパラメータを定義し、実行関数（executor）を書いてToolにまとめ、tools=[*DEFAULT_TOOLS, MY_TOOL]のようにAgentへ渡すだけだ。型と説明文がそのままLLMへのツール定義になるため、JSON Schemaを手書きする必要がない。MCPクライアントにも対応しているので、外部のMCPサーバが持つツール群をそのまま取り込むこともできる。本文「## ツール/メモリの組み込み」で実例を示す。

Q: どのLLMプロバイダに対応している？

OpenAI互換APIを話せるバックエンドならChatCompletionsClientで接続でき、OpenRouter・Deepseekなどをそのまま使える。さらにstirrup[litellm]を入れてLiteLLMClientを使えば、Anthropic Claude・Google Gemini・各種プロバイダをLiteLLM経由で統一的に扱える。モデルは1行差し替えるだけで切り替わるので、ベンチマークを見ながら最適なモデルを選ぶ運用がしやすい。

Stirrup Getting Started: ArtificialAnalysis's Lightweight Agent Builder Explained

🤖 AIエージェント tool AIエージェント stirrup artificialanalysis agent-framework litellm mcp python openrouter ai-agent

2026.06.08 1分更新 2026.06.08

A AI Heartland · 編集部

Stirrup入門｜ArtificialAnalysis製・ベストプラクティス内蔵の軽量AIエージェントビルダー解説 - AIツール日本語解説 | AI Heartland

ベンチマークで知られるArtificialAnalysisが公開した軽量エージェントフレームワークStirrupを、設計思想・導入・ツール/メモリ・モデル選択・他フレームワーク比較・実運用注意点まで公式の一次情報で通し解説。最小コードからエージェントを組みたい開発者の最初の地図になる。

Stirrup入門として、ArtificialAnalysis製の軽量AIエージェントビルダーを公式情報ベースで解説する。Stirrupは、モデル自身に進め方を委ね、コンテキスト管理や基盤ツールといったベストプラクティスを最初から内蔵した、MITライセンスのPythonエージェントフレームワークだ。本記事では設計思想から導入、ツール/メモリ組み込み、モデル選択、他フレームワークとの比較、実運用の注意点までを通しで整理する。

エージェント用フレームワークは数多いが、Stirrupは「枠組みを増やすのではなく、減らす」立ち位置で異彩を放っている。開発元は各社LLMをベンチマークで横断比較しているArtificialAnalysisで、GitHubスター数は400を超え、軽量な出発点テンプレートとして注目を集めている。

この記事でわかること
・Stirrupが「軽量＋ベストプラクティス内蔵」で何を肩代わりしてくれるのか
・最小コードでエージェントを起動する手順と、独自ツール/メモリの組み込み方
・LangGraph・CrewAI・OpenAI Agents SDKと比べたときの向き不向きと、本番運用の注意点

30秒で理解する

まず要点だけを先に押さえる。詳細は各セクションで掘り下げる。

・Stirrupは、ベンチマークで知られるArtificialAnalysisが公開したPython製の軽量AIエージェントビルダー（フレームワーク兼テンプレート）
・ライセンスはMIT。pip install stirrupで導入でき、クライアントとAgentを作ってタスク文字列を渡すだけで動く
・設計思想は「モデルに任せる」。Claude Codeのように、進め方をモデル自身に決めさせ、フレームワークは余計な制約をかけない
・code_exec（コード実行）・web_fetch・web_searchといった基盤ツールと、コンテキスト自動要約が標準装備
・独自ツールはPydanticで定義してtools=に足すだけ。MCPクライアントにも対応し、外部ツール群を取り込める
・OpenAI互換API・LiteLLM経由でClaude/GPT/Geminiなどを1行で差し替えられ、ベンチマークを見ながらモデルを選べる
・コード実行はローカル/Docker/E2Bサンドボックスから選択。本番では隔離前提

つまりStirrupは、「エージェントの定型部分（基盤ツール・コンテキスト管理）は用意するが、進め方はモデルに委ねる」という最小主義のAIエージェントビルダーだ。

Stirrupとは（開発元ArtificialAnalysisの信頼性）

Stirrupは、ArtificialAnalysisが公開した「エージェントを作るための軽量フレームワーク、ないし出発点となるテンプレート」だ。公式の説明では「The lightweight foundation for building agents（エージェント構築のための軽量基盤）」と表現されている。

そもそもエージェントとは何か、という前提を整理したい場合は、まずAIエージェントとは？仕組み・種類・代表的OSSフレームワークを初心者向けに解説【2026年版】を読むと本記事の位置づけがつかみやすい。Stirrupはそこで扱う「自律エージェント」を、最小コードで組むための土台にあたる。

注目すべきは開発元だ。ArtificialAnalysisは、各社のLLMを知能指数（Intelligence Index）・出力速度・トークン単価で横断比較するベンチマークサイトを運営しているチームである。日々モデルの実測値を公開しており、「どのモデルでエージェントがどれだけ性能を出すか」を最も観測してきた立場にいる。そのチームが多数の先行エージェントを分析し、共通して効くパターンを抽出してフレームワーク化したのがStirrupだ。

ベンチマークで「モデルの実力」を測り続けてきたチームが、その知見をエージェント設計に落とし込んでいる——これがStirrupの信頼性の核だ。机上の設計ではなく、実測の積み重ねからベストプラクティスが選ばれている。

数値面の現況を押さえておく。

・ライセンス: MIT（商用・私的利用とも可、要帰属表示）
・実装言語: Python（非同期API中心、asyncioベース）
・GitHubスター: 400超 / フォーク 40超
・バージョン: v0.1系（若く、APIは変わりうる）
・提供形態: インストール可能なパッケージ、かつフルカスタム用のテンプレート

「パッケージとしても、自分で全部書き換えるテンプレートとしても使える」二面性が、Stirrupの実用上のポイントになる。すぐ動かしたい人はパッケージで、挙動を細部まで握りたい人はテンプレートをforkして改造する、という二つの入口がある。

このクラスタの近接記事として、グラフで実行フローを組むLangGraph入門｜マルチエージェント・ステートマシン構築の基本と他フレームワークとの違い、役割分担で協調させるCrewAI入門｜マルチエージェント協調フレームワークの基本とLangGraph/AutoGenとの違いも合わせて読むと、設計思想の違いが立体的に見えてくる。

設計思想（軽量＋ベストプラクティス内蔵）

Stirrupの設計は、3つの原則に集約される。

・モデル中心（model-centric）——「Stirrupは脇に退き、モデルが自分でタスクの進め方を選べるようにする（Claude Codeに近い）。多くのフレームワークは硬直したワークフローを押し付け、結果を劣化させうる」。つまり制御構造を増やさないことが思想の中心
・ベストプラクティス内蔵——先行する優れたエージェントを分析し、コンテキスト管理や基盤ツールといった「効くパターン」を最初から組み込む
・カスタマイズ性——インストール可能なパッケージとしても、フルカスタム実装のテンプレートとしても使える

この思想を、エージェントの動作ループとして図にすると次のようになる。

flowchart TD Dev["開発者
（run() にタスク文字列を渡す）"] --> Agent LLM["LLM
Claude / GPT / Gemini など"] <--> Agent Agent["Agent
エージェントループを実行
（進め方はモデルが決定）"] --> Session subgraph Session["session()（ツール寿命とファイルを管理）"] Code["code_exec
ローカル / Docker / E2B"] Web["web_fetch / web_search"] Custom["独自Tool
（Pydantic定義）"] MCP["MCPクライアント
外部ツール群"] end Agent --> Code Agent --> Web Agent --> Custom Agent --> MCP Code --> Obs["実行結果・観測"] Web --> Obs Custom --> Obs MCP --> Obs Obs --> Agent Agent -. コンテキスト上限が近づくと自動要約 .-> Agent

重要なのは、図の中に「ワークフローを規定するノード」が存在しないことだ。多くのフレームワークが「計画→実行→検証」のような固定フローを持つのに対し、Stirrupは「Agentがツールを呼び、観測を受け取り、また判断する」という素朴なループだけを回す。次に何をするかはモデルが決める。Claude Codeを使ったことがあれば、あの「指示すると勝手に進めていく」感覚に近いと考えればよい。

そして、このループを実用に耐えさせるための「地味だが効く部分」——コンテキストが上限に近づいたときの自動要約、隔離されたコード実行、web取得——をフレームワーク側が肩代わりする。これが「軽量＋ベストプラクティス内蔵」の正体だ。

インストールと最小エージェント

導入はpip一発だ。用途に応じてオプションコンポーネントを足す。

# 最小インストール
pip install stirrup

# オプション込み（litellm / docker / e2b / mcp / browser など）
pip install 'stirrup[all]'

# 個別に足す例（LiteLLM経由でClaude等を使う場合）
pip install 'stirrup[litellm]'

次が最小エージェントだ。クライアントを作り、Agentに渡し、session()の中でrun()にタスクを渡す。実行前にOPENROUTER_API_KEYを環境変数にセットしておく（web検索を使う場合はBRAVE_API_KEYも）。

import asyncio
from stirrup import Agent
from stirrup.clients.chat_completions_client import ChatCompletionsClient


async def main() -> None:
    # OpenAI互換エンドポイント（ここではOpenRouter）に接続
    client = ChatCompletionsClient(
        base_url="https://openrouter.ai/api/v1",
        model="anthropic/claude-sonnet-4.5",
    )
    agent = Agent(client=client, name="agent", max_turns=15)

    async with agent.session(output_dir="./output/getting_started_example") as session:
        finish_params, history, metadata = await session.run(
            """オーストラリアの直近3年の人口を調べ、
            matplotlibで年ごとの人口を示す簡単なチャートを作成して。"""
        )


if __name__ == "__main__":
    asyncio.run(main())

このコードだけで、エージェントはweb検索で人口を調べ、code_execでmatplotlibを動かしてチャートを生成し、output_dirに成果物を書き出す。session()がツールの寿命とファイル入出力を管理してくれるため、後始末を自分で書く必要がない。

LiteLLM経由でAnthropic Claudeなどを使う場合は、クライアントを差し替えるだけだ。base_urlを意識せずプロバイダ名で指定できる。

from stirrup.clients.litellm_client import LiteLLMClient

# pip install 'stirrup[litellm]' が前提
# LiteLLMがサポートする任意のプロバイダをmodel_slugで指定できる
client = LiteLLMClient(
    model_slug="anthropic/claude-sonnet-4-5",
    max_tokens=200_000,
)

# clientを渡すだけ。モデル情報はclient.model_slugから引き継がれる
agent = Agent(
    client=client,
    name="claude_agent",
)

ポイントは、モデルの切り替えがクライアント1行で済むことだ。ベンチマークを見て「このタスクはGPT系が強い」「コスト重視ならDeepseek」といった判断を、エージェント本体のコードを触らずに反映できる。

ツール/メモリの組み込み

Stirrupには2つのツールプロバイダが標準で同梱される。

プロバイダ	ツール	役割
LocalCodeExecToolProvider	code_exec	シェルコマンドの実行（隔離されたtempディレクトリ）
WebToolProvider	web_fetch / web_search	web取得・検索（検索は`BRAVE_API_KEY`が必要）

code_execの実行環境は、ローカル・Docker・E2Bサンドボックスから選べる。手元検証はローカル、本番は隔離されたDockerやE2B、という使い分けが基本になる。

独自ツールの追加も簡単だ。PydanticのBaseModelでパラメータを定義し、実行関数を書いてToolにまとめる。型ヒントとFieldの説明文が、そのままLLMへのツール定義（スキーマ）になる。

from pydantic import BaseModel, Field

from stirrup import Agent, Tool, ToolResult, ToolUseCountMetadata
from stirrup.clients.chat_completions_client import ChatCompletionsClient
from stirrup.tools import DEFAULT_TOOLS


class GreetParams(BaseModel):
    """greetツールのパラメータ。"""

    name: str = Field(description="挨拶する相手の名前")
    formal: bool = Field(default=False, description="丁寧な挨拶にするか")


def greet(params: GreetParams) -> ToolResult[ToolUseCountMetadata]:
    greeting = f"Good day, {params.name}." if params.formal else f"Hey {params.name}!"
    return ToolResult(
        content=greeting,
        metadata=ToolUseCountMetadata(),
    )


GREET_TOOL = Tool(
    name="greet",
    description="名前で相手に挨拶する",
    parameters=GreetParams,
    executor=greet,
)

# 標準ツールに独自ツールを足してAgentへ渡す
agent = Agent(
    client=ChatCompletionsClient(
        base_url="https://openrouter.ai/api/v1",
        model="anthropic/claude-sonnet-4.5",
    ),
    name="greeting_agent",
    tools=[*DEFAULT_TOOLS, GREET_TOOL],
)

JSON Schemaを手書きせず、Pythonの型定義がそのままツール仕様になるのが効いている。LLMはnameが文字列でformalが真偽値であることを型から理解する。

メモリ（コンテキスト管理）は、フレームワーク側が自動で面倒を見る。Stirrupはコンテキスト上限に近づくと自動でこれまでのやり取りを要約し、長い対話やマルチターンのタスクでもコンテキスト溢れを防ぐ。さらに外部ツールを増やしたいときはMCPクライアント機能で、MCPサーバが提供するツール群をそのまま取り込める。自前ツール（Pydantic）と外部ツール（MCP）を同じエージェントに同居させられるのが強みだ。

・自前で増やす——PydanticでToolを定義しtools=に追加
・外部から借りる——MCPクライアントでMCPサーバのツールを接続
・記憶の維持——コンテキスト自動要約で長いタスクでも破綻しにくい

モデル選択とベンチマーク連携

Stirrupの「モデルを選びやすい」設計は、開発元がベンチマーク運営者であることと地続きだ。接続方法は大きく2系統ある。

・ChatCompletionsClient——OpenAI互換APIを話せるバックエンドに接続。OpenRouter経由でClaude・GPT・各種モデルを、あるいはDeepseekのような互換APIを直接指定できる
・LiteLLMClient——stirrup[litellm]を入れて使う。Anthropic・Google・その他LiteLLMがサポートする全プロバイダをmodel_slugで統一的に指定できる

どちらもクライアントを差し替えるだけでモデルが切り替わるため、「タスクの難度に応じてモデルを使い分ける」運用が自然にできる。ここでArtificialAnalysisのベンチマークが効いてくる。同社のIntelligence Index・速度・価格の実測値を見れば、「このエージェントタスクはどのモデルが費用対効果で勝つか」を判断材料にできる。

モデル選択の実務的な指針
・難しい推論・長い自律タスク——フロンティアモデル（Claude Opus / GPT系の上位）を選ぶ。スコアが素直に効く領域
・大量・定型のタスク——速度と単価を重視し、中型モデルやDeepseek系でコストを抑える
・まず挙動を理解——OpenRouterで強いモデルを使って動かし、固まってから安いモデルへ寄せる

「ベンチマークでモデルを選び、クライアント1行で差し替える」——この往復のしやすさが、Stirrupをベンチマーク企業が出す意味につながっている。

LangChain / CrewAI / OpenAI Agents SDK との比較

エージェントフレームワークは思想で選ぶ。Stirrupと主要な選択肢を、設計の方向性で並べる。

フレームワーク	中心思想	制御構造	向いている用途
Stirrup	モデルに任せる軽量基盤	最小（ループのみ、進め方はモデル）	最小コードで単体エージェントを素早く組む／Claude Code的な自律実行
LangChain	部品（チェーン）を組み合わせる	中（チェーン/ツール抽象が豊富）	多様な連携・RAG・既存エコシステム活用
LangGraph	グラフ（ステートマシン）で明示制御	高（ノードとエッジで実行を設計）	分岐・ループ・人間介在を厳密に制御したいワークフロー
CrewAI	役割を持つ複数エージェントの協調	中〜高（役割・タスク・プロセス定義）	複数の専門エージェントで分業させたいケース
OpenAI Agents SDK	OpenAI製の軽量エージェント／ハンドオフ	中（handoff・guardrail等の規約）	OpenAIエコシステム前提でエージェントを組む

軸を一言で言えば、「制御を増やすか、減らすか」だ。LangGraphやCrewAIは開発者が実行構造を設計する（制御を増やす）思想で、複雑なワークフローや厳密な分岐に強い。Stirrupは逆に制御を減らし、モデルの判断に委ねる。OpenAI Agents SDKもStirrupと同じく軽量寄りだが、OpenAIのエコシステム（handoff/guardrailの規約）を前提にする点が異なる。

・Stirrupを選ぶべき場面——「単体のエージェントに、code_exec・web・独自ツールを持たせて自律的に動かしたい」。スキャフォールドを書かずに最短で立ち上げたい
・LangGraphを選ぶべき場面——分岐・再試行・人間承認のフローを厳密に図として設計・可視化したい
・CrewAIを選ぶべき場面——「リサーチ担当」「執筆担当」のような役割分担で複数エージェントを協調させたい

優劣ではなく適材適所だ。「まず1体のエージェントを最小コストで動かす」ならStirrup、「複雑なワークフローや多エージェント協調を組む」なら他フレームワーク、と切り分けるのが現実的だ。各フレームワークの中身はLangGraph入門・CrewAI入門で個別に解説している。

実運用での注意点

最小コードで動く手軽さの裏で、本番投入時に押さえるべき点がある。

・コード実行は必ず隔離する——code_execは任意のシェルコマンドを実行しうる。ローカル実行は手元検証に留め、本番ではDockerかE2Bサンドボックスを選ぶ。エージェントにホスト環境を直接触らせない
・max_turnsで暴走を止める——Agent(..., max_turns=15)のように上限ターン数を設定し、モデルがループに陥っても止まるようにする。自律性が高いぶん、停止条件は明示する
・APIキーと環境変数の管理——OPENROUTER_API_KEYやBRAVE_API_KEYをコードに直書きせず、環境変数やシークレットマネージャで渡す。エージェントの出力ディレクトリにシークレットが漏れない設計にする
・バージョン固定——v0.1系と若く、APIは変わりうる。本番ではバージョンをピン留めし、アップグレード時は挙動を再検証する
・コスト監視——自律エージェントはツール呼び出しとモデル推論を繰り返すため、長いタスクではトークン費用が膨らむ。metadataでツール使用回数を取れるので、コストの観測点として使う

Stirrupの自律性は「速く立ち上がる」長所であると同時に、「止め方・隔離・コストを自分で設計する」責任とセットだ。手軽さに甘えず、サンドボックス・max_turns・シークレット管理の3点は最初から固めておきたい。

よくある落とし穴

導入初期につまずきやすいポイントをまとめる。

・web_searchが動かない——web_fetchは動くのに検索が失敗する場合、BRAVE_API_KEYが未設定なことが多い。web検索だけ別途キーが要る点を見落としやすい
・OPENROUTER_API_KEY未設定——最小エージェントが起動しない最頻の原因。クライアントのbase_urlに合ったキーを環境変数で渡す
・同期コードで書いてしまう——StirrupのAPIは非同期だ。async with agent.session(...)とawait session.run(...)を使い、エントリポイントはasyncio.run(main())で回す。普通の関数呼び出しのつもりで書くと動かない
・オプション未インストール——LiteLLMClientを使うのにstirrup[litellm]を入れていない、Dockerサンドボックスを選んだのにstirrup[docker]が無い、といったケース。必要なextrasを[all]か個別指定で入れる
・制御を増やそうとして思想とぶつかる——「計画→実行→検証」のような固定フローを無理に組み込もうとすると、Stirrupの軽量思想と噛み合わない。厳密なワークフロー制御が要件ならLangGraph側を選ぶのが筋。Stirrupはモデルに委ねる設計だと割り切る
・出力ディレクトリの取り違え——成果物はsession(output_dir=...)で指定した場所に書かれる。指定を忘れると意図しない場所に出力されたり、複数実行で混ざったりする

落とし穴の多くは「非同期API」「必要なextras」「別途キー」の3点に集約される。最初の起動でつまずいたら、まずこの3つを確認すると早い。

参考リンク

・ArtificialAnalysis/Stirrup（GitHub 公式リポジトリ・README）: https://github.com/ArtificialAnalysis/Stirrup
・ArtificialAnalysis（LLMベンチマーク・公式サイト）: https://artificialanalysis.ai/
・LiteLLM Providers（対応プロバイダ一覧）: https://docs.litellm.ai/docs/providers

あわせて読みたい

AIエージェントとは？仕組み・種類・代表的OSSフレームワークを初心者向けに解説【2026年版】

AIエージェントagent 2026.06.05

LangGraph入門｜マルチエージェント・ステートマシン構築の基本と他フレームワークとの違い

LangGraphAIエージェント 2026.06.07

CrewAI入門｜マルチエージェント協調フレームワークの基本とLangGraph/AutoGenとの違い

CrewAIAIエージェント 2026.06.07

よくある質問

Stirrupは何が新しい？LangGraphやCrewAIとどう違う？

Stirrupの特徴は『モデルに任せる』設計と『ベストプラクティスを最初から内蔵』している点だ。LangGraphはステートマシン（グラフ）で実行フローを明示的に組む思想、CrewAIは役割を持つ複数エージェントの協調を組む思想で、いずれも開発者が制御構造を設計する。対してStirrupはClaude Codeのようにモデル自身に進め方を決めさせ、フレームワークは邪魔をしない方向に振り切っている。コンテキスト要約やcode_exec・web検索といった基盤ツールが標準装備なので、定型のスキャフォールドを自分で書かずに済む。比較の詳細は本文「## LangChain / CrewAI / OpenAI Agents SDK との比較」を参照。

開発元のArtificialAnalysisとは？信頼できる？

ArtificialAnalysisは、各社のLLMを知能指数（Intelligence Index）・速度・価格で横断比較するベンチマークサイトを運営しているチームだ。日々モデルの実測値を公開しており、エージェントが『どのモデルでどれだけ性能が出るか』を最も観測してきた立場にある。そのチームが多数の先行エージェントを分析してベストプラクティスを抽出し、フレームワーク化したのがStirrupという位置づけになる。ライセンスはMITで、コードは全て公開・監査可能だ。

最小構成だとどれくらいのコードで動く？

クライアントとAgentを作り、session()の中でrun()にタスク文字列を渡すだけで動く。実質10行未満だ。OpenRouter経由でClaude SonnetやGPTなどを指定でき、OPENROUTER_API_KEYを環境変数にセットすれば最小エージェントが起動する。web検索を使う場合のみBRAVE_API_KEYが追加で必要になる。具体的なコードは本文「## インストールと最小エージェント」を参照。

独自ツールは追加できる？

できる。PydanticのBaseModelでパラメータを定義し、実行関数（executor）を書いてToolにまとめ、tools=[*DEFAULT_TOOLS, MY_TOOL]のようにAgentへ渡すだけだ。型と説明文がそのままLLMへのツール定義になるため、JSON Schemaを手書きする必要がない。MCPクライアントにも対応しているので、外部のMCPサーバが持つツール群をそのまま取り込むこともできる。本文「## ツール/メモリの組み込み」で実例を示す。

どのLLMプロバイダに対応している？

OpenAI互換APIを話せるバックエンドならChatCompletionsClientで接続でき、OpenRouter・Deepseekなどをそのまま使える。さらにstirrup[litellm]を入れてLiteLLMClientを使えば、Anthropic Claude・Google Gemini・各種プロバイダをLiteLLM経由で統一的に扱える。モデルは1行差し替えるだけで切り替わるので、ベンチマークを見ながら最適なモデルを選ぶ運用がしやすい。

本番業務で使っても安全？

エージェントはcode_execで任意コマンドを実行しうるため、実行環境の隔離は必須だ。Stirrupはコード実行をローカル・Docker・E2Bサンドボックスから選べる設計になっており、本番ではDockerやE2Bで隔離するのが前提になる。加えてmax_turnsで暴走を止め、シークレットを渡しすぎない、出力ディレクトリを限定する、といった運用ルールを敷くこと。バージョンはv0.1系と若く、APIが変わりうる点も踏まえて本番採用時はバージョン固定が無難だ。本文「## 実運用での注意点」「## よくある落とし穴」を参照。

日本語のタスク指示でも動く？

動く。run()に渡すタスク文字列は日本語でも問題なく、内部のLLMが日本語を理解して計画・実行する。ただしモデルの学習データは英語中心のため、複雑な要件は英語で書いたほうが意図が正確に伝わる場面はある。実務では『タスク説明は日本語、技術用語やパスは英語』のように混在させると扱いやすい。

🤖

AIエージェント

AIエージェントの作り方、フレームワーク比較、マルチエージェント設計 →