概要
Open Browserは、TypeScriptベースのAI駆動型自動ブラウジングフレームワーク。自然言語で記述したタスクをAIエージェントが実行し、Webサイト上でのクリック、入力、ナビゲーション、データ抽出を自動で完了させる。Playwrightを基盤としており、OpenAI、Anthropic、Googleの各AIモデルに対応している。
主な機能
- 自律型エージェント:自然言語で指定したタスクをAIエージェントが自動遂行。クリック、入力、スクロール、データ抽出をスクリプト記述なしで実行
- マルチモデル対応:OpenAI、Anthropic、Googleのモデルに標準対応。Vercel AI SDKを通じてモデルを単一フラグで切り替え可能
- インタラクティブREPL:ライブブラウザセッションに直接コマンドを入力でき、デバッグ、プロトタイプ開発、探索に有効
- サンドボックス実行:リソース制限環境でのエージェント実行に対応。CPU/メモリ監視、タイムアウト、ドメイン制限をサポート
- 本番環境対応:スタール検出、コスト追跡、セッション管理、リプレイ録画、包括的なエラーハンドリング機能を搭載
- オープンソース:MITライセンス採用。完全に拡張可能であり、APIキーを自前で管理できる
技術スタック
- 主要言語:TypeScript
- 基盤フレームワーク:Playwright
- AIモデル統合:OpenAI、Anthropic、Google対応
導入方法
基本的なセットアップ
# 依存関係をインストール
bun install
# APIキーを設定
cp .env.example .env
# .envファイルを編集してAPIキーを入力
# エージェントを実行
bun run open-browser run "Find the top story on Hacker News and summarize it"
# またはブラウザをインタラクティブに起動
bun run open-browser interactive
活用シーン
Open BrowserはAIエージェント駆動のブラウザ自動化により、複数のユースケースに対応。自然言語命令でタスク実行が可能であるため、従来のスクリプト記述による自動化と異なるアプローチを実現する。スクリーンショット取得、複雑なユーザーフローの検証、ページコンテンツの定期的な監視、複数ページにまたがるプロセスの自動実行といった多様な要件に対応。
特徴
Open BrowserはPlaywrightをベースにAIモデル統合を実装。オープンソースアーキテクチャにより、既存スタックとの柔軟な組み合わせが可能。v1.0以降本番環境対応を進めており、実務利用を想定した設計となっている。