Open Browserはどのフレームワークに基づいていますか？

Playwrightを基盤としており、ブラウザの自動操作に対応しています。

セッション管理機能にはどのような特徴がありますか？

記事本文に記載されているセッション管理機能は、本番環境対応の一部として搭載されていますが、具体的な詳細は記事に明記されていません。

Ntegrals Openbrowser：ブラウザ自動化とスクレイピング向けOSSツール

概要

Open Browserは、TypeScriptベースのAI駆動型自動ブラウジングフレームワーク。自然言語で記述したタスクをAIエージェントが実行し、Webサイト上でのクリック、入力、ナビゲーション、データ抽出を自動で完了させる。Playwrightを基盤としており、OpenAI、Anthropic、Googleの各AIモデルに対応している。

主な機能

自律型エージェント：自然言語で指定したタスクをAIエージェントが自動遂行。クリック、入力、スクロール、データ抽出をスクリプト記述なしで実行
マルチモデル対応：OpenAI、Anthropic、Googleのモデルに標準対応。Vercel AI SDKを通じてモデルを単一フラグで切り替え可能
インタラクティブREPL：ライブブラウザセッションに直接コマンドを入力でき、デバッグ、プロトタイプ開発、探索に有効
サンドボックス実行：リソース制限環境でのエージェント実行に対応。CPU/メモリ監視、タイムアウト、ドメイン制限をサポート
本番環境対応：スタール検出、コスト追跡、セッション管理、リプレイ録画、包括的なエラーハンドリング機能を搭載
オープンソース：MITライセンス採用。完全に拡張可能であり、APIキーを自前で管理できる

技術スタック

主要言語：TypeScript
基盤フレームワーク：Playwright
AIモデル統合：OpenAI、Anthropic、Google対応

導入方法

基本的なセットアップ

# 依存関係をインストール
bun install

# APIキーを設定
cp .env.example .env
# .envファイルを編集してAPIキーを入力

# エージェントを実行
bun run open-browser run "Find the top story on Hacker News and summarize it"

# またはブラウザをインタラクティブに起動
bun run open-browser interactive

活用シーン

Open BrowserはAIエージェント駆動のブラウザ自動化により、複数のユースケースに対応。自然言語命令でタスク実行が可能であるため、従来のスクリプト記述による自動化と異なるアプローチを実現する。スクリーンショット取得、複雑なユーザーフローの検証、ページコンテンツの定期的な監視、複数ページにまたがるプロセスの自動実行といった多様な要件に対応。

特徴

Open BrowserはPlaywrightをベースにAIモデル統合を実装。オープンソースアーキテクチャにより、既存スタックとの柔軟な組み合わせが可能。v1.0以降本番環境対応を進めており、実務利用を想定した設計となっている。