OpenMontageとは?Claude Codeで動画を作る新しいアプローチ
AIコーディングアシスタントが動画編集ソフトに変わる——それがOpenMontageの目指す世界だ。
OpenMontageは、Claude Code、Cursor、Copilot、Windsurf、CodexなどのAIコーディングアシスタントを本格的な動画制作スタジオに変えるオープンソースのエージェント型動画制作システムだ。2026年4月現在、GitHubで324スターを獲得しており、活発な開発が続いている。
従来のAI動画生成ツールが「1クリックで動画を生成する」という方向性を取るのに対し、OpenMontageはまったく異なるアプローチを取る。AIエージェントをプロデューサー兼ディレクターとして動かし、企画・調査・脚本・素材生成・編集・最終レンダリングまでの全工程を一気通貫で実行するのだ。
特徴的なのは、そのアーキテクチャだ:
- 11種類の制作パイプライン(トーキングヘッド、アニメーション解説、シネマティックトレーラーなど)
- 49種類以上のPythonツール(動画生成、画像生成、音声合成、字幕、アバターなど)
- 400種類以上のエージェントスキル(技術ガイドからクリエイティブ手法まで)
- 複数プロバイダー対応(Google Veo、Runway、HeyGen、ElevenLabsなど12社以上)
AIエージェントの活用事例が増える中、OpenMontageは「コードを書くためのアシスタント」を「動画を作るためのプロデューサー」に拡張した先駆的なOSSだ。
インストールとセットアップ:APIキー不要で試せる
OpenMontageの最大の魅力のひとつは、APIキーがなくても動作する点だ。無料のローカルTTS(Piper)とストックメディア(Pexels/Pixabay)を組み合わせることで、クラウドAPIを一切使わずに動画を生成できる。
必要な環境:
- Python 3.10以上
- FFmpeg
- Node.js 18以上
- AIコーディングアシスタント(Claude Codeなど)
インストール手順:
git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup
make setupは以下を自動で実行する:
requirements.txtからPython依存関係をインストールremotion-composer/でReact/Remotionコンポーザーをセットアップ- ローカルTTS(Piper)のインストールオプションを提示
.env.exampleから.envファイルを生成- 使用するAPIキーの入力を促す
GPU対応版(ローカルモデル用):
make install-gpu
このコマンドでdiffusers、transformers、accelerateなどGPU利用可能な依存関係が追加インストールされる。ローカルでWav2Lip(リップシンク)やSadTalker(アバター生成)を使いたい場合に必要だ。
.envの主な設定項目:
# 動画生成プロバイダー(オプション)
FAL_KEY=your_fal_key
RUNWAY_API_KEY=your_runway_key
HEYGEN_API_KEY=your_heygen_key
# 音声合成(オプション)
ELEVENLABS_API_KEY=your_elevenlabs_key
OPENAI_API_KEY=your_openai_key
# ストックメディア(無料枠あり)
PEXELS_API_KEY=your_pexels_key
PIXABAY_API_KEY=your_pixabay_key
# 予算管理
BUDGET_DEFAULT_USD=0.50
BUDGET_APPROVAL_THRESHOLD_USD=0.10
設定のポイントはプログレッシブ解放だ。最初はAPIキーなしで無料利用し、必要に応じてクラウドAPIを追加することで機能を段階的に解放できる。
11の制作パイプライン:用途別の完全ガイド
OpenMontageには用途別に最適化された11種類のパイプラインが用意されている。各パイプラインはYAMLマニフェストで定義されており、AIエージェントが読み込んで実行する。
| パイプライン | 用途 | 安定度 |
|---|---|---|
| animated-explainer | トピックからAI生成アニメーション解説 | production |
| talking-head | 既存映像を編集する顔出し解説動画 | beta |
| screen-demo | スクリーンレコーディング・ウォークスルー | production |
| cinematic | トレーラー・ティーザー・ムード重視の編集 | production |
| animation | モーショングラフィックス・アニメーション優先 | production |
| hybrid | 実写映像+AI生成素材のハイブリッド | production |
| avatar-spokesperson | アバター・リップシンク動画 | production |
| clip-factory | 長尺映像から複数クリップを一括生成 | beta |
| podcast-repurpose | ポッドキャストのハイライト動画転用 | beta |
| localization-dub | 字幕・吹き替え・翻訳バリアント | beta |
| framework-smoke | テスト用:最小2ステージのスモークテスト | test |
パイプラインのYAMLマニフェストは以下のような構造になっている。checkpoint_required: trueとhuman_approval_default: trueに注目してほしい。重要な制作判断のたびに人間の確認を求める設計になっており、AIが勝手に高コストの処理を走らせることを防いでいる:
name: talking-head
version: "2.0"
description: "End-to-end talking-head pipeline"
category: talking_head
stability: beta
orchestration:
mode: executive-producer
budget_default_usd: 0.50
max_revisions_per_stage: 3
stages:
- name: idea
skill: pipelines/talking-head/idea-director
produces:
- brief
- decision_log
checkpoint_required: true
human_approval_default: true
- name: script
skill: pipelines/talking-head/script-director
produces:
- script
- scene_plan
checkpoint_required: true
制作フローの全体像:企画からレンダリングまで
OpenMontageの動画制作フローを視覚化すると以下のようになる。重要な判断ポイントで必ず人間の承認を挟む設計が特徴的だ:
(Claude Codeへの自然言語)"] --> B["エージェント
パイプライン選択"] B --> C["Stage 1: Idea
企画・リサーチ・ブリーフ作成"] C --> D{"人間承認
チェックポイント"} D -- 承認 --> E["Stage 2: Script
脚本・シーンプラン生成"] E --> F["Stage 3: Assets
動画・画像・音声・音楽生成"] F --> G["Stage 4: Edit
編集・合成・字幕追加"] G --> H["Stage 5: Render
Remotionでファイナルレンダリング"] H --> I["品質チェック
スライドショーリスクスコア"] I -- OK --> J["完成動画 🎬"] I -- NG --> G D -- 差し戻し --> C
各ステージの出力はアーティファクトとして保存される。brief、script、scene_plan、asset_manifest、edit_decisions、render_reportなどがJSONスキーマで検証される。チェックポイント機能により、途中で中断しても最後のステージから再開できる。
49種のツールと主要AIプロバイダー
OpenMontageのツール群は機能別に整理されており、すべてBaseToolクラスを継承したPythonクラスとして実装されている。
class BaseTool(ABC):
"""OpenMontageの全ツールが継承するベースクラス"""
@abstractmethod
def execute(self) -> ToolResult:
"""ツールを実行してToolResultを返す"""
ツールレジストリが自動的に全ツールを検出し、AIエージェントに利用可能な能力を提供する:
registry = ToolRegistry()
registry.discover() # 全ツールモジュールを自動検出
# ティア、能力、ステータスでフィルタリング
tools_by_tier = registry.get_by_tier(ToolTier.GENERATE)
tools_by_capability = registry.get_by_capability("video_generation")
available = registry.get_by_status(ToolStatus.AVAILABLE)
対応プロバイダー一覧:
| カテゴリ | プロバイダー数 | 主要プロバイダー |
|---|---|---|
| 動画生成 | 12社 | Google Veo、Runway、Kling、HeyGen、MiniMax |
| 画像生成 | 8社 | FAL/FLUX、Google Imagen、DALL-E、Recraft |
| 音声合成(TTS) | 4社+ローカル | ElevenLabs、OpenAI TTS、Google Cloud TTS、Piper(無料) |
| 音楽生成 | 1社 | Suno API |
| ストックメディア | 2社 | Pexels、Pixabay |
| 動画解析 | 複数 | WhisperX(文字起こし)、HuggingFace(話者分離) |
マルチプロバイダーの切り替えはセレクターパターンで抽象化されている。tts_selector、video_selector、image_selectorなどのセレクターが設定済みAPIキーに基づいて自動的に最適プロバイダーを選択する。エージェントは「どのプロバイダーを使うか」を意識せず、セレクターに任せることができる。
Claude Codeからの実際の使い方
実際にOpenMontageを使うとき、ユーザーはClaude Codeのチャット欄に自然言語で指示を入れるだけだ。
ゼロAPIキーでの使い方(完全無料):
「高校生向けの機械学習入門、30秒のアニメーション解説動画を作って。
Piperで音声、Pexelsの画像、Remotionでアニメーション」
FAL APIキー1つだけの場合:
「魔法の空中図書館が雲の上に浮いている、ジブリ風アニメーション動画を
30秒で作って。黄金時間の光の演出で」
フル機能(複数プロバイダー設定済み):
「1000年後の未来から届く警告——SFコンセプトのシネマティックトレーラーを
30秒で作って。研究・ビジュアル・ナレーション・BGM・字幕を全部込みで」
システムが返すのは単なる動画ではない。制作の各ステップで:
- 予算見積もりを提示し、承認を求める
- クリエイティブの判断(プロバイダー選択、スタイル決定など)を説明する
- 品質チェック結果(スライドショーリスクスコア、音声レベルなど)を報告する
参照動画からの制作も可能だ:
「このYouTubeショートが気に入ってる。同じような感じで、
CRISPRについて高校生向けの動画を作って」
[YouTube URL を貼り付ける]
エージェントが参照動画を解析し、ペーシングやスタイルを抽出した上で、差別化されたコンセプトを提案する。ユーザーが承認してから制作を開始するため、意図しないコスト発生を防げる。
Claude Codeの使い方と組み合わせることで、より高度な動画制作ワークフローを構築できる。
Remotionによる動画コンポジション
最終的な動画合成にはRemotion(React製の動画フレームワーク)が使われる。remotion-composer/ディレクトリにReactコンポーネントとして動画レイアウトが定義されており、エージェントが必要に応じてカスタマイズできる。
{
"dependencies": {
"@remotion/captions": "^4.0.441",
"@remotion/cli": "^4.0.441",
"@remotion/google-fonts": "^4.0.441",
"remotion": "^4.0.441",
"react": "^18.2.0"
},
"scripts": {
"start": "npx remotion studio",
"build": "npx remotion render src/index.tsx Explainer out/video.mp4"
}
}
Remotionを採用することで、動画のタイミング、テキストアニメーション、トランジション、字幕表示などをReactコンポーネントの形で宣言的に定義できる。これがOpenMontageを「プログラマブルな動画制作」たらしめる中核技術だ。
他のAI動画ツールとの比較
| 比較項目 | OpenMontage | Sora | Runway Gen-3 | HeyGen | Pictory |
|---|---|---|---|---|---|
| オープンソース | ✅ | ❌ | ❌ | ❌ | ❌ |
| AIエージェント統合 | ◎ネイティブ | △ | △ | △ | △ |
| エンドツーエンド制作 | ✅ | ❌ | ❌ | △ | △ |
| カスタマイズ性 | ◎コード全公開 | △ | △ | ○ | △ |
| 無料利用 | ✅APIキー不要 | ❌ | ❌ | △ | △ |
| 複数プロバイダー | ✅12社対応 | ❌ | ❌ | ❌ | ❌ |
| ローカル実行 | ✅対応 | ❌ | ❌ | ❌ | ❌ |
| 主な対象ユーザー | 開発者 | 一般ユーザー | クリエイター | ビジネス | マーケター |
OpenMontageが圧倒的に優れている点は「AIコーディングアシスタントとのネイティブ統合」と「オープンソースによる完全なカスタマイズ性」だ。一方、一般ユーザー向けのGUIはなく、開発者向けのツールである点は注意が必要だ。
AIエージェントフレームワークの知識があれば、OpenMontageのパイプラインをさらに拡張することも可能だ。
実際に作ってみた:51秒のシネマティックトレーラーのコスト内訳
実際にOpenMontageで「EXTINCTION」というバイオハザード×ジュラシックパーク風のシネマティックトレーラー(51秒、1920x1080)を制作した。使ったのはFLUX画像生成とKling v3の動画生成、Remotionのタイトルカード、FFmpegの結合のみ。制作にかかったAPIコストを公開する。
| 工程 | ツール | 単価 | 数量 | 小計 |
|---|---|---|---|---|
| 画像生成(シーン素材) | FLUX Pro v1.1(fal.ai) | $0.05/枚 | 8枚 | $0.40 |
| 動画生成(image-to-video) | Kling v3 Standard(fal.ai) | $0.10/本 | 8本 | $0.80 |
| タイトルカード生成 | Remotion(ローカル) | 無料 | 4枚 | $0.00 |
| 動画結合・スケーリング | FFmpeg(ローカル) | 無料 | — | $0.00 |
| 合計 | $1.20 |
51秒のシネマティックトレーラーが約180円で完成した。コストの約67%はKling v3の動画生成($0.80)が占める。
制作フローを図にすると以下のようになる:
8枚の画像生成
$0.40"] --> B["Kling v3
8本のimage-to-video
$0.80"] B --> C["FFmpeg
1920x1080にスケール
無料"] D["Remotion
4枚のタイトルカード
無料"] --> E["FFmpeg concat
12クリップを結合
無料"] C --> E E --> F["完成
51秒 / 31MB
合計 $1.20"]
コスト削減の選択肢も豊富だ:
# Kling v2.1/standard にダウングレード(画質と引き換えにコスト半減)
model_variant: "v2.1/standard" # $0.05/本 → 8本で$0.40
# LTX Video(Modal経由)でさらに安く
# ローカルGPUがあれば完全無料
# 画像のみ(Remotionアニメーション)なら$0.40で51秒の動画が作れる
# Ken Burnsエフェクト、パーティクル、スプリングアニメーション付き
仮にプロバイダーを最安構成にした場合の比較:
| 構成 | 画像 | 動画 | 合計 | 品質 |
|---|---|---|---|---|
| FLUX + Kling v3(今回) | $0.40 | $0.80 | $1.20 | 最高画質のモーション |
| FLUX + Kling v2.1 | $0.40 | $0.40 | $0.80 | やや劣るモーション |
| FLUX + Remotionのみ | $0.40 | $0.00 | $0.40 | Ken Burnsアニメーション |
| Remotionのみ(APIキーなし) | $0.00 | $0.00 | $0.00 | テキスト・チャート・データビズ |
READMEにある「THE LAST BANANA」(60秒のPixar風アニメ短編)は$1.33で制作されている。OpenMontageでは数百円で映画クオリティの動画が作れるということだ。
3層アーキテクチャで理解する設計思想
OpenMontageのアーキテクチャは3層に分かれており、AIエージェントが扱う知識を明確に整理している:
能力・ステータス・コスト"] end subgraph L2["Layer 2: プロジェクトスキル"] T2["OpenMontage固有のツール活用法
アーティファクトマッピング
プロバイダー選択慣例"] end subgraph L3["Layer 3: 汎用技術スキル"] T3["FFmpegエンコード手法
Remotionコンポジション
APIベストプラクティス"] end L1 --> L2 L2 --> L3
この設計により、「どのツールが使えるか(Layer 1)」「このプロジェクトでの使い方(Layer 2)」「一般的な技術知識(Layer 3)」が明確に分離されている。エージェントは各ステージの作業前に関連するスキルを読み込み、適切な判断を行う。
エージェントが守るべき基本ルール(AGENT_GUIDE.mdより抜粋):
- すべての動画リクエストは必ずパイプラインを通じて処理する
- 各ステージの作業前にステージディレクタースキルを読み込む
- ツールを呼び出す前にLayer 3スキルを確認する
- プロバイダー・モデルの無断変更は禁止。変更はユーザーの承認が必要
- 実行前にクリエイティブな判断を必ずユーザーに伝える
これらのルールにより、AIが勝手に動き続けて高額請求が発生するリスクを防いでいる。
まとめ:動画制作の民主化へ
OpenMontageは、これまで専門的な動画制作スキルと高価なソフトウェアが必要だった映像制作のワークフローを、AIコーディングアシスタントを通じて民主化しようとしている。
コーディングができる開発者なら:
- APIキーゼロで今すぐ試せる
- 使いたいプロバイダーだけ追加できる
- パイプライン・ツール・スキルをカスタマイズできる
- 既存のCI/CDパイプラインやLLMツールと統合できる
まずはmake setupでセットアップして、Claude Codeから短い動画生成を試してみることをお勧めする。11のパイプラインの中から自分のユースケースに合うものを選び、段階的に機能を拡張していくのが王道だ。LLMツールや自動化ワークフローと組み合わせれば、動画制作を含むコンテンツパイプライン全体の自動化も視野に入る。