Seedance 2.0とは何か:マルチモーダルAI動画生成の全体像
ByteDanceが開発したSeedance 2.0は、画像+動画+音声+テキストの4モダリティを同時入力できるAI動画生成ツール。従来のAI動画生成は「テキストから動画」や「画像から動画」の単一入力が主流だったが、Seedance 2.0は複数モダリティの同時入力に対応し、プロンプト内で@素材名を使って各素材の役割を自然言語で指定するだけで制御可能な映像を生成する。
awesome-seedance-2-guideは、このSeedance 2.0の公式ユースケースとプロンプトテンプレートを体系化したオープンソースガイド。GitHub上でスター179を獲得し、10カテゴリ・55事例のプロンプト集を9言語で提供している。
マルチモーダル処理"] B --> C["出力動画
4-15秒 / 720p / 音声付き"] A1["画像 最大9枚
jpeg, png, webp等"] --> A A2["動画 最大3本
mp4, mov"] --> A A3["音声 最大3ファイル
mp3, wav"] --> A A4["テキストプロンプト
@素材参照構文"] --> A
AI動画生成の入力仕様と制限:何をどこまで扱えるか
Seedance 2.0がサポートする入力の詳細仕様は以下の通り。
| 入力タイプ | 対応フォーマット | 数量上限 | サイズ上限 | 時間制限 |
|---|---|---|---|---|
| 画像 | jpeg, png, webp, bmp, tiff, gif | 9枚 | 30MB/枚 | — |
| 動画 | mp4, mov | 3本 | 50MB/本 | 合計2-15秒 |
| 音声 | mp3, wav | 3ファイル | 15MB/本 | 合計15秒以内 |
| テキスト | 自然言語 | — | — | — |
合計ファイル数は最大12(画像+動画+音声の合計)。出力は4-15秒の動画(最大720p)で、効果音・BGMも自動生成される。
制限事項: リアルな人間の顔を含む素材のアップロードは現時点で非対応。イラスト風キャラクター、AI生成バーチャルキャラクター、動物、製品、風景の使用が推奨されている。
@素材参照構文とプロンプトの書き方:Seedance独自の制御方法
Seedance 2.0最大の特徴は@素材名による参照構文。アップロード順が番号に対応し、各素材に役割を割り当てられる。
@image1 を最初のフレームに、@video1 のカメラワークを参照、@audio1 をBGMとして使用
5つの基本パターン
# 1. 最初のフレーム指定
@image1 をシーンの最初のフレームとして使用し、...
# 2. カメラワークのみ参照(キャラクターは別素材)
@video1 のカメラワーク効果をすべて参照、ただしキャラクターの外見は @image1 を使用
# 3. アクションとカメラワークを別々の素材から参照
キャラクターの動きは @video1 を参照、回転カメラワークは @video2 を参照
# 4. 動画の延長(生成時間 = 追加秒数、トータルではない)
@video1 を5秒延長、[コンテンツ説明]
# 5. 動画の音声効果を参照
BGMは @video1 の音声効果を参照
マルチモーダル組み合わせ戦略
どの次元を制御したいかによって、使う素材タイプが変わる。
| 制御したい次元 | 使用する素材 |
|---|---|
| キャラクターの外見 | 画像(複数アングル推奨) |
| カメラワーク | 動画(カメラ言語参照) |
| キャラクターの動き | 動画(アクション参照) |
| 声・トーン | 動画(セリフ付き動画参照) |
| BGMのリズム | 動画 or 音声 |
| シーンのスタイル | 画像(シーン参照) |
10カテゴリ55事例の全体像:AI動画プロンプト事例集
ガイドには10カテゴリ・計55事例の実践プロンプトが収録されている。各カテゴリの代表的な事例を紹介する。
| # | カテゴリ | 事例数 | 内容 |
|---|---|---|---|
| 01 | 一貫性強化 | 6 | キャラクターの外見・服装・フォントを複数ショットで維持 |
| 02 | カメラワーク&アクション再現 | 7 | 参照動画からカメラ運動・アクションを正確に複製 |
| 03 | クリエイティブエフェクト | 8 | テンプレート・複雑効果・広告クリエイティブの再現 |
| 04 | ストーリー補完 | 3 | シーンの前後を自動生成 |
| 05 | 動画延長 | 4 | 既存動画のシームレスな延長 |
| 06 | 音声・ボイス統合 | 10 | 正確な音声、効果音、セリフの生成 |
| 07 | ワンカット連続撮影 | 5 | カット切り替えなしの長回し撮影 |
| 08 | 動画編集 | 5 | AI支援による素材差し替え・プロットレベルの改変 |
| 09 | 音楽ビートシンク | 4 | BGMのリズムに映像を同期 |
| 10 | 感情表現 | 3 | キャラクターの細やかな感情演技 |
カテゴリ01:一貫性強化 — キャラクターとプロダクトの外見を維持する
一貫性強化は6事例を収録。キャラクターの顔、服装、製品ディテール、シーン、フォントまで、生成前後で安定した一貫性を保つテクニックを扱う。
キャラクターシーン一貫性
1枚の参照画像から15秒の物語を生成する。
男性@image1 が仕事帰りに疲れた様子で廊下を歩く。歩調が遅くなり、
アパートのドアの前で立ち止まる。顔のクローズアップ。深呼吸して
気持ちを整え、ネガティブな感情を収めてリラックスする。鍵を探し、
錠前に差し込み、アパートに入る。小さな娘とペットの犬が嬉しそうに
駆け寄って出迎え、抱きつく。室内はとても温かく居心地が良い。
全編を通して自然な会話。
複雑トランジションの一貫性
参照動画のトランジション効果を再現しつつ、別のシーンに適用する。
@video1 のすべてのトランジションとカメラワークを参照、ワンカット。
チェス盤から始まり、カメラが左にパンして床の黄色い砂を映す。
カメラが上に移動し足跡のあるビーチへ。白いシンプルな服の少女が
ビーチで徐々に遠ざかる。空撮の俯瞰ショットに切り替わり波が打ち寄せる。
シームレスなグラデーショントランジションで波がはためくカーテンに変わる。
カメラが引いて少女の顔のクローズアップ。全編ワンカット。
製品ディテール+テキスト一貫性(磁石リボン広告)
タイムラインを細かく区切り、製品のディテールとブランドロゴの一貫性を保つ。
0-2秒: 赤、ピンク、紫、レオパード柄のリボンが順番にフラッシュカット、
サテンの光沢と"chéri"ブランドレタリングのクローズアップで静止。
3-6秒: シルバーの磁気クラスプが「カチッ」と合わさり、
優しく引き離されてシルキーな質感と利便性を披露。
7-12秒: 着用シーンのクイックカット: コートの襟にバーガンディリボン、
ポニーテールにピンクリボン、バッグにパープルリボン、スーツにレオパードリボン。
13-15秒: 4つのリボンを並べて表示、ブランド名表示。
コアテクニック: @imageN で各画像の役割を明示的に指定する(ファーストフレーム/サイド/素材/方向)。モデルに推測させない。
カテゴリ02:カメラワーク&アクション再現 — 参照動画から精密に複製
7事例を収録。参照動画をアップロードすると、モデルがレンズ言語とアクションリズムを識別し、新しいシーンに正確に複製する。
ヒッチコックズーム+ロボットアーム軌道
3枚の画像と1本の参照動画を使い、映画的なカメラワークを再現。
@image1 の男性の画像を参照。彼は @image2 のエレベーター内にいる。
@video1 のすべてのカメラワーク効果と主人公の表情を完全に参照。
主人公が恐怖を感じた時、ヒッチコックズーム効果を適用。
その後エレベーター内部を数回の軌道ショットで撮影。
エレベーターのドアが開き、カメラが追従してエレベーターから出る。
外の景色は @image3 を参照。男性は周囲を見回す。
@video1 を参照しロボットアームの多角度でキャラクターの視線を追う。
コーナーチェイス+マルチシーントラッキング
5枚のシーン画像+1本の参照動画で、複雑なカメラ切り替えを実現。
@image1 の男性画像を参照。@image2 の廊下にいる。
@video1 のすべてのカメラワーク効果と主人公の表情を完全に参照。
カメラが @image2 のコーナーを走り抜ける主人公を追従、
次に @image3 の長い廊下で背面追尾から主人公の正面への軌道に遷移。
カメラが右に90度パンして @image4 の分岐路を撮影、急停止して
右に180度パン、主人公の正面クローズアップ。息を切らしている。
カメラが主人公の視点で周囲を見回し、@video1 の高速左右軌道を参照。
@image5 に引いてサイドプロフィールの走りを追尾。
スーパーカー広告カメラワーク複製
シンプルな指示で参照動画のカメラワークを別の被写体に適用できる。
@video1 のカメラワークとシーン遷移リズムを参照。
@image1 の赤いスーパーカーで複製。
コアテクニック: アクション参照とカメラワーク参照は別の動画から取れる。@video1 の動きを参照 + @video2 のカメラワークを参照 と明確に分離する。
カテゴリ03-05:クリエイティブ・ストーリー・延長のプロンプト技法
03 クリエイティブエフェクト(8事例)
参照動画の広告クリエイティブ・トランジション・編集リズムを識別し、新素材で再現する。
@video1 のキャラクターを @image1 に置き換える。@image1 がファーストフレーム。
キャラクターがVRサイファイグラスをかける。@video1 のカメラワークと
クローズ軌道ショットを参照。三人称視点からキャラクターの主観視点に遷移。
AIバーチャルグラスを通過して @image2 の深い青色の宇宙へ。
数隻の宇宙船が出現し遠方へ飛行。カメラが宇宙船を追って
@image3 のピクセルワールドへ。ピクセルの山と森の世界の上を低空飛行。
視点が上に傾き急速に @image4 の薄緑色の惑星へ。惑星表面を滑走。
04 ストーリー補完(3事例)
既存シーンの「前」や「後」を自動生成し、物語を拡張する。
05 動画延長(4事例)
既存動画をシームレスに前方または後方に延長する。
5秒
@video1 を後方に5秒延長。
[0-2秒]: 元の動画の最後のフレームの状態から自然に継続。
[2-4秒]: [新しいシーン説明]。
[4-5秒]: [エンディング/字幕]。
コアテクニック: 延長プロンプトの冒頭で元動画の最終フレームの状態を描写すると、つなぎ目が自然になる。
カテゴリ06-07:音声統合とワンカット撮影の実践プロンプト
06 音声・ボイス統合(10事例)
最も事例数が多いカテゴリ。正確な音声、自然な会話、効果音、BGMの統合をカバーする。セリフ付き動画を参照素材にすることで、声のトーンや間合いまで再現できる。
07 ワンカット連続撮影(5事例)
カット切り替えなしの長回し撮影。プロンプト末尾に必ず 全編通してカット切り替えなし、ワンカット連続撮影。 を加えることで、モデルにカットなしの映像を強制する。
@image1@image2@image3..., 一人称視点 ワンカット追従カメラ、
チェス盤から砂浜を経てカーテンの部屋へ、
ゆっくりとした動きから徐々に加速。
全編通してカット切り替えなし、ワンカット連続撮影。
カテゴリ08:AI動画編集 — 素材差し替えとプロットレベルの改変
5事例を収録。既存動画のキャラクター差し替え、プロット改変、背景変更、プロダクトプレースメントなど、従来は動画編集ソフトで行っていた作業をプロンプトだけで実現する。
プロット改変(スナック菓子CM)
元動画のシリアスな雰囲気を維持しつつ、オチだけ変更する。
@video1 をベースに。0-3秒: スーツの男性がテーブルに座り、
深刻な表情で「大変なことになった」と言う。
3-6秒: 後ろの女性が緊張した表情で「どのくらい大きいの?」男性が声を落とす:「とても大きい。」
6-9秒: 突然男性がテーブルの下から取り出す — 巨大なスナック菓子パッケージ、
「ドン」と重々しくテーブルに置く。
9-12秒: 女性の筋肉が緊張から弛緩、表情全体がほぐれる。
13-15秒: 男性がスナック菓子を女性に渡す。字幕: 「どんなに忙しくても、おやつを忘れずに〜」
キャラクター差し替え(バンド演奏)
@video1 の女性リードシンガーを @image1 の男性リードシンガーに置き換え。
動きは元の動画を完全に再現。カットなし。バンド演奏の音楽。
プロダクトプレースメント(フライドチキン店)
@video1 カメラが右にパン。フライドチキン店のオーナーが忙しそうに
客にフライドチキンを渡す。「彼のが終わったら次はあなた、みんな並んで」
と言った後、紙袋を取りに行く。@image1 がプリントされた紙袋を
掴むクローズアップ。客に手渡すクローズアップ。
コアテクニック:
- プロット改変時はタイムラインに沿って新プロットを明確に記述する(0-3秒/3-6秒…)
- キャラクター差し替えでは「動きは元の動画を完全に再現」で元のモーションを保持
- 部分変更では何を残し何を変えるかを明確に指定する
カテゴリ09-10:音楽ビートシンクと感情表現のプロンプト
09 音楽ビートシンク(4事例)
参照動画の音楽リズムに合わせて映像が切り替わるプロンプト。
ポスターの少女が次々と衣装を変える。衣装スタイルは @image1 @image2 を参照。
@image3 のバッグを持っている。動画のリズムは @video を参照。
テキストのみの入力でも、8秒のアニメバトルシーンをビートに同期させることが可能。
8秒のインテリジェント戦略バトルアニメ。復讐テーマに合わせる。
0-3秒: 女性主人公が振り返って座り、カメラが回転、
駒を動かして「あなたの負け」と言う。
3-4秒: クイックカメラパン、向かいの男性の顔のクローズアップ。
男性は歯を食いしばり結果に非常に不満。
4-6秒: 俯瞰ショットに切り替え。女性が駒を動かす。
向かいの人々が驚きの表情。
6-8秒: カメラが急速に下にパン、暗転トランジション、
徐々に明るくなる。薄暗い室内、女性が窓越しに月光を眺め
静かに「お手並み拝見」と言う。
コアテクニック: 参照動画の音楽リズムが明確なほどシンク効果が高い。「必要に応じてショット構成を調整可能」と指示すると、モデルに調整の余地が生まれ自然なシンクになる。
10 感情表現(3事例)
繊細な感情表現、誇張されたコメディリアクション、複雑な感情の遷移を生成する。
@image1 の女性が鏡の前に歩く。鏡の中の自分を見る。
姿勢は @image2 を参照。しばらく考えた後、突然崩壊して叫び始める。
鏡を掴む動作、崩壊して叫ぶ感情、表情は @video1 を完全に参照。
広告では感情のコントラストが効果的。
これはレンジフードの広告。@image1 をファーストフレームに。
女性が煙なしで優雅に料理。カメラが素早く右にパンし、
@image2 の男性を撮影、汗だくで顔を赤くし煙だらけで料理。
カメラが左にパンしズームインして @image1 のテーブル上の
レンジフードを撮影。レンジフードは @image3 を参照、
猛烈に煙を吸い込む。
コアテクニック:
- 「とても悲しい」ではなく「涙が頬を伝い、口元がわずかに震える」と具体的に書く
- 表情の参照画像はテキスト記述より正確
- 感情遷移にはトリガーポイントが必要: 「しばらく考えた後突然叫び始める」— 「突然」がキーワード
高度なプロンプトテクニック:タイムライン分割とキーワードトリガー
長尺動画(10秒以上)ではタイムライン分割が効果的。時間ごとにシーンを記述する。
0-3秒: カメラが引いて街全体を映す
3-6秒: 主人公が走り出し、群衆の間をすり抜ける
6-10秒: カメラが追従、果物屋台を倒す
感情・動作の記述は具体的に書くことが重要。
| NG例 | 改善例 |
|---|---|
| キャラクターがとても悲しい | 涙が頬を伝い、口元がわずかに震える |
| かっこよく走る | 腕を大きく振り、コートの裾がなびく |
| カメラが動く | カメラが右に90度パンし急停止、180度反転してクローズアップ |
キーワードトリガーで特殊効果を呼び出せる。
| 欲しい効果 | プロンプト記述例 |
|---|---|
| ヒッチコックズーム | 主人公がパニック状態でヒッチコックズーム |
| 回転カメラ | ロボットアーム式の多角度回転移動 |
| 加速効果 | ジェットコースターのように速度が加速する |
| パーティクル | 金色の砂粒子が飛散 / 粒子拡散エフェクト |
| 魚眼レンズ | 魚眼レンズ効果とダブルイメージフラッシュ |
| ワンカット強制 | 全編通してカット切り替えなし、ワンカット連続撮影 |
プロンプトテンプレート集:商品紹介・広告・延長・ワンカット
実務で使えるテンプレートが4パターン用意されている。
商品360°ショーケース
@image1 [商品名] を主役に、カメラワークは @video1 を参照、
[特定パーツ]のクローズアップにズームイン、
カメラが回転し[商品]が裏返って全体を見せる、
[商品特徴の詳細]がはっきり見える、
周囲の環境は[雰囲気の説明]
広告比較(Before/After)
これは[商品]の広告、@image1 を最初のフレームに、
[キャラA]が[状態A: 例:優雅に料理]、
カメラが素早く右にパンし @image2 の[キャラB][状態B: 例:汗だくで料理]を撮影、
カメラが左にパンしズームインして[商品]を撮影、
[商品]は @image3 を参照、[商品]が[使用中の状態]。
動画延長スクリプト
[N]秒
@video1 を[前方/後方]に[N]秒延長。
[0-X]秒: [元動画最終フレームの状態から継続]。
[X-Y]秒: [シーン説明]。
[Y-N]秒: [エンディングシーン/字幕]。
ワンカット連続撮影
@image1@image2@image3..., [視点] ワンカット[移動タイプ]カメラ、
[移動軌道: AからBを経てCへ]、[速度/リズムの変化]。
全編通してカット切り替えなし、ワンカット連続撮影。
従来のAI動画生成ツールとの比較:Seedance 2.0の位置づけ
Seedance 2.0は既存のAI動画生成ツールと比較して、マルチモーダル同時入力と@参照構文が大きな差別化ポイント。Browser Useのようなブラウザ自動化ツールと組み合わせれば、素材収集から動画生成までのワークフロー自動化も視野に入る。
| 機能 | Seedance 2.0 | Sora | Runway Gen-3 |
|---|---|---|---|
| 画像入力 | 最大9枚 | 1枚 | 1枚 |
| 動画入力(参照) | 最大3本 | — | 1本 |
| 音声入力 | 最大3ファイル | — | — |
| 4モダリティ同時入力 | 対応 | — | — |
| @素材参照構文 | 対応 | — | — |
| 最大出力時間 | 15秒 | 60秒 | 10秒 |
| 音声自動生成 | 対応 | — | — |
| オープンソースガイド | 55事例 | — | — |
またDifyやLangChainなどのAIワークフローフレームワークと組み合わせることで、プロンプト生成の自動化パイプラインを構築することも可能だ。
よくあるトラブルと解決策:プロンプトのデバッグ方法
ガイドにはトラブルシューティングも収録されている。
| 問題 | 原因 | 解決プロンプト |
|---|---|---|
| カメラワークが再現されない | 参照が不十分 | @video1 のすべてのカメラワーク効果を完全に参照 と明記 |
| キャラクターの外見が不安定 | 単一アングルの画像 | 複数アングル画像をアップロード+@image1 と完全に一致するキャラクター外見を維持 |
| 動画延長のつなぎ目が不自然 | 延長開始の記述不足 | プロンプト冒頭で元動画最終フレームの状態を詳述 |
| 感情表現が弱い | 抽象的な記述 | 「悲しい」→「涙が頬を伝い、口元がわずかに震える」と具体化 |
| 音楽シンクがずれる | リズムが不明確な参照動画 | ビートが明確な参照動画を選択+「必要に応じてショット構成調整可能」と付記 |
セットアップとリポジトリ構成:すぐ使い始める方法
リポジトリのクローンからすぐに使い始められる。
git clone https://github.com/EvoLinkAI/awesome-seedance-2-guide.git
cd awesome-seedance-2-guide
リポジトリ構成。
.
├── README.md # メインガイド(英語)
├── README.ja.md # 日本語版
├── README.zh-CN.md # 簡体字中国語版
├── README.zh-TW.md # 繁体字中国語版
├── README.ko.md # 韓国語版
├── README.es.md / .fr.md / .de.md / .tr.md # 他言語
├── CHANGELOG.md # 変更履歴
├── CONTRIBUTING.md # コントリビューションガイド
└── use-cases/ # 10カテゴリの詳細事例
├── en/ # 英語版
│ ├── 01-consistency.md # 一貫性強化(6事例)
│ ├── 02-camera-movement.md # カメラワーク再現(7事例)
│ ├── 03-creative-effects.md # クリエイティブ効果(8事例)
│ ├── 04-story-completion.md # ストーリー補完(3事例)
│ ├── 05-video-extension.md # 動画延長(4事例)
│ ├── 06-audio-voice.md # 音声統合(10事例)
│ ├── 07-continuity.md # ワンカット撮影(5事例)
│ ├── 08-video-editing.md # 動画編集(5事例)
│ ├── 09-music-sync.md # 音楽シンク(4事例)
│ └── 10-emotion.md # 感情表現(3事例)
├── ja/ # 日本語版
├── zh-CN/ # 中国語版
└── ... # 他言語版
API経由での利用はSeedance-2.0-APIリポジトリに、OpenClaw連携はseedance2-video-gen-skill-for-openclawにドキュメントがある。