VideoLingo：動画の字幕生成と多言語翻訳・吹き替えを自動化するオープンソースツール完全ガイド

Huanshere/VideoLingo

⚙️ DevOps & 自動化 coding automation i18n

2026.04.02 1分更新 2026.04.18

VideoLingo：動画の字幕生成と多言語翻訳・吹き替えを自動化するオープンソースツール完全ガイド - AIツール日本語解説 | AI Heartland

手作業で行う字幕制作と翻訳は時間と費用が膨大。VideoLingoは自動音声認識と機械翻訳を組み合わせ、130以上の言語対応で、グローバル展開するコンテンツクリエイターの負担を一気に削減する

この記事ではDevOps・自動化に特化して解説します。AI自動化・DevOps全般は AI自動化ツール完全ガイド2026｜ノーコードからコードまで徹底比較をご覧ください。

VideoLingoとは何か：Netflix品質の字幕・吹き替えをワンクリックで実現するOSS

VideoLingoは動画の字幕生成・多言語翻訳・AI吹き替えをワンクリックで自動化するオープンソースツールで、GitHubで16,800スター以上を獲得している。リポジトリの説明文には「Netflix-level subtitle cutting, translation, alignment, and even dubbing（Netflix品質の字幕カット・翻訳・同期・吹き替え）」と記されており、プロフェッショナルグレードのコンテンツローカライゼーションを個人・中小企業でも利用可能にすることを目標としている。

動画コンテンツのグローバル展開において、字幕制作と翻訳は大きなボトルネックだ。英語の1時間動画を日本語字幕付きにするには、文字起こし・翻訳・タイミング調整・編集のすべてを手作業で行うと、専門家でも8〜12時間程度かかる。プロの翻訳者に依頼すれば数万円のコストがかかる。

VideoLingoはこのプロセスをWhisperXによる高精度音声認識、LLMを活用した三段階翻訳プロセス（翻訳→反省→適応）、複数TTSエンジンによる音声合成の組み合わせで自動化する。YouTubeクリエイターから企業の研修動画担当者まで、動画を資産化する場面で活用されている。

VideoLingo デモ画面

「Netflix品質」の字幕とは何か
Netflixは字幕の品質ガイドラインを公開しており、(1)1行の文字数制限（英語42文字、日本語13文字相当）、(2)1画面に最大2行のみ、(3)読みやすい表示タイミング、(4)話し言葉の自然な翻訳、を基準としている。VideoLingoはNLPとAIによる字幕分割で1行制限を守り、三段階翻訳で自然な日本語表現を目指す設計になっている。

VideoLingoの技術アーキテクチャ：WhisperX・LLM・TTS の連携

VideoLingoの処理パイプラインは、音声認識・翻訳・合成の3つのコアモジュールで構成されている。

flowchart TD A["動画入力
URL / ローカルファイル"] --> B["yt-dlp
YouTube ダウンロード"] A --> C["ローカル動画
直接入力"] B --> D["FFmpeg
音声分離"] C --> D D --> E["WhisperX
音声認識エンジン"] E --> F["ワードレベル
タイムスタンプ付きテキスト"] F --> G["NLP + AI
字幕セグメント分割"] G --> H["字幕テキスト
（Netflix基準）"] H --> I["三段階翻訳プロセス"] I --> I1["Step1: 直訳"] I1 --> I2["Step2: 反省・改善"] I2 --> I3["Step3: 文化的適応"] I3 --> J["翻訳済み字幕テキスト"] J --> K{"吹き替えが必要?"} K -->|"Yes"| L["TTSエンジン選択
GPT-SoVITS / Azure / OpenAI / Edge-TTS"] K -->|"No"| M["字幕ファイル出力
SRT / VTT / ASS"] L --> N["音声合成
声クローニング対応"] N --> O["FFmpeg
音声・字幕合成"] M --> O O --> P["完成動画
+ 字幕ファイル"]

WhisperX：ワードレベルの精度を持つ音声認識

VideoLingoが採用するWhisperXは、OpenAIのWhisperをベースにしながら、単語レベルのタイムスタンプ精度と発話者分離（ダイアライゼーション）機能を追加したモデルだ。通常のWhisperが文・フレーズ単位のタイムスタンプしか提供しないのに対し、WhisperXは各単語の開始・終了時間を精密に検出できるため、字幕の表示タイミングが大幅に向上する。

三段階翻訳プロセス

VideoLingoの翻訳品質の核心は、単純な一発翻訳ではなく三段階のLLM活用にある：

直訳フェーズ：原文に忠実な翻訳を生成
反省フェーズ：直訳を批評・改善点を列挙
適応フェーズ：文化的ニュアンスを考慮した最終翻訳を生成

このアプローチにより、機械翻訳特有の不自然な表現を削減し、視聴者にとって読みやすい字幕が得られる。

対応TTSエンジン（吹き替え機能）

エンジン	特徴	声クローニング	対応言語	コスト
GPT-SoVITS	ローカル動作、高品質声クローニング	あり（元動画の声）	多言語	無料（自前GPU要）
Azure TTS	安定・高品質、クラウド	なし	100言語以上	有料
OpenAI TTS	自然な音声、クラウド	なし	限定的	有料
Edge-TTS	無料、Microsoftクラウド	なし	50言語以上	無料
Fish-TTS	高品質オープンソース	あり	多言語	無料（GPU要）

インストールとセットアップ：3つの方法を選択

方法A：uvによるインストール（推奨）

# リポジトリのクローン
git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo

# uvで環境セットアップ（依存関係を自動解決）
python setup_env.py

uvはPythonのパッケージマネージャーで、依存関係の解決が速い。Python 3.10環境が推奨される。

方法B：Condaによる手動セットアップ

# Conda環境の作成
conda create -n videolingo python=3.10
conda activate videolingo

# FFmpegのインストール（必須）
# Ubuntu/Debian
sudo apt install ffmpeg

# macOS
brew install ffmpeg

# Windows（Chocolatey）
choco install ffmpeg

# 依存パッケージのインストール
pip install -r requirements.txt

# Streamlit UIの起動
streamlit run st.py

方法C：Docker（CUDA必要）

# Docker Compose でフルスタック起動
# CUDA 12.4 + cuDNN 9.3.0 が必要（Windows NVIDIA GPU）
docker compose up -d

# ブラウザで http://localhost:8501 にアクセス

APIキーの設定

VideoLingoはLLM翻訳にOpenAI互換APIを使用する。Claude、Gemini、DeepSeek等も対応している。

Streamlit UIの設定画面から、またはconfig.yamlに設定を記入する：

# config.yaml（基本設定）
api:
  key: "YOUR_OPENAI_API_KEY"
  base_url: "https://api.openai.com/v1"  # OpenAI互換のURLを指定
  model: "gpt-4o"

whisper:
  model: "large-v2"    # large-v2推奨（精度重視）または medium（速度重視）
  device: "cuda"       # CPU の場合は "cpu"

translation:
  target_language: "Japanese"
  enable_reflection: true  # 三段階翻訳の有効化

Windows NVIDIA GPU環境での注意事項
Windows環境でGPU推論を使う場合、CUDA 12.6とcuDNN 9.3.0の正確なバージョン組み合わせが必要。バージョンが合わない場合、WhisperXがCUDAを認識せずCPUフォールバックが発生し、処理速度が大幅に低下する。NVIDIAの公式サイトからCUDA Toolkitをインストールし、PyTorchのCUDA対応版が正しくインストールされているか確認すること（`torch.cuda.is_available()`で確認）。

実践的なユースケース：VideoLingoが活躍する5つのシナリオ

ユースケース1：YouTubeクリエイターの多言語展開

英語での動画を制作し、日本語・韓国語・スペイン語・中国語の字幕を同時に生成してYouTubeにアップロードするワークフローを構築できる。

VideoLingoのStreamlit UIでYouTube URLを入力し、ターゲット言語を選択するだけで、字幕ファイル（SRT形式）が自動生成される。出力ファイルをYouTube Studioの字幕エディタにアップロードすれば、タイミング調整のみで複数言語への対応が完了する。

手動翻訳と比べたコスト試算：

1時間動画の日本語翻訳：プロ翻訳者に依頼すると3〜5万円
VideoLingo使用時：GPT-4oのAPI費用（約300〜500円）+GPU処理時間

ユースケース2：企業研修動画の多言語展開

グローバル企業の人事部門が製品トレーニング動画を全拠点向けに多言語化するケースに適している。

SRT形式で出力された字幕ファイルはLMS（Learning Management System）の多くが標準対応しているため、字幕ファイルをアップロードするだけで多言語対応が完了する。同一動画から複数言語の字幕を同時生成することで、翻訳コストと対応時間を大幅に削減できる。

ユースケース3：外国語動画のローカライズ視聴

海外のカンファレンス動画、技術チュートリアル、教育コンテンツを日本語字幕付きで視聴するための個人利用。

# YouTube URLを直接指定（yt-dlpで自動ダウンロード）
# Streamlit UI（http://localhost:8501）にアクセスし：
# 1. YouTube URLまたはローカルファイルを入力
# 2. 元の言語（Source Language）を選択：English
# 3. 翻訳先言語（Target Language）を選択：Japanese
# 4. "Start Processing" ボタンをクリック
# 出力：video_ja.srt（日本語字幕）+ video_with_subtitles.mp4

ユースケース4：ポッドキャストの文字起こし・翻訳

音声コンテンツの文字起こしと翻訳でも活用できる。WhisperXの高精度音声認識により、専門用語が多いコンテンツでも高い認識率を期待できる。

医学・法律・技術分野の専門用語については、config.yamlのterminology設定でカスタム用語集を指定することで翻訳精度を向上させることができる。

ユースケース5：吹き替えによる声クローニング対応動画の制作

GPT-SoVITSエンジンを使うと、元の話者の声を学習して吹き替えを生成できる（声クローニング）。英語で話している動画を、同じ話者の声のまま日本語で吹き替えるといった用途に活用できる。

ただし、この機能には元話者の声データを使用する法的・倫理的な権利が必要であることに注意すること。

VideoLingoの詳細設定：翻訳品質を最大化するconfig.yamlの活用

VideoLingoはconfig.yamlで細かな動作設定が可能だ。以下に実践的な設定例を示す。

# config.yaml - VideoLingo 詳細設定例

# APIキー設定
api:
  key: "YOUR_API_KEY"
  base_url: "https://api.openai.com/v1"
  model: "gpt-4o"
  # DeepSeekを使う場合（コスト削減）
  # base_url: "https://api.deepseek.com/v1"
  # model: "deepseek-chat"

# 音声認識設定
whisper:
  model: "large-v2"       # tiny/base/small/medium/large/large-v2
  device: "cuda"          # cuda / cpu / mps（Mac）
  compute_type: "float16" # float32 / float16 / int8
  language: "en"          # 入力言語（自動検出する場合はnull）

# 翻訳設定
translation:
  target_language: "Japanese"
  enable_reflection: true    # 三段階翻訳（品質向上、APIコスト増加）
  # カスタム用語集（専門用語の統一翻訳に使用）
  custom_terms:
    "machine learning": "機械学習"
    "fine-tuning": "ファインチューニング"
    "hallucination": "ハルシネーション"

# 字幕フォーマット設定
subtitle:
  max_chars_per_line: 13   # 1行あたり最大文字数（日本語）
  min_duration_sec: 1.0    # 字幕の最小表示時間
  max_duration_sec: 7.0    # 字幕の最大表示時間

# TTS設定（吹き替えが必要な場合）
tts:
  engine: "edge_tts"       # edge_tts / openai / azure / gpt_sovits
  voice: "ja-JP-NanamiNeural"  # Edge TTSの日本語女性音声

DeepSeekを使ったコスト最適化

GPT-4oと比べてDeepSeekは大幅にコストが低い。翻訳品質の許容範囲内であれば、DeepSeekへの切り替えでAPIコストを80〜90%削減できる可能性がある。

# APIプロバイダーの切り替えは config.yaml の base_url 変更のみ
# OpenAI互換APIであれば同じ設定で動作する

# Claude APIを使う場合（claude-code-best-practice-guide-2026参照）
# 公式の互換エンドポイント経由で設定可能

字幕ファイルの後処理とフォーマット変換

VideoLingoが出力するSRTファイルを他のフォーマットに変換する例：

# SRT → WebVTT 変換（HTMLビデオ埋め込み用）
import re

def srt_to_vtt(srt_content: str) -> str:
    """SRTフォーマットをWebVTTに変換"""
    vtt = "WEBVTT\n\n"
    # タイムスタンプのカンマをピリオドに変換
    vtt += re.sub(r'(\d{2}:\d{2}:\d{2}),(\d{3})', r'\1.\2', srt_content)
    return vtt

# 使用例
with open('output/video_ja.srt', 'r', encoding='utf-8') as f:
    srt = f.read()

vtt = srt_to_vtt(srt)
with open('output/video_ja.vtt', 'w', encoding='utf-8') as f:
    f.write(vtt)

翻訳品質とコストのトレードオフ

VideoLingoの翻訳品質はLLMモデルの選択に大きく依存する。以下の優先順位で選択することを推奨する：

最高品質：gpt-4o + enable_reflection: true（三段階翻訳）
バランス重視：gpt-4o-mini + enable_reflection: true
コスト最優先：deepseek-chat + enable_reflection: false

一般的なYouTube字幕用途では、gpt-4o-mini + 三段階翻訳が品質とコストのバランスが良い選択肢だ。

競合ツールとの比較：字幕・翻訳自動化ツールの選択基準

ツール	字幕生成	翻訳品質	吹き替え	OSSか	コスト	特徴
VideoLingo	WhisperX	LLM三段階翻訳	対応（複数TTS）	完全OSS	APIコストのみ	高品質・ワンストップ
Whisper単体	高精度	なし	なし	完全OSS	無料	文字起こしのみ
SubtitleEdit	別途要	機械翻訳	なし	OSS	無料	字幕編集専用
Rev.com	人間+AI	人間翻訳	なし	商用SaaS	$1.5〜2/分	高品質・高コスト
Otter.ai	高精度	なし	なし	商用SaaS	$月額制	会議録音特化
YouTube自動字幕	良好	Googleゼロショット	なし	無料	無料	YouTube専用、精度普通

VideoLingoの最大の差別化は「高品質LLM翻訳＋吹き替えの組み合わせをオープンソースで提供している」点にある。他のOSSツールは字幕生成（WhisperX）か字幕編集（SubtitleEdit）かに特化しており、翻訳と吹き替えまでワンストップで対応するツールは商用SaaSが主流だった。

よくある質問

Q1：複数言語が混在する動画への対応は？

VideoLingoは現在、単一の入力言語を前提に設計されている。英語と日本語が混在する動画では、主要言語を手動で指定する必要がある。WhisperXは多言語検出をサポートするが、VideoLingoのパイプラインでは入力言語の手動指定が推奨される。

Q2：字幕の品質を向上させるには？

翻訳品質向上には以下の設定が有効：

enable_reflection: trueで三段階翻訳を有効化
より高性能なLLMモデル（gpt-4oなど）を指定
専門用語をconfig.yamlのterminologyセクションに追加
WhisperXのモデルをlargeからlarge-v2に変更

Q3：Macでの動作は問題ないか？

macOSでも動作するが、GPUはCUDAではなくMPS（Apple Metal Performance Shaders）が使用される。M1/M2/M3 MacではCPUよりも高速だが、NVIDIA GPU搭載の環境と比べると遅い。基本的な字幕生成・翻訳には問題なく使える。

Q4：日本語入力動画の翻訳精度は？

公式対応言語に日本語（入力）が含まれており、WhisperXの日本語音声認識精度は良好だ。ただし方言や専門用語の多い動画では認識精度が低下することがある。翻訳先の日本語については三段階翻訳プロセスにより自然な表現を目指しているが、最終確認は人間によるレビューを推奨する。

Q5：処理時間の目安は？

GPU（RTX 3090相当）使用時の目安：

10分動画：字幕生成約2〜3分、翻訳約1〜2分（API依存）
1時間動画：字幕生成約15〜20分、翻訳約10〜15分 CPU環境では約3〜5倍の時間がかかる。

まとめと参照ソース

VideoLingoは、字幕制作・多言語翻訳・AI吹き替えを自動化するOSSの中で最も完成度の高いツールのひとつであり、16,800スターが示す通りグローバルで広く採用されている。WhisperX + LLM三段階翻訳 + 複数TTSエンジンの組み合わせにより、商用サービスに匹敵する字幕品質を自前で実現できる。

制限として、GPUなし環境では処理が遅く、専門用語の多い分野では翻訳後のレビューが必要だ。声クローニング機能（GPT-SoVITS）は法的・倫理的な確認が必要なケースがある点も留意したい。

Apache Airflowのようなワークフロー管理ツールと組み合わせることで、VideoLingoの処理を定期的に自動実行するパイプラインの構築も可能だ。動画本体をAIで自動生成したい場合は MoneyPrinterTurbo完全ガイドと組み合わせると、テーマ入力→動画生成→VideoLingoで多言語字幕化、というパイプラインが組める。

導入を検討すべき組織

YouTubeで英語コンテンツを配信しており日本語字幕の需要がある個人・企業
多言語展開のコスト削減を検討している動画コンテンツ制作企業
社員研修・製品デモ動画を複数言語で展開したいグローバル企業
海外の技術カンファレンス動画を日本語でアーカイブしたい研究機関・コミュニティ

参照ソース

なお、VideoLingoはOSSであるため、コミュニティによる改善やプラグイン開発が活発だ。GitHubのDiscussionsやIssueを定期的に確認することで、最新の設定例や対応言語の拡充情報を得ることができる。

VideoLingoは動画コンテンツのローカライゼーションを民主化するOSSツールとして、個人クリエイターから企業の動画チームまで幅広い層に支持されている。16,800スターを超えた今もスター数は着実に増え続けており、多言語コンテンツへのニーズが世界規模で高まる中でその重要性はさらに増している。導入に際しては、まず短い動画（5〜10分程度）でパイプライン全体の動作を確認し、その後長尺動画や本番ワークフローへ段階的に適用していくアプローチが推奨される。翻訳結果の品質確認と用語統一のレビュー体制を整えることで、自動化と品質保証の両立が実現できる。VideoLingoを有効に活用するための第一歩として、まず少量の動画で試してみることを強くお勧めする。