RealtimeTTS：テキスト音声変換オープンソースで実現するLLM応答のゼロ遅延音声化手法

Koljab Realtimetts

audio-video text-generation ui ⭐ 3800 Python

2026.03.24 1分更新 2026.03.30

RealtimeTTS：テキスト音声変換オープンソースで実現するLLM応答のゼロ遅延音声化手法 - AIツール日本語解説 | AI Heartland

ストリーミング入力に対応しており、LLMが最初のトークンを返した瞬間から音声出力が始まります。クラウド系からオフライン動作のローカルエンジンまで10種以上を統一APIで切り替え可能です。AIアシスタント・ゲームNPC・リアルタイム翻訳など、応答速度が体験品質に直結するユースケースで威力を発揮します。

この記事ではLLMに特化して解説します。LLM全般は LLMとは？仕組みからローカル実行まで徹底解説【2026年完全ガイド】をご覧ください。

概要

RealtimeTTSは、テキストを低遅延でリアルタイムに音声変換するPythonライブラリです。従来のTTSはテキスト全体を受け取ってから処理を開始するため、応答に数秒かかるのが当たり前でした。このライブラリはストリーミング方式で、入力の最初の数トークンから即座に音声を出力します。

ベルリンのエンジニアKoljaB氏が音声AIアシスタントの開発中に「ユーザーが毎回5秒待たされる」という壁にぶつかり、2023年に開発・公開しました。現在はコミュニティ主導で活発に機能追加が続いており、GitHubスターは3,800を超えています。OpenAI TTSやElevenLabsといったクラウドエンジンから、Raspberry Piでも動くPiperや感情タグ対応のOrpheusまで、10種以上のバックエンドを統一APIで扱えます。

主な機能

ストリーミング入力対応: LLMのトークン生成と同時に音声化を開始し、体感遅延を最小化
10種以上のエンジン統合: OpenAI・ElevenLabs・Azure・Kokoro・Coqui・Piperなどを統一APIで切り替え可能
オフライン動作: PocketTTS・Piper・SystemEngineなどローカルエンジンはインターネット不要
音声クローニング: NeuTTSEngineで3秒の参照音声からリアルタイムに声質を複製
感情表現: OrpheusEngineで喜怒哀楽の感情タグを音声に反映
自動フェイルオーバー: エンジン障害時に別エンジンへ自動切替し、途切れを防止
日本語・中国語フルサポート: Kokoroエンジンでpip install realtimetts[kokoro,jp]から即利用可能

技術スタック

言語: Python 3.7+
クラウドエンジン: OpenAI TTS、ElevenLabs、Azure Speech、Google Translate TTS、Microsoft Edge TTS、CAMB AI MARS、MiniMax Cloud
ローカルエンジン: SystemEngine、Coqui TTS、Piper、StyleTTS2、Parler TTS、Kokoro、ZipVoice、PocketTTS、NeuTTS、Orpheus
オーディオ処理: PyAudio、pydub
並行処理: threading、queue（ノンブロッキング非同期再生）
オプション: ffmpeg（フォーマット変換）

導入方法

全エンジンを一括インストールする場合は次のコマンドを実行します。

pip install -U realtimetts[all]

必要なエンジンだけを選んでインストールすることも可能です。

pip install realtimetts[azure,elevenlabs,openai]

日本語対応のKokoroエンジンを使う場合は言語パックを追加します。

pip install "realtimetts[kokoro,jp]"

最小構成での動作確認はSystemEngineから始めるのが最も手軽です。

from RealtimeTTS import TextToAudioStream, SystemEngine

engine = SystemEngine()
stream = TextToAudioStream(engine)
stream.feed("こんにちは、リアルタイムTTSのテストです")
stream.play_async()

LLMとの組み合わせでは、ジェネレータをfeed()に渡すとトークン単位でストリーミング再生が始まります。

from RealtimeTTS import TextToAudioStream, KokoroEngine

def llm_stream():
    # OpenAIなどのストリーミングAPIから逐次yield
    for token in your_llm_stream():
        yield token

engine = KokoroEngine(language="ja")
stream = TextToAudioStream(engine)
stream.feed(llm_stream())
stream.play_async()

競合比較

項目	RealtimeTTS	gTTS	pyttsx3	Azure Cognitive
ストリーミング入力	✓	✗	✗	△
複数エンジン対応	✓（10種以上）	✗	✗	✗
初期出力遅延	200〜500ms	2〜5秒	1〜2秒	1〜3秒
オフライン動作	✓（ローカルエンジン）	✗	✓	✗
音声クローニング	✓（NeuTTS）	✗	✗	△
日本語品質	★★★★★	★★★	★★	★★★★
無料利用	✓（ローカル系）	✓	✓	無料枠あり

最大の差別化要素はストリーミング入力への対応です。ローカルLLMとの組み合わせで完全オフライン環境を構築したい場合はDistributed LlamaやFastChatも参照してください。gTTSやpyttsx3はテキスト全体を受け取ってから音声生成を開始するため、LLMとの組み合わせでは必ず数秒のラグが生じます。RealtimeTTSはジェネレータをそのまま受け取り、最初のチャンクから即座に音声化を開始します。