概要
My Translatorは、リアルタイム音声翻訳機能を備えたデスクトップアプリケーション。Tauriで構築され、システムオーディオやマイクからの音声をキャプチャし、即座に翻訳結果をオーバーレイ表示する。シンプルなインターフェースで、中間サーバーを介さない直接的な翻訳処理を実現。
主な機能
- リアルタイム音声翻訳:システムオーディオまたはマイク入力を16kHz PCMでキャプチャし、Soniox APIにより音声認識と翻訳を同時実行
- デュアルパネルビュー:シングルモード(翻訳テキストのみ表示)とデュアルモード(原文と翻訳を並列表示)の切り替え可能
- 多言語対応:70言語以上の音声認識に対応し、任意の言語への翻訳が可能。一方向翻訳および双方向翻訳に対応
- TTS機能:3種類の音声合成プロバイダ(Edge・Google・ElevenLabs)から選択可能
- スマートスクロール:翻訳内容の視認性を最適化するスクロール機能
- フォントサイズ調整:ユーザーの視認環境に合わせた表示カスタマイズ
- 自動更新機能:アプリケーション設定から更新確認・インストールを実行可能
翻訳フロー
(Tauri) participant Audio as システムオーディオ
/ マイク participant Soniox as Soniox API
(STT + 翻訳) participant TTS as TTSプロバイダ
(Edge/Google/ElevenLabs) U->>App: アプリ起動・言語設定 App->>Audio: 16kHz PCMでキャプチャ開始 Audio->>Soniox: 音声ストリーム送信 Soniox-->>App: 認識テキスト + 翻訳テキスト(約2〜3秒) App-->>U: オーバーレイ表示(シングル/デュアルモード) U->>App: TTS再生リクエスト App->>TTS: 翻訳テキスト送信 TTS-->>U: 音声出力
技術スタック
- Tauri:クロスプラットフォームデスクトップアプリケーションフレームワーク
- Soniox API:音声認識と翻訳バックエンド(STT + Translation統合)。中間サーバーを経由しない構成によりプライバシーとレスポンス性能を両立
- macOS対応:Apple Silicon・Intelアーキテクチャ両対応、署名・公証済み
- Windows対応:Windows 10/11対応
- ライセンス:MIT
レイテンシとコスト
| 項目 | 数値 |
|---|---|
| 翻訳遅延 | 約2〜3秒 |
| Soniox API費用(目安) | 約$0.12/時間 |
| 対応プラットフォーム | macOS(Apple Silicon / Intel)、Windows 10/11 |
| 対応言語数 | 70言語以上 |
| ライセンス | MIT |
導入方法
macOS向け(英語版・ベトナム語版)およびWindows向け(英語版・ベトナム語版)のインストールガイドが用意されている。公式リポジトリのReleasesページから各プラットフォーム向けのバイナリをダウンロードしてインストールする。
macOSではGatekeeperの警告が表示される場合があるため、「システム設定 → プライバシーとセキュリティ」から許可する手順が必要な場合がある。
# macOSの場合: dmgをダウンロード後
# システム設定 > プライバシーとセキュリティ で許可するか
# または以下でGatekeeperを一時的に回避(自己責任)
xattr -dr com.apple.quarantine /Applications/MyTranslator.app
特徴
My Translatorは、オーディオベースの翻訳プロセスに特化したデスクトップアプリケーション。Soniox APIの単一バックエンドにより、複雑な設定なしに安定した音声翻訳を実現。中間サーバーを経由しない構成により、プライバシーとレスポンス性能を両立。
macOS・Windows両プラットフォームでネイティブに動作し、自動更新機能により常に最新版を利用可能。TTS機能により、翻訳結果を音声で確認することもできる。
こんな場面で活躍
- リアルタイム多言語会議:国際通話・オンライン会議でシステムオーディオを自動キャプチャし、翻訳テキストをオーバーレイ表示。通訳者なしで多言語コミュニケーションを実現できる
- コンテンツ視聴補助:英語・ベトナム語などの外国語ポッドキャスト・ウェビナー・動画を視聴しながら、リアルタイムで翻訳結果を確認。字幕のないコンテンツでも理解しやすくなる
- 語学学習:デュアルパネルモードで原文と翻訳を並列表示し、ネイティブスピーカーの発話をそのまま学習素材として活用。約2〜3秒のレスポンスで自然なリスニング練習が可能
- グローバルチームのコラボレーション:異なる母語を持つメンバーが参加するスプリント・1on1などで言語の壁を低減し、ミーティングの実質的な効率を上げる
音声処理・翻訳と関連する技術として、音声認識の高速化に取り組む Insanely Fast Whisper:OpenAI音声認識モデルの推論速度を大幅に改善するCLIツールも参照されたい。また、音声駆動で長時間の会話動画を生成するアプローチに興味があれば、InfiniteTalk:音声駆動で無制限長の会話動画を生成するAIフレームワークも関連ツールとして有用だ。