概要

My Translatorは、リアルタイム音声翻訳機能を備えたデスクトップアプリケーション。Tauriで構築され、システムオーディオやマイクからの音声をキャプチャし、即座に翻訳結果をオーバーレイ表示する。シンプルなインターフェースで、中間サーバーを介さない直接的な翻訳処理を実現。

主な機能

  • リアルタイム音声翻訳:システムオーディオまたはマイク入力を16kHz PCMでキャプチャし、Soniox APIにより音声認識と翻訳を同時実行
  • デュアルパネルビュー:シングルモード(翻訳テキストのみ表示)とデュアルモード(原文と翻訳を並列表示)の切り替え可能
  • 多言語対応:70言語以上の音声認識に対応し、任意の言語への翻訳が可能。一方向翻訳および双方向翻訳に対応
  • TTS機能:3種類の音声合成プロバイダ(Edge・Google・ElevenLabs)から選択可能
  • スマートスクロール:翻訳内容の視認性を最適化するスクロール機能
  • フォントサイズ調整:ユーザーの視認環境に合わせた表示カスタマイズ
  • 自動更新機能:アプリケーション設定から更新確認・インストールを実行可能

翻訳フロー

sequenceDiagram participant U as ユーザー participant App as My Translator
(Tauri) participant Audio as システムオーディオ
/ マイク participant Soniox as Soniox API
(STT + 翻訳) participant TTS as TTSプロバイダ
(Edge/Google/ElevenLabs) U->>App: アプリ起動・言語設定 App->>Audio: 16kHz PCMでキャプチャ開始 Audio->>Soniox: 音声ストリーム送信 Soniox-->>App: 認識テキスト + 翻訳テキスト(約2〜3秒) App-->>U: オーバーレイ表示(シングル/デュアルモード) U->>App: TTS再生リクエスト App->>TTS: 翻訳テキスト送信 TTS-->>U: 音声出力

技術スタック

  • Tauri:クロスプラットフォームデスクトップアプリケーションフレームワーク
  • Soniox API:音声認識と翻訳バックエンド(STT + Translation統合)。中間サーバーを経由しない構成によりプライバシーとレスポンス性能を両立
  • macOS対応:Apple Silicon・Intelアーキテクチャ両対応、署名・公証済み
  • Windows対応:Windows 10/11対応
  • ライセンス:MIT

レイテンシとコスト

項目 数値
翻訳遅延 約2〜3秒
Soniox API費用(目安) 約$0.12/時間
対応プラットフォーム macOS(Apple Silicon / Intel)、Windows 10/11
対応言語数 70言語以上
ライセンス MIT

導入方法

macOS向け(英語版・ベトナム語版)およびWindows向け(英語版・ベトナム語版)のインストールガイドが用意されている。公式リポジトリのReleasesページから各プラットフォーム向けのバイナリをダウンロードしてインストールする。

macOSではGatekeeperの警告が表示される場合があるため、「システム設定 → プライバシーとセキュリティ」から許可する手順が必要な場合がある。

# macOSの場合: dmgをダウンロード後
# システム設定 > プライバシーとセキュリティ で許可するか
# または以下でGatekeeperを一時的に回避(自己責任)
xattr -dr com.apple.quarantine /Applications/MyTranslator.app
活用ポイント:オーバーレイ表示を最大限に使う デュアルパネルモードは、原文と翻訳を画面上に並列表示できるため、言語学習用途に特に有効。ネイティブ音声を聞きながら原文テキストと翻訳テキストを同時確認することで、リスニングと読解を同時に強化できる。 会議やウェビナーでの利用では、オーバーレイを画面端に配置しておくと作業を中断せずに翻訳内容を確認できる。フォントサイズ調整機能も備えているため、視認性の悪い環境(プロジェクター・大型モニター)にも対応可能。 Soniox APIの利用には事前にAPIキーの取得が必要。費用の目安は$0.12/時間であるため、長時間の国際会議などで継続利用する際は月額コストを見積もっておくこと。

特徴

My Translatorは、オーディオベースの翻訳プロセスに特化したデスクトップアプリケーション。Soniox APIの単一バックエンドにより、複雑な設定なしに安定した音声翻訳を実現。中間サーバーを経由しない構成により、プライバシーとレスポンス性能を両立。

macOS・Windows両プラットフォームでネイティブに動作し、自動更新機能により常に最新版を利用可能。TTS機能により、翻訳結果を音声で確認することもできる。

こんな場面で活躍

ユースケース別の活用シナリオ
  • リアルタイム多言語会議:国際通話・オンライン会議でシステムオーディオを自動キャプチャし、翻訳テキストをオーバーレイ表示。通訳者なしで多言語コミュニケーションを実現できる
  • コンテンツ視聴補助:英語・ベトナム語などの外国語ポッドキャスト・ウェビナー・動画を視聴しながら、リアルタイムで翻訳結果を確認。字幕のないコンテンツでも理解しやすくなる
  • 語学学習:デュアルパネルモードで原文と翻訳を並列表示し、ネイティブスピーカーの発話をそのまま学習素材として活用。約2〜3秒のレスポンスで自然なリスニング練習が可能
  • グローバルチームのコラボレーション:異なる母語を持つメンバーが参加するスプリント・1on1などで言語の壁を低減し、ミーティングの実質的な効率を上げる

音声処理・翻訳と関連する技術として、音声認識の高速化に取り組む Insanely Fast Whisper:OpenAI音声認識モデルの推論速度を大幅に改善するCLIツールも参照されたい。また、音声駆動で長時間の会話動画を生成するアプローチに興味があれば、InfiniteTalk:音声駆動で無制限長の会話動画を生成するAIフレームワークも関連ツールとして有用だ。

参照ソース