Cohereが最先端の自動音声認識(ASR)モデル「Cohere Transcribe」をオープンソースで公開した。HuggingFaceの「Open ASR Leaderboard」において、複数の標準化されたデータセットで最高精度を達成。既存の大型・小型モデルと比較して競争力のある性能を実現。本日より、HuggingFaceでのダウンロード、またはCohere Model Vaultを介したAPI経由での利用が可能。
音声はAI駆動型ワークフローの中核モダリティへと急速に進化している。会議の文字起こし、音声分析、リアルタイム顧客サポートエージェントなど、実用的な応用シーンが広がる中、既存の音声認識モデルは精度か実行効率かのトレードオフに苦しんでいた。Cohereは「単なる研究成果物ではなく、日常的な運用を想定した本番対応システム」を目指し、ゼロから学習を行い、単語誤り率の最小化と生産性の両立を追求。その結果、ベンチマークから実運用まで一貫性を持つASRモデルを実現した。
| 項目 | 内容 |
|---|---|
| モデル名 | cohere-transcribe-03-2026 |
| アーキテクチャ | Conformer ベース エンコーダ・デコーダ構造 |
| 入力 | オーディオ波形 → ログメルスペクトログラム |
| 出力 | 文字起こしテキスト |
| パラメータ数 | 20億(2B) |
| 訓練目的 | 標準的な交差エントロピー損失(出力トークン) |
| ライセンス | Apache 2.0 |
| 対応言語 | 14言語 |
欧州言語(9言語)
├─ English, French, German, Italian, Spanish, Portuguese, Greek, Dutch, Polish
アジア太平洋言語(4言語)
├─ 中国語(Mandarin), 日本語, 韓国語, ベトナム語
中東北アフリカ言語(1言語)
└─ アラビア語
Cohere Transcribeは複数の標準化されたデータセットにおいて最高精度を達成:
| モデル | 平均WER | AMI | Earnings Call | Gigaspeech | LS Clean | LS Other | SPGISpeech | TedLium | Voxpopuli |
|---|---|---|---|---|---|---|---|---|---|
| Cohere Transcribe | 5.42 | 8.13 | 10.86 | 9.34 | 1.25 | 2.37 | 3.08 | 2.49 | 5.87 |
| Zoom Scribe v1 | 5.47 | 10.03 | 9.53 | 9.61 | 1.63 | 2.81 | 1.59 | 3.22 | 5.37 |
| IBM Granite 4.0 1B Speech | 5.52 | 8.44 | 8.48 | 10.14 | 1.42 | 2.85 | 3.89 | 3.10 | 5.84 |
| NVIDIA Canary Qwen 2.5B | 5.63 | 10.19 | 10.45 | 9.43 | 1.61 | 3.10 | 1.90 | 2.71 | 5.66 |
| Qwen3-ASR-1.7B | 5.76 | 10.56 | 10.25 | 8.74 | 1.63 | 3.40 | 2.84 | 2.28 | 6.35 |
| ElevenLabs Scribe v2 | 5.83 | 11.86 | 9.43 | 9.11 | 1.54 | 2.83 | 2.68 | 2.37 | 6.80 |
| Kyutai STT 2.6B | 6.40 | 12.17 | 10.99 | 9.81 | 1.70 | 4.32 | 2.03 | 3.35 | 6.79 |
| OpenAI Whisper Large v3 | 7.44 | 15.95 | 11.29 | 10.02 | 2.01 | 3.91 | 2.94 | 3.86 | 9.54 |
WER(単語誤り率)について:低い値ほど高精度。参考値として、WER 5%前後は「プロフェッショナルなトランスクリプション品質」の閾値とされている。
| 方式 | 特徴 | ユースケース |
|---|---|---|
| HuggingFaceダウンロード | オープンソース、ローカル実行、フルコントロール | 研究開発、プロトタイピング、エッジ環境 |
| Cohere API | セットアップ簡易、低リスク試行 | 実験的利用、小規模パイロット |
| Model Vault | プライベート推論、レート制限なし、低レイテンシ | 本番環境、ミッションクリティカル |
Model Vaultは時間当たり課金制で、長期契約による割引プラン有り。
従来、高精度のASRは大手クラウドベンダ(Google、Amazon、Microsoft)やスタートアップ(OpenAI、ElevenLabs)に独占されていた。Cohereのオープンソース公開により、企業は以下を実現可能:
Cohere Transcribeは今後、Cohere Northと深く統合予定。音声認識に留まらず、エンタープライズ音声インテリジェンス基盤へと進化。会議記録の自動文字起こし、感情分析、要約生成などのマルチモーダルワークフロー構築が容易化。
OSS音声認識モデルの技術ギャップは従来、クローズドソース大規模モデルに対して最大2〜3%のWER劣差が課題だった。Cohere Transcribeの登場で、その差は0.41%(OpenAI Whisper Large v3比較)に縮小。パラメータサイズ効率でも競争力を保持。
# HuggingFace CLIインストール
pip install huggingface-hub
# モデルダウンロード
huggingface-cli download cohere/transcribe-03-2026
# Pythonでの推論サンプル(疑似コード)
from transformers import AutoModelForCTC, AutoProcessor
import librosa
model_name = "cohere/transcribe-03-2026"
processor = AutoProcessor.from_pretrained(model_name)
model = AutoModelForCTC.from_pretrained(model_name)
# 音声ファイルを読み込み
audio, sr = librosa.load("meeting.wav", sr=16000)
inputs = processor(audio, sampling_rate=sr, return_tensors="pt")
# 推論
with torch.no_grad():
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)[0]
print(transcription)
# APIドキュメントを参照
# https://docs.cohere.com/transcribe
# cURL例
curl -X POST https://api.cohere.com/v1/transcribe \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "[email protected]" \
-F "language=en"
本番環境での利用を想定する場合、Cohere営業チームに要件(想定負荷・SLA等)を伝え、専有インスタンスのプロビジョニングを依頼。プライベートVPC内での推論が可能。
Cohere Transcribeは、単なる高精度音声認識モデルから、エンタープライズ向け包括的音声インテリジェンス基盤へと進化する予定。
想定される機能拡張:
マルチモーダルAIの急速な普及に伴い、テキスト生成AIと音声認識AIの統合は必須化。Cohere Transcribeは、既存のCohere Command(テキスト生成)と組み合わせ、音声入力から知的応答を引き出すエンドツーエンドシステム実現への足掛かりになる可能性が高い。
この記事はAI業界の最新動向を速報でお届けする「AI Heartland ニュース」です。