Whisperの精度を比較
以下は、Whisperの音声認識精度を他の主要な音声認識モデルと比較した表です。比較には、Word Error Rate(WER)を使用しています。WERは、音声認識システムの精度を評価するための主要な指標であり、値が小さいほどエラーが少なく精度が高いことを示します。
モデル | データセット | WER(%) | 特徴 |
---|---|---|---|
Whisper | Common Voice | 9.0 | 多言語対応、オープンソース、エンコーダ・デコーダアーキテクチャ |
LibriSpeech (Clean) | 2.7 | 高精度、長時間音声対応、ノイズ耐性 | |
Whisper | LibriSpeech (Other) | 5.2 | 多様な音声データに対応 |
DeepSpeech | Common Voice | 43.82 | オープンソース、シンプルなアーキテクチャ |
DeepSpeech | LibriSpeech (Clean) | 7.27 | 高精度、特定の音声データに強い |
LibriSpeech (Other) | 21.45 | ノイズに弱い | |
Kaldi | Common Voice | 4.44 | 高精度、カスタマイズ可能 |
Kaldi | LibriSpeech (Clean) | 3.8 | 高精度、特定の音声データに強い |
Kaldi | LibriSpeech (Other) | 8.76 | ノイズに弱い |
wav2vec 2.0 | Common Voice | 16.1 | 自己教師あり学習、オープンソース |
wav2vec 2.0 | LibriSpeech (Clean) | 1.8 | 高精度、ノイズ耐性 |
wav2vec 2.0 | LibriSpeech (Other) | 3.3 | 高精度、特定の音声データに強い |
SpeechBrain | Common Voice | 15.58 | オープンソース、カスタマイズ可能 |
SpeechBrain | LibriSpeech (Clean) | 高精度、特定の音声データに強い | |
SpeechBrain | LibriSpeech (Other) | 5.77 | ノイズに弱い |
主要なポイント
- Whisperは、多言語対応と高精度な音声認識を特徴とし、特にCommon VoiceやLibriSpeechデータセットで優れたWERを示しています。
関連)Whisper AIの使い方 - DeepSpeechは、シンプルなアーキテクチャであるものの、特定のデータセットではWhisperに比べてWERが高いです。
- Kaldiはカスタマイズ性が高く、特定のデータセットで高い精度を示しますが、ノイズに対しては弱い傾向があります。
- wav2vec 2.0は自己教師あり学習を利用しており、特にLibriSpeechデータセットで非常に低いWERを達成しています。
- SpeechBrainはカスタマイズ可能であり、特定のデータセットで高い精度を示しますが、ノイズに対してはやや弱いです。
ノイズに強いWhisperとwav2vec 2.0
音声認識で意外と重要なのがノイズ耐性。Whisperとwav2vec2.0は、他と比べてもノイズに強いです。
WhisperはOpenAIが開発したこともあって、いろんなところで名前を聞くのですがwav2vecとはどういうものでしょうか?
Wav2Vec 2.0は、音声認識の分野で画期的な成果を上げた自己教師あり学習(Self-Supervised Learning)を用いた音声表現学習のフレームワークです。このモデルは、Facebook AIのAlexei Baevski、Henry Zhou、Abdelrahman Mohamed、Michael Auliによって提案されました。
引用:Wav2vec 2.0: Learning the structure of speech from raw audio
Facebook(Meta)製の音声認識なんですね。
Wav2Vecは、認識精度は高いのですが、英語のみの対応だったようで、日本語にも対応させるには追加学習が必要のようです。
関連)wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう – NTT Communications Engineers’ Blog
後から、多言語対応のWhisperが出てきたので、みんながそちらに乗り換えた…ということなんでしょうか。
Whisperの精度のまとめ
Whisperは、オープンソースでノイズ耐性もあり、認識精度も高くて多言語に対応…という点で選ばれていると考えられます。
音声認識AIとしては、もう十分に精度が高いので、あとは自然言語処理AIと組み合わせて、音声認識後の文脈から誤りを検出・修正するという方向に発展していくのではないかと思われます。
関連)AI文字起こしを比較