PR

Whisperは精度が高い?日本語音声認識方法と文字起こし

Whisperの精度を比較

以下は、Whisperの音声認識精度を他の主要な音声認識モデルと比較した表です。比較には、Word Error Rate(WER)を使用しています。WERは、音声認識システムの精度を評価するための主要な指標であり、値が小さいほどエラーが少なく精度が高いことを示します。

モデル データセット WER(%) 特徴
Whisper Common Voice 9.0 多言語対応、オープンソース、エンコーダ・デコーダアーキテクチャ
Whisper LibriSpeech (Clean) 2.7 高精度、長時間音声対応、ノイズ耐性
Whisper LibriSpeech (Other) 5.2 多様な音声データに対応
DeepSpeech Common Voice 43.82 オープンソース、シンプルなアーキテクチャ
DeepSpeech LibriSpeech (Clean) 7.27 高精度、特定の音声データに強い
DeepSpeech LibriSpeech (Other) 21.45 ノイズに弱い
Kaldi Common Voice 4.44 高精度、カスタマイズ可能
Kaldi LibriSpeech (Clean) 3.8 高精度、特定の音声データに強い
Kaldi LibriSpeech (Other) 8.76 ノイズに弱い
wav2vec 2.0 Common Voice 16.1 自己教師あり学習、オープンソース
wav2vec 2.0 LibriSpeech (Clean) 1.8 高精度、ノイズ耐性
wav2vec 2.0 LibriSpeech (Other) 3.3 高精度、特定の音声データに強い
SpeechBrain Common Voice 15.58 オープンソース、カスタマイズ可能
SpeechBrain LibriSpeech (Clean) 2.46 高精度、特定の音声データに強い
SpeechBrain LibriSpeech (Other) 5.77 ノイズに弱い

主要なポイント

  • Whisperは、多言語対応と高精度な音声認識を特徴とし、特にCommon VoiceやLibriSpeechデータセットで優れたWERを示しています。
    関連)Whisper AIの使い方
  • DeepSpeechは、シンプルなアーキテクチャであるものの、特定のデータセットではWhisperに比べてWERが高いです。
  • Kaldiはカスタマイズ性が高く、特定のデータセットで高い精度を示しますが、ノイズに対しては弱い傾向があります。
  • wav2vec 2.0は自己教師あり学習を利用しており、特にLibriSpeechデータセットで非常に低いWERを達成しています。
  • SpeechBrainはカスタマイズ可能であり、特定のデータセットで高い精度を示しますが、ノイズに対してはやや弱いです。

ノイズに強いWhisperとwav2vec 2.0

音声認識で意外と重要なのがノイズ耐性。Whisperとwav2vec2.0は、他と比べてもノイズに強いです。

WhisperはOpenAIが開発したこともあって、いろんなところで名前を聞くのですがwav2vecとはどういうものでしょうか?

Wav2Vec 2.0は、音声認識の分野で画期的な成果を上げた自己教師あり学習(Self-Supervised Learning)を用いた音声表現学習のフレームワークです。このモデルは、Facebook AIのAlexei Baevski、Henry Zhou、Abdelrahman Mohamed、Michael Auliによって提案されました
引用:Wav2vec 2.0: Learning the structure of speech from raw audio

Facebook(Meta)製の音声認識なんですね。

Wav2Vecは、認識精度は高いのですが、英語のみの対応だったようで、日本語にも対応させるには追加学習が必要のようです。

関連)wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう – NTT Communications Engineers’ Blog

後から、多言語対応のWhisperが出てきたので、みんながそちらに乗り換えた…ということなんでしょうか。

Whisperの精度のまとめ

Whisperは、オープンソースでノイズ耐性もあり、認識精度も高くて多言語に対応…という点で選ばれていると考えられます。

音声認識AIとしては、もう十分に精度が高いので、あとは自然言語処理AIと組み合わせて、音声認識後の文脈から誤りを検出・修正するという方向に発展していくのではないかと思われます。

関連)AI文字起こしを比較