Whisperは精度が高い？日本語音声認識方法と文字起こし

Whisperの精度を比較
1. ノイズに強いWhisperとwav2vec 2.0
2. Whisperの精度のまとめ

Whisperの精度を比較

以下は、Whisperの音声認識精度を他の主要な音声認識モデルと比較した表です。比較には、Word Error Rate（WER）を使用しています。WERは、音声認識システムの精度を評価するための主要な指標であり、値が小さいほどエラーが少なく精度が高いことを示します。

モデル	データセット	WER（%）	特徴
Whisper	Common Voice	9.0	多言語対応、オープンソース、エンコーダ・デコーダアーキテクチャ
LibriSpeech (Clean)	2.7	高精度、長時間音声対応、ノイズ耐性
Whisper	LibriSpeech (Other)	5.2	多様な音声データに対応
DeepSpeech	Common Voice	43.82	オープンソース、シンプルなアーキテクチャ
DeepSpeech	LibriSpeech (Clean)	7.27	高精度、特定の音声データに強い
LibriSpeech (Other)	21.45	ノイズに弱い
Kaldi	Common Voice	4.44	高精度、カスタマイズ可能
Kaldi	LibriSpeech (Clean)	3.8	高精度、特定の音声データに強い
Kaldi	LibriSpeech (Other)	8.76	ノイズに弱い
wav2vec 2.0	Common Voice	16.1	自己教師あり学習、オープンソース
wav2vec 2.0	LibriSpeech (Clean)	1.8	高精度、ノイズ耐性
wav2vec 2.0	LibriSpeech (Other)	3.3	高精度、特定の音声データに強い
SpeechBrain	Common Voice	15.58	オープンソース、カスタマイズ可能
SpeechBrain	LibriSpeech (Clean)	高精度、特定の音声データに強い
SpeechBrain	LibriSpeech (Other)	5.77	ノイズに弱い

主要なポイント

Whisperは、多言語対応と高精度な音声認識を特徴とし、特にCommon VoiceやLibriSpeechデータセットで優れたWERを示しています。
関連）Whisper AIの使い方
DeepSpeechは、シンプルなアーキテクチャであるものの、特定のデータセットではWhisperに比べてWERが高いです。
Kaldiはカスタマイズ性が高く、特定のデータセットで高い精度を示しますが、ノイズに対しては弱い傾向があります。
wav2vec 2.0は自己教師あり学習を利用しており、特にLibriSpeechデータセットで非常に低いWERを達成しています。
SpeechBrainはカスタマイズ可能であり、特定のデータセットで高い精度を示しますが、ノイズに対してはやや弱いです。

ノイズに強いWhisperとwav2vec 2.0

音声認識で意外と重要なのがノイズ耐性。Whisperとwav2vec2.0は、他と比べてもノイズに強いです。

WhisperはOpenAIが開発したこともあって、いろんなところで名前を聞くのですがwav2vecとはどういうものでしょうか？

Wav2Vec 2.0は、音声認識の分野で画期的な成果を上げた自己教師あり学習（Self-Supervised Learning）を用いた音声表現学習のフレームワークです。このモデルは、Facebook AIのAlexei Baevski、Henry Zhou、Abdelrahman Mohamed、Michael Auliによって提案されました。
引用：Wav2vec 2.0: Learning the structure of speech from raw audio

Facebook（Meta）製の音声認識なんですね。

Wav2Vecは、認識精度は高いのですが、英語のみの対応だったようで、日本語にも対応させるには追加学習が必要のようです。

後から、多言語対応のWhisperが出てきたので、みんながそちらに乗り換えた…ということなんでしょうか。