このひと月ぐらいはStableDiffusionのことで持ち切りだった気がするが、こないだOpenAIが発表したwhisperも相当すごい。
whisperはすごい高性能な音声認識とついでに英語翻訳が可能なツールです。
音声認識できるのは英語や日本語だけじゃなくてほぼすべての言語と言ってよいくらい。そして全部の言語から英語へ翻訳可能なのです。
しかもMITライセンスで使えて、学習済みデータも提供されています。この学習されたデータがなんと68万時間(77年!)というとてつもない時間のデータとなっています。
そして認識精度もすごくて、ノイズが酷くてもものすごい早口でもだいぶ正確に聞き取れています。
そして、プログラムに組み込むのもものすごく簡単で、下記にデモのページを作ってみたのですが、たったこれだけのコードで音声認識と英語への翻訳が可能になってしまいます。
これ、音声認識とか自動翻訳とか研究でされてる方はもう相当打ちのめされてるのでは…