ここから本文です

3つのAIが録音データから文字起こししてくれる「SPEECH TO TEXT」

6/26(水) 7:20配信

FINDERS

AIごとの日本語認識力も見えてくる

会議や講演会の文字起こしは面倒な作業だ。作業そのものは録音された声を聴き、文字入力してテキスト化するだけなのだが、短期記憶力が求められる上、長時間従事しても効率よく作業ができる集中力の高さも必要となってくる。

こういった単純作業こそ、AIに任せたほうがいい。

「SPEECH TO TEXT」は、1分までの文字起こしなら無料、それ以上の長さであれば1分10円~で行ってくれるWEBサービスだ。

同類のサービスとの大きな違いは、Google、IBM Watson、Microsoftといった3つのAIを使えること。ユーザーはこれら3つのAIが音声から文字変換した結果(前述したように1分までは無料表示される)を見て、どのAIに仕事を依頼するか選べるようになっている。

以前紹介した「Qyur2」と同様、スマートフォンのマイクで録った録音データだと、誤字脱字が多い。また50MBまでの音声データしか受け付けてくれないといった制限もある。

反面、wav/mp3/aac/m4a/flacの音声データに対応しており、ICレコーダーで録音したデータをそのまま利用できるメリットもある。

開発者である山崎将志氏は以下のように述べている。高精度な変換結果を求めたい人は、低反響、少ノイズ、滑舌のいい録音データを用意しよう。

文字起こしの精度は、音質(特に音圧)、ノイズの量、発話の明瞭さ、固有名詞の数に左右されます。またこの順番で精度に影響を与えます。 弊社の実験では、例えばNHKのニュースをテレビからライン録りし、16kHzのflacでエンコードした音声ファイルを文字起こしすると、Google、IBM Watson、Microsoftの3社のサービス全てで、概ね95%前後の精度で認識してくれます。

武者良太

最終更新:6/26(水) 7:20
FINDERS

こんな記事も読まれています

あなたにおすすめの記事