ここから本文です

AIで複数の同時音声を分離、再現率は脅威の90%

5/29(月) 17:06配信

EE Times Japan

■答えではなく、解き方を学ぶ

 スマートフォンやカーナビなどの音声認識機能は、雑音や複数の人の声が混じると正しく機能しないことが多い。音を聞き分けて再現する技術自体は既に存在するが、精度の面でまだ十分とはいえない。マイク1本で取得した音声を分離し再現する技術の場合は特にだ。

 三菱電機が同社独自のAI技術「ディープクラスタリング」を用い、音声分離技術を開発したのにはこのような背景がある。三菱電機は2017年5月24日の研究成果発表会で、マイク1本で録音した複数話者の同時音声を分離し、きれいに再現する様子を披露した。

 ディープクラスタリングとは、ディープラーニングとクラスタリングを組み合わせたものだ。三菱電機が開発した音声分離技術は、複数話者の同時音声の成分をクラスタリング(分類)し、分類した成分をそれぞれのクラスタで合成することで、各話者の音声を再現する。音声成分の分類は、抑揚や音の流れといった音声特徴の類似をもとに行う。

 一方、特徴の類似をもとに音声を分離する“仕方”を学ぶのがディープラーニングの役目だ。人工知能を活用した従来の音声分離システムの場合、音声の特徴がどの話者に帰属するかを学んでいた。つまり、答えを丸暗記していたのだ。そのため、学習済みでない音声の識別ができなかった。しかし、三菱電機の音声分離技術はディープラーニングで、音声の特徴を分類する仕方そのものを学ぶ。答えではなく解き方を学ぶため、初めて対応する音声でも的確に処理することができる。

 三菱電機の音声分離技術は、音声を話者に結び付けて学ぶわけではないので、話者の性別や言語に依存しない。いかなる話者相手でも、2者の同時音声を分離した場合、90%以上の原音再生率を発揮できる。従来の技術では51%だった。一方、3者の同時音声を分離した場合、原音再生率は80%以上となる。また、学ばせさえすれば、人の声だけでなく雑音の分離も可能だ。

 三菱電機の説明員は、「ディープクラスタリングをカーナビの音声認識機能に応用すれば、音声入力中に同乗者の声や車の走行音が混じったとしても、カーナビはドライバーの音声だけを分離して認識できるようになる」と語っている。

最終更新:5/29(月) 17:06
EE Times Japan