ここから本文です

オンデヴァイスのAIは、音声認識のゲームチェンジャーになるか

5/22(水) 19:11配信

WIRED.jp

デヴァイスとの会話という体験が変わる

消費者テクノロジーの世界では、新しい技術が生活に必須なものへと進化するためには、処理速度の向上とバグをなくすことが重要課題とされる。ヴィデオチャットやマルチプレイのオンライゲームが当たり前となる上で、高性能パソコンとブローバンド接続が果たした役割を考えればわかるだろう。

デヴァイスだけで完結する音声認識システムについては、まだ提供が始まったわけではないし、当初はハイエンドモデルでしか利用できない。ただ、この新しいテクノロジーにより、デヴァイスとの会話という体験が完全に変わる可能性はある。

グーグルの音声アシスタントは2012年に始まったAI研究の成果のひとつであり、なかでも深層学習と呼ばれる手法が確立されたことで、エラー率は25パーセントも低下した。しかし、当時はまだデータはサーヴァー上でしか処理できなかった。クラウドに送ることで時間的な制約がかかるだけでなく、ネットワークエラーによるバグも生じる。

グーグルはこの問題を解決するため、深層学習のソフトウェアの圧縮に取り組んできた。そして、音声認識モデルにおいてはマイルストーンに到達したというわけだ。サーヴァーで動かしている音声認識プログラムは全体で2GBもあり、スマートフォン側で走らせるのはほぼ不可能だ。これに対し、最新版は同じパフォーマンスをわずか80MBで実現している。サイズにすると実に25分の1だ。

「ゲームチェンジャー」になる技術

クラウドベースより動作性が明らかによくなれば、ユーザーが音声コマンドやAIアシスタントを利用する頻度は増えるだろう。また、他社が同様の技術を開発して追いついてくるまでは、グーグルが市場を主導できるかもしれない。なお、アップルは2017年に「オフラインで使える個人アシスタント」の特許を出願している。

市場調査会社ガートナーのワーナー・ガーツは、オンデヴァイスの音声認識は「ゲームチェンジャー」であり、既存技術を利用したシステムを採用するアップルやアマゾンにとっては大きな脅威となるだろうと説明する。ガーツは「データ処理の遅延はこれまで常に大きな問題でした」と言う。たいていの人はこの遅延(レイテンシー)を感じたことがあるはずだ。

グーグルは、この新技術を別のアプリケーションにも活用している。端末で再生される音声の字幕化機能「Live Caption」だ。この機能では、友人から送られてきた動画からポッドキャストまで、どんなメディアでもリアルタイムで自動的に字幕を付けられる。デヴァイス側で処理が完結するため、機内モードでも使うこともできるという。

2/3ページ

最終更新:5/22(水) 19:11
WIRED.jp

記事提供社からのご案内(外部サイト)

『WIRED Vol.33』

コンデナスト・ジャパン

2019年6月13日発売

1,200円(税込み)

『WIRED』日本版VOL.33「MIRROR WORLD - #デジタルツインへようこそ」来るべき第三のグローバルプラットフォームを総力特集

こんな記事も読まれています

あなたにおすすめの記事