ここから本文です

ロボットや家電に搭載されている音声アシスタントのスムーズな「会話力」はどうやって開発されているのか?

7/23(日) 11:10配信

@DIME

スマホではおなじみのSiriやOK Google、しゃべってコンシェルなどの“音声アシスタント機能“は、ここ数年で使い勝手がかなりよくなり、家電やオモチャ、ロボットなど様々なところに使われはじめています。

注目を集めるようになったきっかけは、Amazonが開発するAI音声アシスタント Alexa を搭載したスマートスピーカー Echoシリーズがアメリカで爆発的にヒットしたことがあります。スマートスピーカーはこの夏から日本でも、Google HOMEやLINEのWaveが発売される予定で、他にもMicrosoftのInvoke、AppleのHomePodといった大手各社から製品発表が続き、市場全体が大きく活気づいています。

そんな音声アシスタントですが、どのように開発が進められ、スマートスピーカー以外ではどのように活用されようとしているのでしょうか。先日大阪で開催された、音声アシスタントをテーマにしたトークセッションから、開発の現場に関わる方たちの話をご紹介します。

大阪のモノづくりコワーキングスペース「The DECK」で開催されたイベント「Smartphone and Beyond」のテーマに音声アシスタント機能が取り上げられ、3名のゲストスピーカーから開発現場についてのトークが繰り広げられた。

音声アシスタントの開発は量より質が大事

まず最初に、音声アシスタントを開発しているサウンドハウンド日本法人の中島寛子副社長より、技術や市場の動きに関する話がありました。

サウンドハウンドは2005年にスタンフォード大学の卒業生が設立したベンチャーで、流れている音楽を聞かせるだけでタイトルを検索できる音楽検索アプリ「SoundHound」や鼻歌検索「Midomi」などの開発で知られています。

「創業時からずっと”脳の認知を解明する”ことを目標に、高い技術力で開発を続けてきた」と言い、独自プラットホームを100%自社で開発しています。200以上の国と地域で3億以上のユーザーに利用され、まもなく日本語版のリリースも予定している音声アシスタントは、「続けて質問する場合に直前の文脈を参照して再度場所や日付を言う必要がないなど、自然に対話できるところに力を入れている」としています。

興味深いのは、音声アシスタントの開発には膨大な声のデータが必要とされ、それゆえにGoogleなどの大企業で検索サービスを提供しているところや、Amazonのように安価でデバイスを普及させて利用率を上げる方が有利だと思っていたのですが、中島氏は「音声データは量より質が大事」とし、「必要に応じてデータを専門機関から購入するという開発体制で、信頼性の高い機能を実現しててる」と説明します。

実際、多言語対応で世界各国に実績があり、複数の日本企業ともパートナーシップを築いています。2015年12月から提供しているサウンドハウンドの音声検索機能を使えるAPI「HounDIFY」 についても、2万以上の企業と開発者が利用しているそうです。

キャリア技術との連携でデバイスの開発力をアップ

次に、ドコモやソフトバンクが開発する音声アシスタント機能を利用し、デバイスを開発している2社のスタートアップから発表がありました。

ドコモの自然対話プラットホームを利用した、ホームコミュニケーションデバイス「petpcp(ペトコ)」を開発する、ハードウェアスタートアップのFORTIES(フォーティーズ)では、他にも複数の企業と連携してデバイスの製作に取り組んでいます。

petpcpはふだんはシンプルなカメラ付卓上ライトですが、メッセージを受け取るとキャラクターの顔が浮かび上がってしゃべったり、相手の映像を映し出す仕組み。音声アシスタントで入力が苦手な小さな子どもや年配の方も使えるのがポイントで、顔認識機能でメッセージを伝える相手を判断するなど、スマートスピーカーにない機能を備えています。

社長の川添貴氏は「ハードウェアは置き物にならないよう使い続けてもらうのが大事。スマート化するだけでなく、どのようなUI(ユーザーインターフェイス)を利用するか、どんなサービスを使えるようにするか、バランスを考えて開発する必要がある」と説明。全て自社で開発するのではなく、求める機能にあわせてパートナー連携することで、スピード感のある開発を行っています。

単なる音声スマートコントローラーではなく、家庭内コミュニケーションのハブを目指しており「まずは夏のトライアル発売でユーザーに使っていただき、ニーズにあわせて他のビジネスとの連携や、AI機能も取り入れることを考えている」と言います。

入力方法とそのレスポンスを考えたUI設計が大事

ロボット開発スタートアップとして海外でも注目されている PLENGoer Roboticsでは、最新版のパーソナルアシスタントロボット「PLEN Cube」に、ソフトバンクの音声アシスタントを採用しています。

これまで開発してきた小型二足歩行型ロボット「PLEN」シリーズとは大きく異なり、手のひらサイズで持ち歩けるキューブ型デザインの PLEN Cubeは、上半分が360度回転して、パノラマやフェイストラッキング撮影などができるほか、IoTデバイスとして家電をコントロールしたり、通知したりするといった機能を備えています。

赤澤夏郎社長は「これまでの経験から、スマートデバイスは入力方法とそれに対するリアクションも含めたレスポンスが大事なので、音声とジェスチャーの両方でコントロールできるUIを開発した」と説明。petocoと同じく音声アシスタント機能は外部と連携することで、ロボット開発の部分に力を入れていきたいとしています。

まずは日本語で自然に使えることが大前提

音声アシスタントで大事なのは、やはりレスポンスの早さと精度で、サウンドハウンドの中島氏は「音声アシスタントでは反応速度や精度が製品の善し悪しにつながり、そこに注力してきた当社のアプリは市場を生き残ることができた」と言います。音声コントロールについても「自然なレスポンスができるようになれば、気にせず使い続けるようになるのでは」としています。

FORTIESの川添氏は「まずは音声アシスタント機能を知ってもらう必要がある」とし、方法の一つとしてドコモショップなどにデバイスを置いて使ってもらうのもあるかもしれない、としています。PLENGoerの赤澤氏は「音声アシスタントはいろいろあるユーザーの使い勝手を高める方法の一つなので、自分たちが動いて面白いものを作ることで相互に成長できると考えています」とコメントしています。

いずれにしても音声アシスタント機能は、入力手段の一つとしてこれから確実に浸透し、今後はAIの力を借りて大きく進化する可能性を持っています。日本語版の対応はこれからだけに、本当に自然な会話をするように使える機能として登場してくれることを期待したいところです。

文/野々下 裕子

@DIME編集部

最終更新:7/23(日) 11:10
@DIME

記事提供社からのご案内(外部サイト)

@DIME

小学館

2017年11月号
9月16日発売

定価600円

RIZAPの真実。
2018年最新手帳 格付けレビュー
スーパー中学生のつくりかた