ここから本文です

ねぇGoogle、歌って踊ってつぶやいて

10/13(金) 6:00配信

Impress Watch

 ようやく日本にもGoogle Homeがやってきた。音声で応答するスマートスピーカーのトレンドは欧米に遅れることほぼ1年といったところだろうか。果たしてこの目新しいクラウドUIは普及するのかどうか。今回は、その可能性について考えてみる。

■クラウドと音声をやりとり

 Google Homeは、音声でGoogleのサービスを利用するためのデバイスだ。AI内蔵スピーカーととらえられることがあるようだが、実際にはもっとシンプルな仕組みで動いている。AIの存在はクラウド上であり、このデバイスは、あくまでも音声の入出力のためだけに機能しているように見える。だが、そんなことはどうでもいい。ユーザーにとって大事なことは、声をかければ適切な応答があるかどうかだけだからだ。

 本体にはバッテリが内蔵されているわけではないので、付属の電源アダプタを使って電源を供給する必要がある。アダプタを確認すると容量は16.5V/2Aだった。意外に大容量だ。一般的なものよりちょっと細めのDCプラグで外径3.5mm内径1.35mmといったところだろうか。偶然だが、レッツノートXZ6の電源アダプタと仕様的にほぼ同等だった。

 形状的には500mlの紙パックを円筒状にしたようなイメージだ。重量はそれなりにあって500gをちょっと下回るくらいだ。

 セットアップは容易だ。電源を供給するとすぐにスタートする。電源スイッチといった野暮なものはない。手元のiPhoneやAndroidスマートフォンにGoogle Homeアプリをインストールし、ガイダンスにしたがうだけだ。アプリはそのとき接続中のWi-Fiをいったん切断し、周辺にあるGoogle Homeを探索し、ユーザーの指示を受けてそこに接続する。Wi-Fiパスワードなどの情報は端末から送られるし、手入力することもできる。

 セットアップのプロセスでは、自分の声の登録のために「OK Google」と「ねぇ、Google」の発声を求められる。この発声はアプリの稼働しているスマートフォンに対して行ない、その情報がクラウド経由でGoogle Homeデバイスに格納されるようだ。

 セットアップを完了すると、以降、「OK Google」と「ねぇ、Google」に続けてやりたいこと、聞きたいことを音声で語りかけると、それなりの反応をするようになる。ずっと「OK Google」と「ねぇ、Google」というキーワードを監視していて、それを検出すると、続く音声をコマンドとして受け取るわけだ。つまり、常にマイクがオンの待ち受けだ。気になる場合は本体のスイッチでマイクをオフにもできるが、それでは意味がなかろう。

 スマートフォンで使うGoogleアシスタントは「OK Google」にしか反応しないが、Google Homeでは「ねぇGoogle」をトリガにできる。これは、かなり親近感が持てる仕様追加だ。コルタナさんがそうであるように「Googleさん」などがあればよかったとも思う。1語では誤動作の可能性があり、2語になっているが、日本人が「ヘイ」とか「ハーイ」というのは抵抗があったりもする。このローカリゼーションのセンスは悪くない。

 届いた音声は、いったんクラウドに送られ、解釈されて、検索等の処理を経たのちに応答データがクラウドから戻ってきてそれを再生、あるいはほかのデバイスにその処理を委ねる。反応するのに遅延がワンテンポあるのは仕方なさそうだ。いずれにしても、Google Homeデバイスの仕事はそれだけだ。

■セミパブリックな場所を考慮した気遣い

 Google Homeは特定の個人と紐付くものの、専用のパーソナルデジタルアシスタントとして振る舞うようにはなっていない。

 つまり、「OK Google」か「ねぇ、Google」とさえ声をかければ、誰の声であっても反応する。極端な話、リビングのテレビやラジオで「OK Google」と放送されれば世界中のGoogle Homeが反応するはずだ。

 最初、それを知らず、自分でセッティングして、自分の声にしか反応しないのかと思い込んでいたら、家族の問いかけにあっさりと応答して唖然としてしまった。

 ただ、いろいろ試して見ると、当たり障りのない要件についてはきちんと対応するが、セッティングした本人のスケジュールなど、いわゆるセンシティブな個人情報について尋ねた場合は、本人の声にしか対応しない。

 それも知らんぷりをするのではなく、「わかりません」「お役にたてない」「ごめんなさい」といったごまかし方をする。これは、通常の応答で対応ができない場合と同じセリフだ。パーミッションがないとか、個人情報は教えられないといった事情は明かさないのだ。

 この仕様のままでは家族など複数の人間が共有するスペースで個人情報を扱わせようとすると、その数だけスマートスピーカーが必要になってしまう。それでは非現実的だ。だが、Google Homeは、6人までの人間の声を聞き分けることができる。2番目のユーザーが、自分のスマートフォンにGoogle Homeアプリをインストールしてセッティングプロセスを進め、自分の声を学習させると、そのユーザーのアカウントを代行するようになる。

 この仕組みがうまくできていて、たとえば、音楽を聴いたり、YouTubeを見たりといった場合、Google Homeに登録された他のアカウントの設定を使うようにもできる。つまり、家族が4人いたとしても、そのうちの誰か1人がサブスクリプションサービスに加入しておけば、それを共有できるのだ。別途、家族用のアカウントを取得する必要はない。これはリーズナブルだ。

 今のところ、この仕組みはオール・オア・ナッシングで、共有できるかできないかを決めておくだけとなっているが、誰に共有するかというようなことができるようになるのも時間の問題だろう。そうすれば、保護者はアマゾンに任意のものを声で注文できるが、子どもはそんな勝手なことはできないというような設定ができるはずだ。

 もっとも、設定がものすごく複雑なものになってしまってはもともこもない。そのあたりのバランスは、今後の課題といったところだろうか。いずれにしても、家庭というセミパブリックな場所での振る舞いとしてはよく考えられていると思う。

 ちなみに、部屋には手の届く範囲にスマートフォンやタブレットといったデバイスがいくつか転がっていて、それぞれに自分用のGoogleアシスタントが設定されているかもしれない。だが、Google Homeと同じネットワーク内にいて、両方で呼びかけを認識しても、Google Homeだけが応答するという連携ができているようで、スマートフォン等のデバイスは反応しない。ここもキメの細かい仕様だと感じた。

■短い問いで短い回答

 今はとにかくいろんな問いかけをしてみて、どんな問いかけならその期待に沿った応答を返してもらえるのかを試行錯誤しているところだ。

 そんな悠長なことはやっていらねないというなら、ショートカットの機能を使うといい。これは確実な応答が得られる問いかけの別表現をあらかじめ登録しておくことで、その別表現で望みの問いかけができるようになるというものだ。

 たとえば、最寄りの駅から新宿駅まで行くために何時何分の電車に乗ればいいのかを確実に回答として得るには「ねぇGoogle、自宅から新宿駅への経路を教えて」と話しかけるのだが、電車の時間を聞くのにこれは大仰だ。

 そこでこのキーフレーズの別の言い方として「次の電車は?」、「電車」といった短いフレーズを登録しておくと「ねぇGoogle、次の電車は?」と話しかけることで「ねぇGoogle、自宅から新宿駅への経路を教えて」といったのと同じ結果が得られる。将来的に問いかけの解釈は、クラウド側でまだまだ進化していくだろうけれど、それを待っているほど気が長くないというのであれば、こうした方法を活用するといい。

■無尽蔵な知識の引き出し

 TVを見ているときに出てきたタレントや役者について、たとえばこの人は何歳だっけと思うことはよくある。そんなときはTVを見ながら「ねぇGoogle、松田聖子は何歳?」と声に出せば、即座に「1962年3月10日生まれ55歳です」と応えてくれる。まるで、物知りの家族が1人増えたようだ。

 そしてAKB48の曲が聴きたくなったら「ねぇGoogle、恋するフォーチュンクッキーをかけて」と言えばGoole Play Musicから曲を再生するし、「ねぇGoogle、YouTubeで恋するフォーチュンクッキーの動画を見せて」というとChromecastで再生する。

 ちなみに、音はいうほどよくない。音声の聴感をよくするためなのだろうか中域がブーストされ高音低音が抑制されている。ただ、これは天井近い棚の上に設置するという評価環境にひっぱられている点も影響している。

 朝、目が覚めたときに外が涼しいのか、寒いのか暑いのか知りたいときには、「ねぇGoogle、外の気温は?」とベッドの中からきけばいい。料理の途中でタイマーが必要なら「ねぇGoogle、5分たったら教えて」と頼めばいい。狭い我が家ではリビングに置いたGoogle Homeがあらゆる場所からの問いかけに応えてくれる。

 今はまだ限られたことしか応えてくれないが、それでもけっこう便利に使えている。その一方で、本当に各家庭に普及するのかといえば、正直なところまだ未知数ではないか。家の中にいても誰もがほとんど肌身離さず持っているスマートフォンで事が足りるだろうし、そもそもスマートフォンはGUIを持つので煩雑な応答になる場合は文字や画像で代替できるがスピーカーではそうもいかない。数値が混じるような複雑な応答を長々と朗読してもらっても困る。

 もちろん、Google Homeは、応答の出力先としてChromecastなどスクリーンに情報を映し出すことができるデバイスを使えるので、そういう場合はスマートフォンで見ろというような解も出てきそうだ。でも、便利さを追求すれば、ひと言で済む応答をひと言で問いかけて得るというのが現実的じゃないだろうか。

 今後の高齢化社会の中で、スマートフォン操作が困難になってきたシニア層にも重宝されるようになるかもしれない。その一方で、利用には必ずインターネット接続が必要になるため、自宅でのインターネット接続もモバイル回線に頼っているような世帯では普及は難しそうだ。若年層の一人暮らしなどでは壊滅的かもしれない。

 Googleが、このデバイスで何をしたいのか。そのうち広告メッセージでもつぶやくようになってしまうのか。インターネットの主戦場がモバイルファーストとなったことでPCのスクリーンをスマートフォンのスクリーンが代替するようになって、インターネットの広告的饒舌さが抑止されてしまったが、音声のみの世界では、その抑止力はもっと大きい。

 となれば、別の広告スキームを考えなければならないだろう。クラウド側の進化で成長するデバイスだけに、毎年買い替えるようなものでもなく、ほとんど耐久消費財的な存在にもなりそうだ。

 だが、スピーカーとの対話で誰かが儲からなければ、ユーザーは便利を無償で享受できない。直近の課題はそこだろう。

PC Watch,山田 祥平

最終更新:10/14(土) 14:07
Impress Watch

Yahoo!ニュースからのお知らせ