ここから本文です

AlexaがSiriを抜き去った理由

6/8(木) 17:22配信

ITmedia エンタープライズ

 Appleが6月5日の「WWDC 2017」で、うわさの音声認識AIデバイス「HomePod」を発表しました。

【画像】Appleが満を持して投入する「HomePod」

・Apple、スマートスピーカー「HomePod」発表 Siri搭載

 “音声認識AIデバイス”というのは、私が作った造語です。上記の記事では“スマートスピーカー”といっていますが、このジャンルのデバイスは、“音声認識デバイス”とか、“音声認識AI”とか、“音声アシスタントAI”など、メディアによって呼称がバラバラな上に、どれもいまひとつしっくりこないため、私は“音声認識AIデバイス”としてみました。

 このジャンルのデバイスとしては、「Amazon Echo」が先行しているといわれています。正確には、「Echo」は製品名で、音声認識AI技術の名称は「Alexa」ですね。

 この海外記事では「絶好調」といっていますが、この種のデバイスは日本ではまだ売られていないため、英語圏での評価しか分かりません。日本で発売された場合の反応は日本語の認識精度を含め、海外とはちょっと違うのかもしれません。

●音声認識AIで先行したApple

 実は、最初に音声認識AIに注目したのはAppleだったのをご存じでしょうか。最初に知るところとなったのは、2011年に「iPhone 4S」で採用された「Siri」です。

 2007年に初代iPhoneを発表したとき、スティーブ・ジョブズ氏は、キーボードやスタイラスに変わる理想の入力方式として「指」を採用したとスピーチしました。

 タッチスクリーンはその後、スマートフォンの入力方式として標準になりましたが、やはり文字を入力するのは大変です。Siriの登場は、“人間にとって、最も自然な入力方法は「音声」”ということを示唆していたのかもしれません。

●伸び悩んだSiri

 音声の可能性に気付いたAppleは、Siriを開発したわけですが、当初、認識精度は悪く、ほぼ使い物になりませんでした。

 最近は、機械学習のおかげで認識はそこそこになりましたが、頼んだこと(xxを調べてくれ、とか)への対応は、ただその単語をWebで調べただけという感じで、役に立つという印象からは程遠い感じです。

 認識精度については日本語と英語の差もあるでしょうが、その先の、“コンテキスト(文脈)を理解して最適な(できればパーソナライズされた)回答を提示する”というAI的な部分については、同じロジックが使えるはずと思いますが、まだ道半ばなのでしょう。

 ただ、難しいのは、道端や電車の中でスマホに話し掛けるのにちょっと勇気がいるところ(というか、しませんよね)。Siriも、当初は車の中でのスマホ操作を想定していたのではないかと思います。それに、その後Appleが自動車やテレビ、ウェアラブルデバイスに進出するためには、音声認識AIが必須だったと思いますし、そのための布石だったのだと思います。

 実際には、Siriの完成度がいまひとつなこともあってか、Appleのスマートホーム用プラットフォーム「Homekit」や車用の「CarPlay」などに対応した機器はあまり増えていませんでした。iPhoneがあまりに好調だったので、Siriの完成度を上げて音声用の専用デバイスを作るという発想にならなかったのかもしれません。

 Appleは、スマートホームのゲートウェイとしてiPhoneを考えていたのでしょう。そこへ殴り込んできたのがAmazonだったわけです。AmazonはAppleとは違い、スマホで手痛い失敗を経験していますから、逆にスマホに変わるゲートウェイを発想できたということなのかも知れません。

●徹底したこだわりと「Skill」でSiriを抜き去ったAlexa

 Amazonのジェフ・ベゾス氏は、Echoをリリースするに当たって、応答時間を当初の3秒から1秒に短縮させるなど、使い勝手に徹底的にこだわったそうです。ベゾス氏は、ジョブズ氏並みの完璧主義者といわれており、それはジョブズ氏がiPhoneの開発時にタッチのレスポンスや挙動に徹底的にこだわった話と重なります。

 Echoはまだ日本で販売されていないので、その成果はビデオなどで見るしかないのですが、これだけ売れているということは、かなり精度や使い勝手が良いのではないかと思います。早く日本でも出してほしいですね。

 対してSiriは、先行していたにもかかわらず、先行者利益を生かせなかった格好です。やはりジョブズ氏の不在が大きいのかな、とも思ってしまいますね。エンドユーザーは妥協に敏感です。そういえば、日本のガラケー全盛期にも、UIの「サクサク感」が最も重視されていたことを思い出します。

 Alexaにも、AppleのHomekitと同様の「Aleza Skill Kit(ASK)」というプラットフォームが用意されています。Echoが大成功したため、Alexaに対応した機器やサービスは爆発的に増えています。ASKを使うことで、さまざまな企業がAlexaの機能を使ったサービスを簡単に作れるわけです。

 私は、このASKで使われる「Skill」というアドオンが、Alexa成功のもう1つの要因だと思っています。この記事にあるように、「ドミノピザの開発したSkilによってAlexaがピザを注文したり、UberのSkillによってAlexaが配車サービスを手配したり」できるということで、Skillの数が増えているのです。

 こういった特定の目的を持った小さなサービスは、やりたいことが分かっているため、誤認識や見当違いの回答を少なくすることができると考えられます。まさにこの点が、Alezaの利便性を高める結果になっているのではないでしょうか。対してSiriは、さまざまなことに対応できる汎用的な音声アシスタントを目指したため、逆に見当違いの回答を繰り返したりして、信頼を失っていったと見ることもできます。

 こうしたエコシステムが拡大していくことで、利便性や有用性がどんどん高まっていきます。

 この分野では、Googleも既に「Google Home」を出しています。AppleはようやくHomePodで参入、さらにMicrosoftも「Cortana」を搭載したスピーカー「Invoke」を2017年秋に出す予定となっています。先行するAmazon Echoにどこまで迫れるか、に注目が集まります。家庭・車内用の音声認識AIデバイスでプラットフォームを握ることができれば、巨大な市場を手に入れることができるでしょう。

 ただ、AppleのHomePodは、英語圏での発売が2017年12月ということで、その間にさらにAlexaとの差が開いてしまうかもしれません。しかも、日本語版については言及もされていないようです。Siriは既に日本語に対応しているのに、なぜ出てこないのでしょうか。認識精度の問題なのか、処理するクラウドの能力の問題なのか……。

●日本の製品に期待

 日本語の音声認識なら、日本企業に研究の蓄積があるはずです。

 現に2012年、Siriが発表されて半年後くらいにNTTドコモが「しゃべってコンシェル」を始めています。NTTの研究所がバックにあるわけですから、要素技術はあるはずです。

 今だって、ドコモとソニーかパナソニックが組めば、音声認識AI搭載のスピーカーなんてすぐにできてしまいそうです。外国勢がもたもたしている間になんとかならないでしょうか。