ここから本文です

会話が見える! 世界最速の「リアルタイム字幕」にびっくり

2/28(水) 8:20配信

ITmedia ビジネスオンライン

 2月某日、幕張メッセ(千葉市)。記事のネタを探すために、記者はとあるセミナーを聴講していたところ、大きなモニターに釘付けとなった。

日本語と英語が流れるように出てくる(写真を見る)

 モニターには、登壇者の発言がリアルタイムで文字になって映し出されていたのだ。「ITmedia ビジネスオンラインって最高ね」と発言すると、瞬時に「ITmedia ビジネスオンラインって最高ね」と表示される。それだけではない。日本語の横で、英語のスペルも次々に並んでいたのだ。

 よーく見ると、ところどころで“おかしな日本語”も登場する。例えば、「ITmedia ビジネスオンラインって再考ね」といった感じで。しかし、しばらくすると、正しい日本語に変わっていくのだ。

 気になる、気になる。どうやってリアルタイムに文字を起こしているのか。最新のテクノロジーを駆使しているのか、それとも裁判所で速記をしているような人が高速で打ち込んでいるのか。セミナー終了後、イベント運営を担当している人に聞いたところ、「UDトーク」というアプリを使っていることが分かってきた。

 UDトークの特徴は、音声認識技術で目の前の会話を瞬時に文字化し、PCやスマートフォンなどのデバイス上で字幕を表示すること。アプリのリリースは2013年。現在、ダウンロード数は16万超とそれほど大きな数字ではないが、リピート率は9割を超えているという。

 使っている人はまだまだ少ないが、一度使うと何度も利用する。そうした人が多いようだが、実際どのようなシーンで使われているのか。また、セミナーの舞台裏でどのようなことが行われていたのか。UDトークの生みの親、Shamrock Recordsの青木秀仁さんに話を聞いた。聞き手は、ITmedia ビジネスオンラインの土肥義則。

●アプリをつくることになったきっかけ

土肥: UDトークを使えば、目の前の会話がどんどん文字になっていくわけですが、青木さんはなぜこのようなアプリをつくろうと思ったのでしょうか?

青木: 以前フリーのエンジニアとして、音声認識技術に関係する仕事をしていました。2011年、障がい者支援団体の人から講演依頼がありました。テーマは「音声認識とスマートデバイスの可能性」。当時、音声認識のプロダクトはいろいろあったのですが、聞き取りと文字認識の精度はまだまだでして。聴覚障がいを持つ人たちもいろいろ試していたのですが、日常でうまく生かすことができないといった状況だったんですよね。

 ちょうどそのころ、iPhoneがSiriを搭載。当時の僕は、掛け声でカメラのシャッターを切ることができる「声シャッター」を開発していました。こうした背景があったので、エンジニアの自分に見解を聞きたいという依頼でした。ただ、それまで聴覚障がい者に会ったことも、話をしたこともありませんでした。

 初めてお会いしたところ、「自分にはスキルがないなあ」と痛感したんですよね。自分が考えていることをきちんと伝えることができない。じゃあ、エンジニアとして何ができるのか。アプリで武装すれば、自分が伝えたいことを相手に訴えることができるかもしれない。そうしたアプリをつくることができるのではないかと考えました。ま、たまたま相談に来られた人が美人だったので、モチベーションが上がったということもありますが(笑)。

土肥: 大事です(キッパリ)。

青木: アプリを開発する際、どういった人が使うのかを想定するのですが、UDトークの場合、ペルソナは自分。自分のためにつくって、自分で使っていました。自分が使いにくいなあと感じる部分は、自分で修整するなど、趣味でつくっていたんですよね。

 UDトークを使えば、ビデオ会議などで聴覚障がい者が参加できるので、リリース当初はそうした利用シーンが多かった。ただ、使っているうちに「こんなこともできるのではないか」「あんなこともできるのではないか」といった話があったようで、いまでは議事録で使ったり、テレビの前に置いて字幕を見たり、さまざまな用途として使われています。

●一発で「土肥義則」と表示

土肥: 初めてこのアプリを使ったとき、びっくりしたんですよね。マイスマホに自分の名前を語りかけたところ、瞬時に「土肥義則」と出ました。「どいよしのり」とか「ドイヨシノリ」とか「土井義典」など、誤変換するだろうなあと思ったら、一発正解。個人情報を盗まれているような感じがして、ちょっと気持ち悪かったのですが、正確に認識するアプリをどうやって開発したのでしょうか?

青木: 音声認識の技術は10年ほど停滞していました。認識率がなかなか上がらなくて、関係者は当時のことを「暗黒の10年」と呼んでいます。精度がなかなか上がらなかったのですが、3年ほど前から劇的に向上したんですよね。

土肥: 何があったのですか?

青木: ディープラーニング(深層学習)の向上と、人工知能(AI)に自然言語処理が組み込まれたことによって、劇的に変わりました。関係者からは「こんなに認識するのか。気持ち悪い」といった声が多かったです。

 音声認識技術は20年以上前からありましたが、残念ながら精度はなかなか上がりませんでした。ただ、先ほども申し上げたとおり、3年ほど前から急激に上がり続けている。まだ天井は見えていませんが、天井はあるんですよね。音声認識技術は100%を超えることはありません。なぜなら100%を超えてしまうと、それはAIが人間の言葉を忖度していることになるから

土肥: 暗黒時代の認識率はどのくらいだったのでしょうか?

青木: カテゴリーや分野を絞りに絞って、余計なことを言わないようにすれば、9割5~6分といったところ。例えば、医療系のセミナーで、医療のことを話しているときは問題ないのですが、ある事柄を戦国武将に例える人がいますよね。これは織田信長のようなタイプだ、これは坂本龍馬とよく似ているな、といった話が出てくると、まったく認識しません。

 いまは大規模なサーバで処理できるようになったので、リアルタイムで文字化できるようになりました。音声認識技術が向上したので、音をよく認識できるようになったのね? と聞かれることがあるのですが、そうではありません。扉を閉めると「ガチャン」という音が聞こえますが、ガチャンという文字が出てくるわけではありませんよね。音を認識しているのではなくて、音声の文章を文字の文章に変えているんです。

土肥: どういう意味でしょうか?

●テープ起こし業者はなくならない

青木: 例えば、「こうえん」と言っても、それだけだとよく分からないですよね。「公演」「講演」「公園」なのか。それとも違う意味なのか。ただ、「こうえんで遊ぶ」と聞けば、「公園」と認識する。「こうえんを見に行く」と聞けば「公演」で、「こうえんを聞きに行く」となれば「講演」と認識する。前後の文章で理解するわけですが、だからといってこの技術は「スゴくて、賢い」わけではありません。膨大なデータが入っていて、そこから引っ張ってくるだけのことなんですよね。

 じゃあ、どういった日本語が認識しにくいのか。主語があいまいであったり、句読点がよく分からなかったり、です・ますで終わらなかったり。そうしたケースは認識が難しくなるので、主語や句読点を意識して、です・ますで終わるようにすると、間違いは少なくなります

 ちなみに、アナウンサーは正しい日本語を話すように訓練されているので、きちんと認識されます。逆に、なにを言っているのかよく分からない人は、認識率もよくなく、文字にしてもよく分かりません。

土肥: 認識率200%になれば、なにを言っているのかよく分からない話も、分かりやすく文字にしてくれるかも。AIが忖度してくれて。ま、それは冗談として、青木さんは今後も精度を高めていって、認識率100%にするのが目標なのでしょうか?

青木: 暗黒時代には認識率100%を目指して開発した人が多かったと思うのですが、いまは100%という数字にあまり意味がなくなってきました。どういうことかというと、重要な議事録であれば100%近い数字が求められるかもしれませんが、ちょっとしたメモ程度に使うのであれば50%でもいいですよね。認識率は用途によって違ってくるので、かつてほど数字に対するこだわりはなくなってきました。

土肥: 「AIによって仕事が奪われる」といったテーマがよく話題になっていますが、UDトークによって速記や議事録を作成する会社の仕事がなくなるのではないでしょうか?

青木: いえ、そうでもありません。実は、テープ起こしなどを行う会社がUDトークを導入しているんですよね。人の会話をすべて文字にする作業って大変ですよね。じゃあ、どうするのか。UDトークを使って会話を文字にして、修正が必要なところは人の手で作業する。ワークフローのなかにアプリが組み込まれているんですよね。

 AIの登場で仕事がなくなるのではなくて、単価が下がるのでもなくて、より多くの仕事ができるようになって、収入が増えていくのではないでしょうか。

●セミナーの舞台裏

土肥: セミナーでもUDトークを使うシーンが増えているとか。登壇者の発言が次々に日本語になっていますが、舞台裏はどのようなことになっているのでしょうか?

青木: ドイさんが参加された幕張メッセでのセミナーでは、2人が編集していました。

土肥: えっ、たったの2人?

青木: ところどころで誤認識があるので、iPadを使って、その部分を修正しています。誤認識だけでなく、固有名詞とか句読点など、間違いがあればどんどん修正していくといった感じですね。そして、英語に翻訳されていく。その際も間違った日本語だと間違った英語で表記されるので、正しい日本語に修正しなければいけません。修正すると、自動的に英語も変換されるようになっています。

土肥: 10年ほど前に、文字化するソフトを使ったことがあるんですよね。ICレコーダーの音声データを日本語に変換するといったモノだったので、編集部でも期待したわけですよ。「テープ起こしの作業から解放される~」「楽になるよ~」といった感じで。で、結果はどうだったのか。ご存じのとおり、全くダメ。

 長い時間をかけてやっと変換できたかと思ったら、何を言っているのか、何が書いてあるのか、日本語として全く成立していなかったんですよね。ものすごくガッカリしました。そうしたことを経験しているので、リアルタイムで文字になって、しかも正確で、となると「スゴい時代になったなあ」と感じるわけです。

青木: スゴい時代になったかもしれませんが、このアプリは発明品ではありません。音声認識技術や翻訳などの技術はそれぞれ存在していて、僕はそれを組み合わせてバランスよく使えるようにしただけ。天才的なひらめきでつくったわけではなく、いわゆる“凡人の知恵”に過ぎません。

 世紀の発明品ではなく、凡人の知恵でできたモノかもしれませんが、このアプリを通じてさまざまな課題を解決できればなあと。UDトークを使えば手話を覚えなくていいんだよね、英語を勉強しなくてもいいんだよね、といった発想ではなくて、さまざまな人と出会うことで手話や英語を覚えるきっかけになれればうれしいですね。

(終わり)