ここから本文です

Google翻訳より高性能? 「日本の自動翻訳がすごい理由」をNICT隅田氏が解説

6/17(月) 7:05配信

ITmedia NEWS

 今年3月、大阪メトロの英語サイトが路線名の「堺筋線」を「Sakai Muscle Line」と誤訳していたことがネットで話題になりました。米Microsoftの自動翻訳ツールによる翻訳をそのまま掲載していたことが原因です。

Google翻訳の誤訳(画像あり)

 「さすが大阪、ボケ方が半端ない」などと友人にからかわれてしまったのですが、この事件には根深い問題が隠れています。

 Google翻訳を使うと、いまでも堺筋線は「Muscular line」で、三両目は「Third eye」と訳されます。精度が高いと評判のGoogle翻訳でも誤訳しているわけですが、何より大阪メトロの件が話題になった後も特に修正されていないことに驚きました。

 外国人観光客がますます増え、2020年の東京オリンピック・パラリンピックも控える中、こうした海外製の自動翻訳ツールを頼るにはやや不安が残ります。

 そんな中、国内で気を吐いているのが自動翻訳エンジンの研究開発などを行う情報通信研究機構(NICT)です。明石家さんまさんが軽快にトークするテレビCMでおなじみのクラウド型音声通訳デバイス「POCKETALK」(ポケトーク)や、Google翻訳より高精度だとネットで話題になった「みらい翻訳」にも、NICTの技術が使われています。

 なぜ総務省管轄の研究機関であるNICTが、GoogleやMicrosoft、Baiduなど巨大IT企業と競うように自動翻訳エンジンを開発しているのでしょうか。30年以上自動翻訳を研究してきた隅田英一郎氏(NICTフェロー、アジア太平洋機械翻訳協会 会長、日本翻訳連盟 理事、工学博士)に伺いました。

国産翻訳エンジンとGoogle翻訳は思想が違う

 Google翻訳やMicrosoftのBing翻訳など、大手IT企業が無料の自動翻訳ツールを提供しているのに、日本の国立研究法人がわざわざ自動翻訳を研究する意義はどこにあるのでしょうか。隅田氏は「それは業界ごとに日本企業固有のニーズがあるからです」と説明します。

 例えば、とある日本企業が海外で特許訴訟を起こされたとします。裁判では、特許以外にも関連文書など大量の書類を英訳する必要があり、翻訳に手間もお金もかかります。隅田氏によると、海外の特許訴訟費用の大半は翻訳費だそうです。翻訳作業のコスト削減には、自動翻訳が欠かせないのです。

 海外の大手IT企業が提供する無料ツールでは、こうした専門性の高い領域のニーズには応えられませんし、セキュリティの問題もあります。大阪メトロの例から分かるように、彼らは特定の国における特定の地域の情報などはあまり気にしていないのです。

 「GoogleとNICTではそもそも考え方が全く異なります。彼らの目的はより多くの言語や国・地域をカバーすることにあるはず。多くの言語を扱うと全体を高精度にするのはとても難しいでしょう。堺筋線の問題も、いまだに誤訳をしているってことは、そもそも直さなくていいと思っているわけです」(隅田氏)

 NICTの場合は、製造、医療、金融など特定領域のニーズに特化した翻訳エンジンを日本企業向けに開発しているため、その分野において高い精度を実現できるそうです。隅田氏は「言語と分野を絞り、その領域で求められる精度を実現することを重視しています。高精度な自動翻訳エンジンを作ることが目的なら、特定の領域に絞るというアプローチしかないでしょう」と指摘しました。

 インタビューの最中にNICTが提供する多言語音声翻訳アプリ「VoiceTra」(ボイストラ)を使ってみると、確かに「堺筋」を「Sakaisuji Line」ときっちり訳してくれました。

 しかし、文法が大きく異なる日本語と英語をある程度の精度で翻訳できているので、Google翻訳も相当レベルが高いことは事実です。隅田氏によると、欧州系の言語は構造が似ているため、欧州はGoogle翻訳だけでも多様なニーズに応えられるのだとか。

 ここで隅田氏は、米国務省がまとめる「外国語習得難易度」のデータを引き合いに出します。英語ネイティブの外国人が「習得までに2200時間以上かかる、とても難しい言語」として挙げた中に日本語があるというのです。ちなみに私たちが中学高校で英語に費やしている時間はたった1000時間らしく、「そもそも英語をマスターできる時間設定になっていない」と隅田氏は指摘します。それくらい、英語と日本語は構造が異なる言語なのです。

 文章の語順が大きく異なるだけでなく、日本語に特有の敬語や、「マジ卍」「やばみ」などの若者言葉も厄介です。日本語の独自性をどうやって機械に学ばせればいいでしょうか。

 そこは日本語について深い知識を持ち、十分なデータを集めているNICTに軍配が上がると隅田氏は考えています。「一番重要なのは、日本にとって重要な文章を訳せるようにすること。日本で暮らしている人が使えるものを作るということです」(隅田氏)

1/3ページ

最終更新:6/18(火) 16:08
ITmedia NEWS

こんな記事も読まれています

あなたにおすすめの記事