ここから本文です

「Wikidata」プロジェクトは、この世界をAIが理解できるように“コード化”する

8/15(木) 12:33配信

WIRED.jp

世界に溢れる知識をコンピュータが理解しやすいように、コード化して蓄積するWikidataプロジェクト。ヴォランティアグループによるこのデータベースはあまり知られていないが、実は巨大テック企業の音声アシスタントが「よい仕事」をするうえで役立っている。

ヴォランティアの熱意に頼る巨大テック企業

かつてわたしたちは情報に飢えたとき、インターネットという名の“サヴァンナ”へと繰り出し、手当たり次第にトリヴィアを探したものだった。それがいまでは、スクリーンの光がぼうっと灯るほら穴のような部屋に座ったまま「Alexa!」と呼びかけるようになっている。

面倒な仕事は音声アシスタントに任せればいい。ただ問題は、コンピューターが人間の言葉を本当の意味では理解していないことにある。

最も信頼性が高くて内容も濃い知識の宝庫は、「普通の文章」で表現されている。これはWikipediaから『WIRED』にいたるまで共通する。しかし、古代から受け継がれてきたこの伝達技法を、機械はほとんど読み解くことはできない。

こうしたことは、わからないことをGoogleで検索する場合には何ら問題にならない。なぜなら、検索エンジンは何かを「読む」必要がなく、リンクのパターンを用いて最も関連性の高いウェブページを探し出しているからだ。

一方で、「Google アシスタント」のような音声アシスタントは、有名人の誕生日や歴史に残る戦争があった場所を尋ねられると、その答えを「探しに行く」必要がある。しかし、インターネット上では述語や説明する語句をはじめ文や段落までが複雑に絡み合っており、そこからいともたやすく意味を瞬時に抜き出せる機械などは存在しない。そこで「ガイド」が必要になる。

ボットに優しい世界

Wikipediaの姉妹プロジェクトである「Wikidata」はあまり知られていないかもしれないが、この世界のあらゆるものをコンピューターが理解できる方法で表現することを最終的な目標に据えている。ヴォランティアグループによって運営されているこのデータベースは、人工知能(AI)や音声認識がデジタルライフの隅々まで広がってきているいま、図らずも重要な目的を果たすようになった。

「言語は、いくつもの常識を知っていることを前提としています。しかしコンピューターは常識など知りません」と、Wikidataを2012年に立ち上げたデニー・ヴランデシックは語る。プログラマーでWikipediaの編集にも携わる彼は、人とボットが対等に近い条件で知識を共有できる場所が必要だと考えた。

ボットに優しいWikidataの世界では、すべての概念やものが「Q」の文字と数字を組み合わせた「QID」というコードで表現される。頭文字のQは、ヴランデシックの妻クァマルニソにちなんでいる。例えば、『WIRED』のQIDは、あまりいい感じとはいえないがQ520154だ。QIDの数は18年12月には6,000万に達した。6,000万個目はマラリアを引き起こす寄生生物のミトコンドリアに含まれるタンパク質で、QIDはQ133969である。

コンピューターが関連性を理解できるよう、QIDはプロパティと呼ばれるタグでリンク付けされ、分類されている。だから、誰がハリー・ポッター(Q3244512)の魂を支配しそうになったかWikipediaから導き出す必要はない。「魂を支配された」(P4292)というタグから、ヴォルデモート卿(Q176132)に行き着く。

また「論争中」(P1310)を意味するプロパティもある。これには、エルサレムはイスラエルの首都か、といった万人には受け入れられていない事実が関連づけられている。

1/2ページ

最終更新:8/15(木) 12:33
WIRED.jp

記事提供社からのご案内(外部サイト)

『WIRED Vol.34』

コンデナスト・ジャパン

2019年9月13日発売

1,200円(税込み)

『WIRED』日本版VOL.34「ナラティヴと実装」社会実装の可能性を探るべく、2020年代の実装論を総力特集

こんな記事も読まれています

あなたにおすすめの記事