ここから本文です

言語を理解するようになったとき、AIは人間のバイアスも習得してしまう:研究結果

6/28(水) 11:10配信

ライフハッカー[日本版]

Popular Science:言語の習得は繰り返しに尽きます。あらゆる単語は人間によって作られ、別の人間によって使用されることで、言語の本質である文脈や意味が生じます。人間がAI(人工知能)に言語を習得させるときは、人間のバイアスを再現することも同時に教えていることになります。

【画像】言語を理解するようになったとき、AIは人間のバイアスも習得してしまう

「言語はそれを使用する人間のさまざまなバイアスを反映していることが主要な学術的発見で実証できます。」

プリンストン大学IT政策センターのAylin Caliskan氏はそう語ります。

「AIが人間の言語に関する訓練を受けるときは、こうしたバイアスも必ず吸収することになります。言語には文化的事象や世の中に関する統計が反映されているからです。」

同氏がJoanna Bryson氏とArvind Narayanan氏と共同で執筆した研究が最近『Science』誌で発表されました。この研究で判明したことを一言で言うと、「AIに訓練を施して人間の言語を理解できるようにすると、AIはこうした固有バイアスも一緒に習得する」ということです。

人間の場合は、バイアスを調べるには潜在的連合テストがベストです。これは、被験者に「昆虫」という言葉を「快」か「不快」のどちらかに結びつけてもらい、その連想作業に要する時間を計るといったテストです。人間は「昆虫」という言葉で「不快」を連想するのは速く、「快」を連想するのは遅いので、これを連想作業の所要時間を測定するときの基準にできます。

しかし、このような潜在的連合テストをコンピューターにしてもうまくいきません。ですから、研究チームは別の方法で、コンピューターがどの言葉なら他の言葉と結び付けやすいかを見極めることにしました。ちょうど学生が未知の言葉の意味を考えるとき、その言葉の周りにある言葉を手掛かりにするように、オンライン上で近くに現れる単語同士を結びつけ、そうでない単語とは結び付けないようにする訓練をAIに施しました。

単語のひとつひとつが三次元のベクトルだと想像してみてください。同じ文の中でよく使われている単語はお互いが近くにあり、めったに使われない単語のベクトルははるかに遠くなります。2つの単語が近くにあるほど、コンピューターはその2つを結びつけます。「プログラマー」という単語を「彼」の近くで使い、「看護師」という言葉を「彼女」や「制服」という言葉の近くで使うと、言語に潜在的バイアスをつけることになります。

コンピューターに言語を教える目的でこの種の言語データを与えることは今に始まったコンセプトではありません。この論文に先立って存在しているスタンフォード大学のGlobal Vectors for Word Representation(GloVe)は、使用状況に基づいた関連単語間のベクトルを表しています。GloVeの単語集は20億個のTweetから270万語を、2014年のWikipediaから60億語を、インターネットの任意検索から8兆4千億語を集めています。

Bryson氏は次のように語ります。

「『リーシュ(犬などをつなぐ革ひも)』という単語が『猫』あるいは『犬』という単語の近くに出てくる回数、あるいは、『リーシュ』が『正義』の近くに出てくる回数でその単語の性格がわかります。それから、『犬』と『猫』はどの程度近いのか、『猫』と『正義』はどの程度近いのかということも比較検討することができます。」

潜在的連合テストの結果、人間はどのようなコンセプトを無意識に善あるいは悪と考えるのか、異なる単語群間の平均距離を計算することで、AIは言語を理解する上でどのようなバイアスを示し始めているのかがわかります。言語習得の訓練を受けたAIは「花」(快)や「昆虫」(不快)に関する人間のバイアスも受け取っていたのはすごいことで、それがわかっただけでも、これは有意義な研究だとBryson氏は、語っています。しかし、この研究はさらに深く踏み込んでいます。

Caliskan氏はもう1つのテストについて次のように語っています。

「2つ目のテストはこの研究で得られた結果と公的統計の差異を計量化して測定することです。私は2015年のBureau of Labor Statisticsを調べました。同機関は職業名とその職業に従事している女性の割合などを毎年発表しています。私は50の職業に着目して、それぞれの職業が男女のどちらを連想させるか計算してみたところ、Bureau of Laborの統計データと90%同様の傾向を示しました。これは実に驚くべきことです。これほど雑然としたデータからここまでの相関関係が見つかるとは思ってもみなかったからです。」

ですから、コンピューターが職業関連の単語を学ぶなら、その単語を特定の性別や民族を結びつけ、人種や性別に関する偏向を拾い上げていることになります。この論文で取りあげられている一例に「プログラマー」があります。これは英語では性別のない単語ですが、この単語が使用されるときは男性の職業であるという言外の意味があります。

「『プログラマー』が男性を意味するか女性を意味するかなんて考えてもみませんでした。しかし、その単語が通常使われる文脈ではそうした言外の意味があることがわかりました。」

Brynson氏はそう結論付けました。

GloVeのような言語のデータセットを用いて訓練されたAIは文脈としてこの連想を拾い上げることになります。しかし、そうしたデータには人間のバイアスが刷り込まれているため、将来、研究者がそのデータを使用するときは注意が必要でしょう。Caliskan氏は中立的な言語編集基準があるWikipediaのワードセットのデータを用いて言語ツールを訓練したのですが、それでもインターネットから抽出したさらに大規模なワードセットと同じバイアスが含まれていることがわかりました。

Caliskan氏いわく、「バイアスを認識するためにもバイアスを除外するためにも、それを数値化する必要があります。バイアスはどのように言語に入り込むのでしょうか。人々は言語に対する接し方によってバイアス連想を始めるのでしょうか。それがわかれば、将来バイアスを減らす手がかりが見つかるかもしれません。」

別の言語に目を向けることも一案かもしれません。この研究はインターネット上の英単語に特化して分析していますから、単語の使用において発見されたバイアスは、一般的に、英語を話しインターネットにアクセスできる人々のバイアスです。Caliskan氏は次のように語っています。

「私たちは、異なるタイプの言語にも目を向けて、その言語のシンタックスがジェンダーの固定観念や性差別に影響を与えているか調べようとしています。ジェンダーがない言語もあれば、多少ジェンダーがある言語もあります。英語は代名詞に性別がありますが、ドイツ語では名詞にも性別がありますし、スラブ系の言語だと形容詞にも性別があります。これは社会におけるジェンダーバイアスにどのように影響を及ぼしているのでしょう?」

バイアスがどのように言語に入り込むか理解することは、単語の明確な定義とは別に存在している、単語の暗示的な意味を理解することでもあります。「時代に応じて新しい言葉の使い方を発案しても良いと思います。」とBryson氏は続けます。

「今や女性が仕事を持ち、キャリアを展開している時代になりましたから、十分に条件は整ったと人類は判断しており、これはまったく理にかなったことです。ですから、これからは、(英語の場合は)例えば男性プログラマーを指すときであっても、『he(彼)』


ではなく、敢えて『彼ら(they)』を使うようにすることに取り決めても良いかもしれません。」

人間の言語をコンピューターにプログラムするとき、こうした既存のバイアスを計算に入れない限り、バイアスのないコンピューターは作れず、必ず人間のバイアスを複製してしまいます。

「多くの人が機械は中立的だと思っていますが、実はそうではありません。機械学習には連続的に物事を決定していく順序アルゴリズムが用いられており、人間のデータセットに基づいて訓練されるので、結果的に、従来のデータに刷り込まれているバイアスのデータも反映されていなければなりません。ですから、優れたトレーニング用アルゴリズムを使用して訓練されたAIはこうしたバイアスも取り入れているはずです。そして、言語を十分正確に理解できるなら、あらゆる連想も理解するはずです。機械学習のシステムは、与えられたデータをありのまま学ぶのです。」

Caliskan氏は最後にそう語りました。

Language is training artificial intelligence to replicate human bias | Popular Science

Kelsey D. Atherton(訳:春野ユリ)

Photo by Gettyimages.

記事提供社からのご案内(外部サイト)

ライフハッカー[日本版]

株式会社メディアジーン

毎日更新中

ガジェットなどを駆使し、スマートに楽しむ仕事術「Lifehack」。「ライフハッカー[日本版]」では、その言葉を広義に捉え、生活全般に役立つライフハック情報を日々お届けします。

ライフハッカー[日本版]の前後の記事

Yahoo!ニュースからのお知らせ