ここから本文です

プライバシーフリーク、就活サイト「内定辞退予測」で揺れる“個人スコア社会”到来の法的問題に斬り込む!――プライバシーフリーク・カフェ(PFC)前編 #イベントレポート #完全版

2019/12/3(火) 7:00配信

@IT

 2019年9月9日(月)に一橋講堂で一般財団法人情報法制研究所主催の「第2回JILIS情報法セミナー in 東京」が開催された。

【投影資料】

 学生の就職活動(就活)を支援する大手企業が、行動履歴などを人工知能(AI)で分析し、5段階にスコア化した「内定辞退予測」を一部本人に無断で企業に販売していたことが広く報道され、社会的に問題となった他、行動履歴などを分析し販売する「信用スコア」を問題視する声も聞かれていた。

 本稿は、本セミナーの冒頭で行われた4人の有識者による討論(プライバシーフリーク・カフェ)の模様をお伝えする。

内定辞退予測スコア

山本一郎(以降、山本) われわれは「プライバシーフリーク・カフェ(PFC)」という名称で5年にわたって活動しております。情報法と社会についてのいろいろなお話を、主に新潟大学の鈴木正朝先生、高木浩光先生、そして板倉陽一郎先生と私山本一郎の4人でやらせていただいているものでございます。

 今日は台風にもかかわらず500人もの方にお越しいただいて、このような場が持てたことは非常な喜びであります。今回の就活情報にまつわる問題については、われわれも非常に重視しています。しかし、リクナビだけの問題と捉えて、声を大きくして「リクナビはイカンのではないか」と話すだけで終わるものではないとも思っています。

 今回はその辺りを、依田高典先生や倉重公太朗先生にもお話をいただくのですが、その前さばきとして、われわれがリクナビ事案の概要と問題点、テーマについてお話ししながら、この問題がどういう奥行きがあるのか、さらに経過や処分を含めたあるべき方向性について考えながら進めていきます。よろしくお願いいたします。

 まずは事実関係について、高木先生からお話を伺います。リクルートキャリアの問題は非常に大きな騒ぎになりました。概要、事実関係をお話しいただけますか。

高木浩光(以降、高木) リクナビの事例は、図の左側にある「Webサイトの閲覧履歴(就活生が閲覧したもの)をリクルートキャリアが取得し、これを基に分析した結果、一人一人が内定を辞退する可能性を5段階で評価し、求人企業に提供していた」ということです。

 当初、38社という数字がありましたが、後の会見では、34社に提供していて残り4社は事情があって提供しなかったというものだったようです。内定辞退予測スコアをどうやって算出していたのかは、まだ完全に明らかになっていないように思えます。

山本 同業他社でも手掛けているとされる、今までの「エントリーシートを機械学習をさせて辞退率を割り出す方式」に加えて、「学生が過去にどのようなWebを閲覧したのかを、Cookieの名寄せをして個人突合をして、その学生が内定後に企業の採用ページに行ったところを捕捉し、採用可否に関する情報として提供した」のではないか、という報道が幾つかありました。ただ、これに関しては公式な回答が出ていないと思うのですが、いかがでしょうか。

高木 山本さん話を急ぎ過ぎです(笑)。順に説明していきます。

 日本経済新聞が報じたリーク資料によると、折れ線グラフが出てきます。辞退の可能性が上がったり下がったりしていく情報を随時提供するものだったようです。Webの閲覧履歴と本人とをひも付けるために、データを購入する求人企業に一定の作業をしてもらわないといけないので、その作業方法を説明する営業用の説明資料のようです。ここには「貴社から配布するアンケート内に個人IDをひも付ける」などと書かれています。

 その「ひも付ける」仕掛けが図2です。左下の就活生がWebサイトを日々閲覧していると、その閲覧履歴がリクルートコミュニケーションズのDMPのサーバに送られるようになっていたと。共通の計測タグを各WebサイトにHTMLの一部として埋め込んでおくことでこういう動作になるわけです。

 そのデータと本人を結び付けるために、右側にあるような「uid=0001」と番号を付けたURLを、求人企業がアンケートと称して就活生にアクセスさせたようです。この罠(わな)に引っ掛かって就活生がクリックすると、uidの番号とcookieのIDがひも付くわけです。スパム業者がやっているのと同じ手口です。

山本 内部突合ですね。この手口であれば、完全な本人特定に近いところまでいくかと思いますけれども。

高木 そうです。求人企業は当然ながら、本人の氏名といいますか、本人そのものを扱っておりますので、それと突合するということですね。こういう方法で行われていたと。

 続けて、分析をどうしていたか、5段階評価をどうやって計算したかについてです。これは機械学習を使ってやったようです。前年度の実績として辞退者のリストを求人企業からもらいます。リクナビは辞退者たちの閲覧履歴を持っているので、それを先ほどの方法で突き合わせたうえで機械学習にかけます。そうすることで予測モデルが出来上がったわけです。その内容がどのようなモデルになっていたかは何も明らかにされていませんし、リクナビ自身にとってもブラックボックスだったようです。そして、そのモデルに次の年の内定候補者のリストを当てはめると、今年度の予測としてそれぞれの候補者の予測スコアが出てくる、というわけです。

山本 この機械学習の方法について、詳細がリクルートキャリアから公開される予定はあるんでしょうかね。

高木 それは聞いたことがないですね。会見でもそこを質問している記者はいなかったと思います。

山本 もし、機械学習の内容を本当に問題視するようであれば、個人情報保護委員会の立入検査の中で詳細なものが分かったところで、さらに一段重い処分が下るような向きもあるかと思いますが。

高木 おお、そんな可能性があるんですか。

山本 お話が前後しますが、「個人情報保護委員会の立入検査ではどこに何の情報があるのか、それが何の意味を持つのか分からないままになっているのではないか」と言っている人もいるようです。「立入検査で何をすれば、問題の全容を知るために知るべきことが分かるのか」がきちんとフォローしきれていなかったのではと、メディア関係者や、実際に個人情報保護委員会に関わる方面から聞こえています。

高木 機械学習の内容については後でまた触れますが、この学習結果に正確性があったのか検証をする必要があると思います。個人情報保護法19条の正確性の確保をしていたかどうか。

 また、採用の判断には使わない約束でスコアを提供していたということでしたが、実際に使ったか使っていないかは、スコアとその年の内定者のリストを突き合わせれば統計的に分かるはずです。立入検査はまさにそういうところを調べてほしいですね。

山本 ある意味「リクルートキャリアが公式にどのように釈明しているのか、弁明しているのか」と、「その結果報道された事実」や「実際の利用企業、学生などから事後的に出てきた話」があまりにも相違があると、結構な問題の波及になっていくのかなと思うのですが。

高木 恐らく、まだ求人企業側に個人情報保護委員会や厚労省の執行が行われていない段階、準備中の段階にあるので、その結果が出るまでは、リクルートキャリアとしては何も言えない状況にあるのではないかと思います。

1/6ページ

最終更新:2019/12/3(火) 7:00
@IT

こんな記事も読まれています

あなたにおすすめの記事