ここから本文です

ビッグデータ活用のカギ「個人データ匿名化」、日米で比較してみた

ITmedia エンタープライズ 8月24日(水)8時36分配信

 本連載第7回で、匿名化技術の代表例である健康医療分野の「プライバシー保護データマイニング(Privacy-Preserving Data Mining)」を取り上げた。改正個人情報保護法でも注目される「匿名化」は、米国と日本でどのように違うのだろうか。

【画像:改正個人情報保護法における「個人情報」の定義】

●「HealthTech」のイノベーションの前に立ちはだかる「匿名化」

 2016年1月に部分施行された日本の改正個人情報保護法は、以下のような形で「個人情報」「個人識別符号」「要配慮個人情報」「匿名加工情報」を定義している。

 その後、2016年8月2日に個人情報保護委員会は、改正個人情報保護法政令案および規則案を公表し、個人識別符号や要配慮個人情報、匿名加工情報の取扱いに関する具体的なルールが示している。

 今回の政令案・規則案では、「個人識別符号」に該当するものとして、以下のようなものが示された。

・細胞から採取されたデオキシリボ核酸(DNA)を構成する塩基の配列
・顔の骨格および皮膚の色並びに目、鼻、口その他の顔の部位の位置や形状によって定まる容貌
・虹彩の表面の起伏により形成される線状の模様
・発声の際の声帯の振動、声門の開閉並びに声道の形状およびその変化
・歩行の際の姿勢および両腕の動作、歩幅その他の歩行の態様
・手のひらまたは手の甲、もしくは指の皮下の静脈の分岐および端点によって定まるその静脈の形状
・指紋または掌紋
・旅券法の旅券番号
・国民年金法の基礎年金番号
・道路交通法の免許証番号
・住民基本台帳法の住民票コード
・行政手続における特定の個人を識別するための番号の利用等に関する法律(マイナンバー法)の個人番号
・国民健康保険法の被保険者証
・高齢者の医療の確保に関する法律の被保険者証
・介護保険法の被保険者証
・その他、個人情報保護委員会規則で定める文字、番号、記号その他の符号

 また、「本人の病歴または犯罪の経歴」に該当するものに加えて、「要配慮個人情報」に該当するものとして、以下のものなどが示された。

・本人に対して医師その他医療に関連する職務に従事する者により行われた疾病の予防および早期発見のための健康診断その他の検査の結果
・健康診断などの結果に基づき、または疾病、負傷その他の心身の変化を理由として、本人に対して医師などにより心身の状態の改善のための指導または診療、もしくは調剤が行われたこと

 こうしてみると、成長市場としてイノベーションか期待される「HealthTech」(健康医療×IT)で日常的に利用されるデータの多くが、「個人識別符号」や「要配慮個人情報」に含まれることになる。

●「FTC3要件」の厳守が前提条件となる米国のデータ非識別化

 日本の「個人識別符号」「匿名化」に関わるルールに対して、米国では「個人識別情報(Personal identifying information)」「識別子(Identifier)」「非識別化(De-identification)」といった言葉を使いながら、具体的なルールを策定している。

 例えば、連邦取引委員会(FTC)は、従来は個人情報を、個人を特定または識別するために用いられる「個人識別情報(Personal identifying information)」(氏名、電子メールアドレス、住所、電話番号、社会保障番号、クレジットカード番号など)と、それだけでは個人を特定・識別するために利用できない「非識別情報(Non-identifying information)」(年齢、性別、学歴、収入、趣味など)の2つのカテゴリーに分類してきた。

 その後の2012年3月26日、FTCは「急速に変化する時代における消費者プライバシーの保護」と題する報告書を公表し、プライバシー保護のための新しいフレームワークとして、「プライバシー・バイ・デザイン」「消費者への簡潔な選択肢の提供」「透明性の確保」を提唱した。そして、フレームワークの適用対象事業者が、プライバシー/個人情報保護のために順守すべき3つの要件(いわゆる「FTC3要件」)を、以下のように示している。

・事業者は、そのデータの非識別化を確保するために合理的な措置を講ずるべきである
・事業者は、そのデータを非識別化された形態で保有および利用し、そのデータの再識別化を試みないことを、公に約束すべきである
・事業者がかかる非識別化されたデータを他の事業者に提供する場合には、それがサービス提供事業者であろうとその他の第三者であろうと、その事業者がデータの再識別化を試みることを契約で禁止すべきである

 過去には、米国のオンラインコンテンツ配信企業Netflixが、非識別化したユーザーの視聴履歴データを提供し、映画推薦アルゴリズム開発コンテストを実施した際、Amazonが運営する「インターネット・ムービー・データベース(IMDb)」で公開されているユーザーレビューと紐づけると、非識別化データに含まれたユーザーの一部を再識別できてしまうことが発覚した。これについてFTCからプライバシーに関する懸念を指摘され、中止に追い込まれたケースがある。

 3要件の違反事案に対してFTCは、「不公正または欺瞞(ぎまん)的な取引行為・慣行は違法である」と規定したFTC法5条の下で、民事罰、差止命令、損害賠償請求などの措置を講じる姿勢を示している。

●厳格管理が要求される米国の健康医療分野の個人データ匿名化

 米国では、複数の所管官庁を前提としたマルチステークホルダーアプローチが一般的であり、業種・業界によってFTC以外の省庁の規制もデータの非識別化に関わってくる。

 例えば、健康医療分野では2012年11月26日、保健福祉省(HHS)が「医療保険の携行性と責任に関する法律(HIPAA)プライバシー規則に準拠した保護保健情報の非識別化方法に関するガイドライン」を公表している。

 個人を識別しない保健情報で、その情報が個人を識別するために利用可能であると信じるに足る相当な基盤が無いものを、「非識別化された保護保健情報(De-identified protected health information)」と定義している。

 同ガイドラインでは下の図に示す通り、非識別化の方法として提供された情報から個人が特定されるリスクがとても低いことを統計専門家が確認する「専門家による決定(Expert Determination)」方式と、個人の特定につながり得る18項目※の直接識別子を取り除く「セーフハーバー(Safe Harbor)」方式を規定している。

※18項目=氏名、住所、日付、電話番号、FAX 番号、電子メールアドレス、社会保障番号(SSN)、カルテ番号、健康保険受給者番号、口座番号、証明証番号、車体番号、機器ID、WebのURL、IPアドレス、生体認証ID、顔写真、その他の固有識別番号・特徴・コード

 なお、米国HIPAAの「直接識別子」には、日本の改正個人情報保護法の「個人識別符号」にはない車体番号、機器ID、WebのURL、IPアドレスなどが含まれる。これらのフィールドを非識別化することなくデータセットを開示したり、二次利用に供したりしたら、FTC3要件違反およびHIPAA違反となる可能性があるので、注意が必要だ。

●リスクベースの非識別化プロセスを支える技術と運用管理

 米国の健康医療分野では、データの二次利用の有用性とプライバシー保護のバランスを図る観点から、リスクベースアプローチによる非識別化手法を採用している。リスクベースの非識別化手法の手順を簡単に整理すると、以下のようになる。

1. 直接識別子と間接識別子の区別:データセットから「直接識別子」と直接識別子以外で個人を特定することができる「間接識別子(準識別子)」を抽出する
2. リスクしきい値の設定:データ共有のために許容できるプライバシーリスクを評価する
3. 起こり得る脅威のモデリング:攻撃が起きる確率を妥当な方法で見積もる
4. データの非識別化:一般化(フィールドの正確さを下げる)、秘とく(データセットの値をNULL値に置き換える)、サブサンプリング(ランダムに選んだサンプルだけ開示する)などの手法により、データセットを非識別化する
5. プロセスの文書化:非識別化するために実行したプロセスやアウトプット、エビデンスなどを文書化する

 データの非識別化手法として技術的には、ランダム化することによってセンシティブなデータを見えないようにする「摂動(Perturbation)」、データを秘密裏に分散させた上で演算処理を行う「マルチパーティ計算方式」の暗号化、計算処理上の負荷とノイズのある結果を加えながらセキュアなことを証明する「差分プライバシー(Differential Privacy)」、間接識別子(準識別子)がk個以上存在するようにすることで個人が特定されるリスクを低減する「k-匿名化(k-anonymity)」などが開発されてきたが、プライバシーを完全に保証できるレベルまでは至っていないのが実情だ。

 日本でも日立製作所がパーソナルデータを暗号化したまま匿名化する技術を発表し、富士通が匿名化された個人情報が特定されるリスクを自動評価する技術を発表するなど、匿名化技術の研究開発が進んでいる。

 ただし、リスクベースの匿名化プロセスを実行する現場から集積される経験・ノウハウをベストプラクティス化する取り組みや、それを生かしてイノベーション推進とプライバシー保護のバランスを図る政策運用の面では、日本は米国に後れを取っている。

 次回は日米欧比較の観点から、欧州連合(EU)におけるビッグデータ匿名化動向を取り上げる。

最終更新:8月24日(水)8時36分

ITmedia エンタープライズ

TEDカンファレンスのプレゼンテーション動画

暗闇で光るサメと驚くほど美しい海洋生物たち
波のほんの数メートル下で、海洋生物学者であり、ナショナルジオグラフィックのエクスプローラーかつ写真家のデビッド・グルーバーは、素晴らしいものを発見しました。海の薄暗い青い光の中で様々な色の蛍光を発する驚くべき新しい海洋生物たちです。彼と一緒に生体蛍光のサメ、タツノオトシゴ、ウミガメ、その他の海洋生物を探し求める旅に出て、この光る生物たちがどのように私たちの脳への新たな理解を明らかにしたのかを探りましょう。[new]