{{item.title}}
{{item.text}}
Download PDF - {{item.damSize}}
{{item.title}}
{{item.text}}
連載コラム「これからのデータ利活用を考える」では、データ利活用において近年トレンドとなっている「データ流通」をテーマに、その可能性や企業が考慮すべきポイント、取り組むべきことについて解説します。今回は、データ保護の強化、漏えいや不正利用の防止に活用される「プライバシーテック」の現状と課題、今後の展望について紹介します。
プライバシーテックとは、「個人情報・機密情報を安全に保持・保護するための技術」の総称であり、自社が保有するデータを社内で安全に活用するための技術として匿名化や暗号化などの技術を中心に発展、普及してきました。
データ流通においては、従来のデータ利活用と比べて外部事業者とのデータの取引が頻繁に発生することから「個人情報・機密情報の適切な取り扱いへの不安」がより顕著になるため、データを企業や業界を超えて安心・安全に流通させるためにプライバシーテックの活用が期待されています。
プライバシーテックにはさまざまな技術が存在しますが、ここではデータ流通において活用される代表的なプライバシーテックとして「連合学習(Federated Machine Learning)」「秘密計算(SMPC、準同型暗号)」「差分プライバシー(Differential Privacy)」「ブロックチェーン(Blockchain for Data Security)」の4つを紹介します。
連合学習は個人情報や機密情報を開示することなく、それらが分散した環境で機械学習アルゴリズムを学習させる技術です。
従来の機械学習では、複数のサーバーに分散されたデータを学習する場合、学習用データを1つのサーバーに集約する必要がありました。しかし連合学習では、学習用データを複数のサーバーに分散させたまま機械学習モデル開発を行ない、各サーバーで開発したモデルのパラメータのみを1つのサーバーに集約し、統合モデルを開発します。
複数の企業や団体の間で個人情報や機密情報を共有して機械学習を実施する際、パーソナルデータを外部のサーバーに持ち出さずにモデル開発することが可能なため、データ漏えいのリスクを抑え、安全なデータ流通を実現することが期待されます。
秘密計算とは、データを暗号化したまま処理する技術のことです。
従来のデータ分析では、暗号化されたデータを分析する際には、分析環境上でデータを元の状態に復号化して処理する必要がありましたが、秘密計算技術を用いることで、暗号化した状態を維持しつつデータを計算処理することが可能となります。
データ流通において第三者とデータを共同利用する際に、データを秘密計算サーバーで処理することで、個人情報や機密情報を第三者に公開することなく、必要な計算結果を得ることが可能となります。
差分プライバシーとは、データの処理結果に意図的にノイズを追加し、プライバシーを確保する技術です。
データの処理結果が統計化されていたとしても、処理に使用されたデータの一部を第三者が保有している場合、第三者が保有しているデータを処理結果に加えることで個人情報が推測されるリスクがあります。差分プライバシーは、データの処理結果に任意のノイズを加えることで、個人情報の推測を防止するために用いられます。
統計化情報を外部に一般公開する際に、データの処理結果にノイズを加えることで、個人情報の推測を防止することが可能となります。
ブロックチェーンは「仮想通貨」「NFT(Non-Fungible Token:非代替性トークン)」に活用される技術として広く知られていますが、プライバシー分野においてもデータ利活用の透明性を確保する技術として注目されています。
データ利用者間のデータの取引・利用記録を、暗号技術を用いた上でブロックと呼ばれる単位に保存・分散管理をします。
データ利用者間の取引および利用に係る記録を保存できるため、データ流通におけるデータ取引・利用のトレーサビリティや透明性を確保することが可能となります。また、これにより、データの不正利用の抑止力となることが期待されます。
銀行では不正取引を防止するため、ATMの取引データから不正取引を予測する機械学習モデルの活用が検討されています。銀行単体のデータのみでは不正取引の教師データを十分に確保するのが困難なことから、複数の銀行の取引データを使用することが望ましい一方で、秘匿性の高い取引データを他行に共有することはコンプライアンス上のリスクが高いことが指摘されています。
このようなケースにおいて、連合学習技術を活用することで複数の銀行の秘匿性の高い取引データを各銀行のサーバーから移さずに統合モデルを作成することができ、コンプライアンスリスクを低減したまま学習モデルの検知精度を高めることができます。
医療分野におけるゲノム解析は、大量のゲノム情報を必要としますが、ゲノム情報は疾病や親子関係などに関わる要配慮個人情報に該当するため、データ漏洩を確実に防ぐ必要があります。
秘密計算技術を活用することで、複数の医療機関が保有する患者のゲノム情報(個人情報)が他の医療機関に流出するリスクを低減しつつ、ゲノム情報を統合分析することが可能となり、先端医療の発展への貢献が期待されています。
ここまで、データ流通の取り組みを加速させる技術として期待されるプライバシーテックについて、その概要と活用例を紹介しました。しかしながら現状では、プライバシーテックの活用はあまり進んでいません。その要因として2つの課題がありますが、今後データ流通に取り組みたい企業が、プライバシーテックとどのように向き合えば良いかと合わせて解説します。
データ流通を実現させるには、データの漏えいや不正利用を防ぐために、個人情報や機密情報をセンシティブに扱い、保護する必要があります。そのため、プライバシーテックによりデータを保護することが期待されますが、そもそもプライバシーテックの導入・実装ができる企業や人材が少ないため、データ保護のニーズが発生したとしても、すぐにはプライバシーテックの実用化に至りづらい状況にあるといえます。
個人情報保護委員会は、データが個人情報に該当する場合は、暗号化されていたとしても法律上は個人情報に該当するため、「個人情報保護法ガイドラインに準拠した管理が必要である」と定めています5。そのため、「秘密計算」を使用する場合でも、第三者への提供についての本人の同意を取るなどの対応が必要です。したがって、「秘密計算」を使用しない場合と比べて、個人情報を利用することへのハードルは変わらず、「秘密計算」の「データを暗号化したまま第三者とデータ連携できる」といったメリットを活かしきれません。
プライバシーテックとの向き合い方は、データ利活用のユースケースにより見極めるべきと考えられます。データ流通のように第三者が介入するなど、厳密なデータ保護が求められるかが、1つの判断基準となります。
また、法制度の整備によって状況が大きく変化することが予想されるため、データ利活用のユースケースに応じてプライバシーテックの導入を柔軟に決定できるように、データ利活用担当者とデータ保護担当者が密に連携できる体制を整備しておくことも必要となります。
仮にプライバシーテックを要するユースケースが現時点ではないとしても、今後のデータ流通のユースケースの増加に備えて、事業会社およびサービサーのいずれにおいても、プライバシーテックの情報収集やトライアルを実施し、必要に迫られた際に迅速に対応できるように知見を蓄えておくことも重要と考えられます。
1 「Federated Machine Learning: Concept and Applications」(Hong Kong Universityなど:2019年)
2 公開情報をもとにPwC作成
3 「Differential Privacy」(Harvard University:2023年)
4 公開情報をもとにPwC作成
5「個人情報の保護に関する法律についてのガイドライン(通則編、外国にある第三者への提供編、第三者提供時の確認・記録義務編及び匿名加工情報編)(案)」に関する意見募集について 【別紙2-1】意見募集結果(通則編)」(個人情報保護委員会:2021年)