データを「合成(シンセティック)」すれば、データ活用が促進されるか

企業が保有する個人情報を含んだデータを加工することで、個人データ保護に関するレギュレーションに抵触することなく、ビッグデータ活用を促進する動きが始まっています。アイテ-ノバリカ・グループでは、この分野に取り組むテクノロジー企業Facteus社の取り組みをレポート「Facteus: Changing the Game With Synthetic Data」にまとめています。
 


■ データ活用の課題
銀行の利益の源泉は、突き詰めると「金利」か「手数料」だが、どちらもコモディティ化が進んでいる。「第三の収益源はデータ販売だ」という見方は以前からあったが、「プライバシー保護の観点から無理」というの認識が一般的だ。これは、銀行取引やカード利用のデータから名前/住所/利用金額/生年月日などを取り除くとデータとしての意味がなくなり、一部を残すと(例えば郵便番号や生年月日など)、他のデータと組合わせて解析することで個人を特定できる可能性が高いと考えられているからだ。

企業内でデータ活用を進めるにしても、個人情報を含んだデータを分析する場合、(万一のデータ漏洩に備え)多くの企業が様々な制約を課しているのが現状で、暗号化すればデータ解析が面倒となり、大きなデータセットを扱えるクラウド環境にデータを保管することも難しい。

■ 合成データ(Synthetic Data)の登場
この分野に挑戦している企業は数社あるが、ここでは、Facteus社(オレゴン州)のMimicをベースに説明を進めたい。Mimicは、独自のデータ合成エンジン(Synthetic data engine)で、統計的有意性は残しつつデータを作り変える(個人を特定できるデータは匿名化/除去し、他のデータにも「ノイズを入れる」)ソリューションである。イメージとしては・・
・名前 >匿名化(山田太郎>ABCD)
・住所 >除去(東京都杉並区永福x-x-x>除去)
・郵便番号 >国勢調査区分に置き換え(168-0064>東京都特別区部)
・誕生日 >年は残すが月日はずらす(1980年12月15日>1980年11月29日)
・利用日時 >利用時間帯が変わらない程度にずらす(2020年1月19日08:45:23>2020年1月19日09:12:18)
・金額 > 桁数は同じ、上のケタの数字はそのままだが、下のケタにはノイズを入れる(1356円>1445円)
等など。「合成」アルゴリズムは、データの利用目的により調整することも可能だろう。

Mimicを用いるとデータの復元は不可能だが、統計的な処理結果を99.9%同じとすることが可能で、また、理論上、合成データ(Systhetic Data)は個人情報ではないので、個人データに関する各種レギュレーション(欧州のGDPRやカリフォルニア州のCCPA、カード業界のPCIDSSなど)に抵触しない。既にこのツールでPOSデータを「合成」し、消費財メーカーに販売している小売チェーン・アウトソーサーが出現している。


■ 合成データの用途は広大
もちろん、いきなり金融機関やカード会社が、顧客のトランザクション・データを合成して販売することにはならないだろう。現時点では、例えば以下のような用途が考えられている:
・企業内で顧客データを分析する際、生データではなく合成データを用いることで、パブリック・クラウドで保存/分析できる。
・マシン・ラーニングの「教材」に合成データを用いる。
・業界団体やデータ販売企業において、業界内の各企業から合成データを提供してもらい、様々な指標(ベンチマーキング)を作成する。
・システム開発の際、テスト・データに合成データを用いる。

米国では、コロナ・パンデミックの病状把握や治験の進捗管理にSynthetic Dataが活用されたようで、ワクチン早期承認の一助になったと思われる。今後、「合成データは個人データではない」とのコンセンサスが広まれば、金融トランザクションの販売も含めてビッグデータ分析が大きく変貌するように思われるがどうだろう。

 

How can we help?

If you have a question specific to your industry, speak with an expert.  Call us today to learn about the benefits of becoming a client.

Talk to an Expert

Receive email updates relevant to you.  Subscribe to entire practices or to selected topics within
practices.

Get Email Updates