Skip to content

Instantly share code, notes, and snippets.

@gghatano
Created November 1, 2021 09:07
Show Gist options
  • Save gghatano/d6c6e75335687cf87e82d47eec275c75 to your computer and use it in GitHub Desktop.
Save gghatano/d6c6e75335687cf87e82d47eec275c75 to your computer and use it in GitHub Desktop.
2021/10/28(木) 合成データの社会動向
公的統計における合成データ
 合成データ...何か統計量/統計モデル等により、擬似的に属性値が生成された、ミクロレベルのデータ
 欧米では...一般公開型ミクロデータPUFのように、合成データが利用されている
  欠測値補完、シミュレーション
手法
 ミクロデータを元に作成する方法
 統計量(データキューブ:高次の集計表など)を元に作成する方法
公的統計における差分プライバシー
 アメリカセンサス局が2020年の人口センサスに適用
  PPMFs: プライバシー保護済みミクロデータファイルが公開されている
   いくつかの実験を経てパラメータが確定した
 ノルウェーなど、欧州でも利用される可能性が出てきた
  「データベース再構築攻撃」を対策したい
日本の統計局の動向
 統計法、に基づいたデータ提供を継続して実施中
 公的統計ミクロデータ...調査票情報や匿名データの利用が可能。
  ただし、オンサイト利用など適正管理が必要
 さらなる利活用に向けて...
  オンサイトから持ち出して良い情報の更新などを検討中
  一般用ミクロデータ:教育用の疑似データはすでに存在する
   アルゴリズムのアップデートをしたい
合成データの技術動向(論文)
 生成方法
  グラフィカルモデルを使うアプローチ
   多次元集計表の代わりに、条件付き確率で近似してデータ生成する
   PrivSynなど
  GANを使うアプローチ
   tableGAN、MedGAN、DTGAN(DP-Training for Tabular GAN)
 安全性評価
  Membership推定攻撃により、安全性を定量評価したりする
  差分プライバシー基準を満たす合成データ生成、もある
合成データの製品動向
 GANを使う製品が多い
 認証など
  GDPR準拠、と明言している例が多め (13/21ベンダ)
   何にどう対応しているか不明な場合が多い
  他には...CCPA, HIPAA, GLBA(米国の金融-プライバシー保護法), PIPEDA(カナダ)
  フランスのデータ保護局(CNIL)
   CNILは、合成データを匿名化と許容している
   Octopize社がCNILの監査を受けている
    https://octopize-md.com/en/
 他には...ISO27001, SOC2 Type2などの認証の取得、など
 ->事例や認証により、社会から受容されつつある
 
   
参考
https://www.terrapub.co.jp/journals/jjssj/pdf/4702/47020077.pdf
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment