Created
November 1, 2021 09:07
-
-
Save gghatano/d6c6e75335687cf87e82d47eec275c75 to your computer and use it in GitHub Desktop.
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
2021/10/28(木) 合成データの社会動向 | |
公的統計における合成データ | |
合成データ...何か統計量/統計モデル等により、擬似的に属性値が生成された、ミクロレベルのデータ | |
欧米では...一般公開型ミクロデータPUFのように、合成データが利用されている | |
欠測値補完、シミュレーション | |
手法 | |
ミクロデータを元に作成する方法 | |
統計量(データキューブ:高次の集計表など)を元に作成する方法 | |
公的統計における差分プライバシー | |
アメリカセンサス局が2020年の人口センサスに適用 | |
PPMFs: プライバシー保護済みミクロデータファイルが公開されている | |
いくつかの実験を経てパラメータが確定した | |
ノルウェーなど、欧州でも利用される可能性が出てきた | |
「データベース再構築攻撃」を対策したい | |
日本の統計局の動向 | |
統計法、に基づいたデータ提供を継続して実施中 | |
公的統計ミクロデータ...調査票情報や匿名データの利用が可能。 | |
ただし、オンサイト利用など適正管理が必要 | |
さらなる利活用に向けて... | |
オンサイトから持ち出して良い情報の更新などを検討中 | |
一般用ミクロデータ:教育用の疑似データはすでに存在する | |
アルゴリズムのアップデートをしたい | |
合成データの技術動向(論文) | |
生成方法 | |
グラフィカルモデルを使うアプローチ | |
多次元集計表の代わりに、条件付き確率で近似してデータ生成する | |
PrivSynなど | |
GANを使うアプローチ | |
tableGAN、MedGAN、DTGAN(DP-Training for Tabular GAN) | |
安全性評価 | |
Membership推定攻撃により、安全性を定量評価したりする | |
差分プライバシー基準を満たす合成データ生成、もある | |
合成データの製品動向 | |
GANを使う製品が多い | |
認証など | |
GDPR準拠、と明言している例が多め (13/21ベンダ) | |
何にどう対応しているか不明な場合が多い | |
他には...CCPA, HIPAA, GLBA(米国の金融-プライバシー保護法), PIPEDA(カナダ) | |
フランスのデータ保護局(CNIL) | |
CNILは、合成データを匿名化と許容している | |
Octopize社がCNILの監査を受けている | |
https://octopize-md.com/en/ | |
他には...ISO27001, SOC2 Type2などの認証の取得、など | |
->事例や認証により、社会から受容されつつある | |
参考 | |
https://www.terrapub.co.jp/journals/jjssj/pdf/4702/47020077.pdf |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment