Skip to content

Instantly share code, notes, and snippets.

@gghatano
Created July 12, 2016 10:05
Show Gist options
  • Save gghatano/ab9d9ca49b54dc696c776f6aa10bdeb4 to your computer and use it in GitHub Desktop.
Save gghatano/ab9d9ca49b54dc696c776f6aa10bdeb4 to your computer and use it in GitHub Desktop.
2016/07/12 1700-1930
海外匿名化基準サーベイ 千田浩司、吉浦、島岡 NTT セキュア
survey 2016/07/12
best practice guidelines 2010 anonymizatino rule for insurance(Canada)
透明で再現可能なリスク評価 + 契約
micro data
anonymisatino: managing data (ico) 2012 anonymisatino rule (England)
micro data + aggregated data
anonymisation standard nhs 2013 anonymisatino rule for healthcare data
法律の曖昧な部分を明確にして、標準を提示している。
microdata + aggregated data -> データの扱いを変える
opinion 2014 on anonymisation
microdata
privacy and data protection by design from policy to engineerring enisa 2014
by designで漏洩防止
micro data
de identification of personal information nist 2015
micro data
Guidance regarding methods for deidentification hippa
micro data
具体的な運用手順を書いている
model
data subject -> data provider(data controller?) <-> data recipient
data controller : 匿名化の目的、処理を行う人
data specialist : 匿名化を監督する人
risk
re identification
identity disclosure : 個人を特定
singling out : 個人に対応するデータ
linkability
linkability(group) :
attribute disclusure
inference : 開示されていない属性を推定すること
high-risk -> データの扱いを変える (NHS)
攻撃者の同期が強い
データに偏り
多数の興味
公開データとのlinkageが容易
attackers : 分類 (NIST)
 一般大衆
 専門家
 内部受療者
 供給側内部犯
 プロの犯罪者
 詮索好きな隣人
攻撃方法 (ICO)
 実名情報をほ揺する攻撃者が、匿名データから同一人物を捜す
 匿名情報を保有する攻撃者が、実名データセットから同一人物を捜す
Q
 匿名化モデル
 controller と processorは別企業?専門家は?
A
 専門家は別
NISTやHIPAAの資料では、外部の専門家に聞いて、としている。
 
匿名化の分類 千田さんの分類
 仮名化、非識別化、耐属性推定(l-diversity、differential privacyなど)、統計的開示制御
 現状は、非識別化までしか考えられていない
HIPAA
safe harbor : 18列を消して、actual knowledge residual informatin can identify individual
expert determinatin : apply statistical or scientific principles + risk evaluation
非識別化処理
 データの加工をどのようにするか、どのような指標を扱うか
  k-匿名性と母集団一意性について触れられているのみ
   kをいくつにしろ、というものも多い
    ENISA : 技術カタログみたいな位置づけ 紹介のみ 
    NHS:医療界隈 運用レベルの文書 削除と一般かを扱っている
PWS勉強会これまで
 opinion 05/2014 on Annonyisation : 2015年第1回にやっちゃっている...
属性推定の問題について、副手
 k-anonimity
削除、一般化、トップ/ボトムコーディング、ミクロアグリゲーションなどの加工に適用できる指標
 
 属性推定
  同種攻撃:機密情報が全部一緒だとk-匿名化されていてもダメですね
  背景知識攻撃:追加知識で推定できてしまう
  -> l-diversityなどが必要になる
  -> α,k匿名性 どの値の出現頻度もα以下かどうか? どんな論文?
  -> p-sensitive k-匿名性 : p-通り以上の属性値あるかどうか
    l-多様性じゃないの?
   - これはdistinct l-多様性
    - entropy l-多様性 割合も考えたもの
    - recursive (c,l)-多様性 割合も考えたもの 
母手段一位性
 サンプルされたデータセットの評価
  データセットで1人しかいない 母集団でも1人のとき、危険!
  逆に、母集団と比較したとき、データセットで一意だった場合でも削除しなくていいかもしれない 例えば、母集団で1000以上ならOK、みたいな文書もある
非識別化
 手法はたくあん
  PRAM post randomizatin method
   Pk-匿名化に使うアレ
    統計値の復元ができる
   k=f(p_j)で測れる p_J: 各属性の遷移確率 匿名化技術をどう使うか 
 
QA
Q: そもそもk-匿名化したらデータセットが劣化しちゃうじゃん
  α,k匿名性とかしたら辛い
A: 改善したいよね
  pk-匿名化などはそれを目指している
Q: 母集団1000以上なら大丈夫って、誰が判断するの?
A: 国勢調査を行った人の中に専門家を置いて、とう想定
Q: 潤識別子の決め方って書いてあるの?どういう決め方?
A: 強いk-匿名化: 機密属性を1つ、残りは潤識別しとしておく、など
  high-risk data に対して、など
Q: 集計に影響が出るな?推定ってどうやるの?
A: PRAM:逆行列かけたり、ベイズ推定したり
平均0のノイズを付加すれば、平均値は変わらないする
Q: 逆行列の計算負荷?
A: 逆行列は無理。ベイズ推定:10属性くらいから辛い。
Q: DBが変化したらどうなる?オプトアウトやデータ追加...
A: 第4回で話すよ!
  ドキュメントには言及されていない
Q: ノイズ付加で非識別化できていないのでは?
A: グループ化
Q: 機密属性が識別子になりませんか?
A: なりますね 提供元の容易照合性の観点から、個人情報ですね
-> 今日の話は、攻撃に対して、の話
-> 法律上の「匿名加工情報」ではない
 
匿名化技術をどう使うか 標準、ガイドライン、事例 島岡政基 セコム IS研究所
 実行委員の人
 
良い匿名化[Opinion)
際識別リスクレベルの見積もり方法[best practice]
匿名化の手順[NIST]
標準化匿名プロセス [NHS]
USRCのケーススタディ[ICO]
Q: 累積クエリの検知:超難しいよね?
A: 何も書いていないけどこういう危険があるから気をつけてね、程度
  どうやるかは書いていない。どうやるかはわかっていない
こういう危険:差分プライバシー
best practice:
開示請求の精査、リスク評価、匿名化、軽減策(残存リスク対応、影響評価)、運用
nhs
これが高田さんのあれ?
nist
書くの大変
best practice
de-id risk assessment model(16)
攻撃者の同期、能力
軽減策の効果
際識別攻撃成功確率
潜在リスク
匿名化の必要性見積もり
 影響の大きさと攻撃成功確率から、閾値を決定して<= 表がある
  なんやかんやある
remote? わずかな、という意味
匿名化の手順
HIPAAのあれ、高田さんのあれ? exepert determination methodの一例
(サンプルデータで匿名加工をして再識別リスクをリスクを評価して、という手順が入っている?)
標準化匿名プロセス(NHS) イギリスの医療機関が情報を公開するときに遵守するもの
匿名化リスク評価と匿名化プランの選択
 集計データ: sdc
 個票:ノーマルリスクなら弱いk-匿名化、k=3
    ハイリスクなら強いk-匿名化 k=5
 
「gurdian やsiroなどのアドバイザを受ける」
事例
眠い
 
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment