Created
July 12, 2016 10:05
-
-
Save gghatano/ab9d9ca49b54dc696c776f6aa10bdeb4 to your computer and use it in GitHub Desktop.
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
2016/07/12 1700-1930 | |
海外匿名化基準サーベイ 千田浩司、吉浦、島岡 NTT セキュア | |
survey 2016/07/12 | |
best practice guidelines 2010 anonymizatino rule for insurance(Canada) | |
透明で再現可能なリスク評価 + 契約 | |
micro data | |
anonymisatino: managing data (ico) 2012 anonymisatino rule (England) | |
micro data + aggregated data | |
anonymisation standard nhs 2013 anonymisatino rule for healthcare data | |
法律の曖昧な部分を明確にして、標準を提示している。 | |
microdata + aggregated data -> データの扱いを変える | |
opinion 2014 on anonymisation | |
microdata | |
privacy and data protection by design from policy to engineerring enisa 2014 | |
by designで漏洩防止 | |
micro data | |
de identification of personal information nist 2015 | |
micro data | |
Guidance regarding methods for deidentification hippa | |
micro data | |
具体的な運用手順を書いている | |
model | |
data subject -> data provider(data controller?) <-> data recipient | |
data controller : 匿名化の目的、処理を行う人 | |
data specialist : 匿名化を監督する人 | |
risk | |
re identification | |
identity disclosure : 個人を特定 | |
singling out : 個人に対応するデータ | |
linkability | |
linkability(group) : | |
attribute disclusure | |
inference : 開示されていない属性を推定すること | |
high-risk -> データの扱いを変える (NHS) | |
攻撃者の同期が強い | |
データに偏り | |
多数の興味 | |
公開データとのlinkageが容易 | |
attackers : 分類 (NIST) | |
一般大衆 | |
専門家 | |
内部受療者 | |
供給側内部犯 | |
プロの犯罪者 | |
詮索好きな隣人 | |
攻撃方法 (ICO) | |
実名情報をほ揺する攻撃者が、匿名データから同一人物を捜す | |
匿名情報を保有する攻撃者が、実名データセットから同一人物を捜す | |
Q | |
匿名化モデル | |
controller と processorは別企業?専門家は? | |
A | |
専門家は別 | |
NISTやHIPAAの資料では、外部の専門家に聞いて、としている。 | |
匿名化の分類 千田さんの分類 | |
仮名化、非識別化、耐属性推定(l-diversity、differential privacyなど)、統計的開示制御 | |
現状は、非識別化までしか考えられていない | |
HIPAA | |
safe harbor : 18列を消して、actual knowledge residual informatin can identify individual | |
expert determinatin : apply statistical or scientific principles + risk evaluation | |
非識別化処理 | |
データの加工をどのようにするか、どのような指標を扱うか | |
k-匿名性と母集団一意性について触れられているのみ | |
kをいくつにしろ、というものも多い | |
ENISA : 技術カタログみたいな位置づけ 紹介のみ | |
NHS:医療界隈 運用レベルの文書 削除と一般かを扱っている | |
PWS勉強会これまで | |
opinion 05/2014 on Annonyisation : 2015年第1回にやっちゃっている... | |
属性推定の問題について、副手 | |
k-anonimity | |
削除、一般化、トップ/ボトムコーディング、ミクロアグリゲーションなどの加工に適用できる指標 | |
属性推定 | |
同種攻撃:機密情報が全部一緒だとk-匿名化されていてもダメですね | |
背景知識攻撃:追加知識で推定できてしまう | |
-> l-diversityなどが必要になる | |
-> α,k匿名性 どの値の出現頻度もα以下かどうか? どんな論文? | |
-> p-sensitive k-匿名性 : p-通り以上の属性値あるかどうか | |
l-多様性じゃないの? | |
- これはdistinct l-多様性 | |
- entropy l-多様性 割合も考えたもの | |
- recursive (c,l)-多様性 割合も考えたもの | |
母手段一位性 | |
サンプルされたデータセットの評価 | |
データセットで1人しかいない 母集団でも1人のとき、危険! | |
逆に、母集団と比較したとき、データセットで一意だった場合でも削除しなくていいかもしれない 例えば、母集団で1000以上ならOK、みたいな文書もある | |
非識別化 | |
手法はたくあん | |
PRAM post randomizatin method | |
Pk-匿名化に使うアレ | |
統計値の復元ができる | |
k=f(p_j)で測れる p_J: 各属性の遷移確率 匿名化技術をどう使うか | |
QA | |
Q: そもそもk-匿名化したらデータセットが劣化しちゃうじゃん | |
α,k匿名性とかしたら辛い | |
A: 改善したいよね | |
pk-匿名化などはそれを目指している | |
Q: 母集団1000以上なら大丈夫って、誰が判断するの? | |
A: 国勢調査を行った人の中に専門家を置いて、とう想定 | |
Q: 潤識別子の決め方って書いてあるの?どういう決め方? | |
A: 強いk-匿名化: 機密属性を1つ、残りは潤識別しとしておく、など | |
high-risk data に対して、など | |
Q: 集計に影響が出るな?推定ってどうやるの? | |
A: PRAM:逆行列かけたり、ベイズ推定したり | |
平均0のノイズを付加すれば、平均値は変わらないする | |
Q: 逆行列の計算負荷? | |
A: 逆行列は無理。ベイズ推定:10属性くらいから辛い。 | |
Q: DBが変化したらどうなる?オプトアウトやデータ追加... | |
A: 第4回で話すよ! | |
ドキュメントには言及されていない | |
Q: ノイズ付加で非識別化できていないのでは? | |
A: グループ化 | |
Q: 機密属性が識別子になりませんか? | |
A: なりますね 提供元の容易照合性の観点から、個人情報ですね | |
-> 今日の話は、攻撃に対して、の話 | |
-> 法律上の「匿名加工情報」ではない | |
匿名化技術をどう使うか 標準、ガイドライン、事例 島岡政基 セコム IS研究所 | |
実行委員の人 | |
良い匿名化[Opinion) | |
際識別リスクレベルの見積もり方法[best practice] | |
匿名化の手順[NIST] | |
標準化匿名プロセス [NHS] | |
USRCのケーススタディ[ICO] | |
Q: 累積クエリの検知:超難しいよね? | |
A: 何も書いていないけどこういう危険があるから気をつけてね、程度 | |
どうやるかは書いていない。どうやるかはわかっていない | |
こういう危険:差分プライバシー | |
best practice: | |
開示請求の精査、リスク評価、匿名化、軽減策(残存リスク対応、影響評価)、運用 | |
nhs | |
これが高田さんのあれ? | |
nist | |
書くの大変 | |
best practice | |
de-id risk assessment model(16) | |
攻撃者の同期、能力 | |
軽減策の効果 | |
際識別攻撃成功確率 | |
潜在リスク | |
匿名化の必要性見積もり | |
影響の大きさと攻撃成功確率から、閾値を決定して<= 表がある | |
なんやかんやある | |
remote? わずかな、という意味 | |
匿名化の手順 | |
HIPAAのあれ、高田さんのあれ? exepert determination methodの一例 | |
(サンプルデータで匿名加工をして再識別リスクをリスクを評価して、という手順が入っている?) | |
標準化匿名プロセス(NHS) イギリスの医療機関が情報を公開するときに遵守するもの | |
匿名化リスク評価と匿名化プランの選択 | |
集計データ: sdc | |
個票:ノーマルリスクなら弱いk-匿名化、k=3 | |
ハイリスクなら強いk-匿名化 k=5 | |
「gurdian やsiroなどのアドバイザを受ける」 | |
事例 | |
眠い | |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment