gghatano · July 12, 2016 10:05
diff --git a/memo_20160712.txt b/memo_20160712.txt
 2016/07/12 1700-1930
 海外匿名化基準サーベイ　千田浩司、吉浦、島岡　NTT セキュア 
 survey 2016/07/12

 best practice guidelines 2010  anonymizatino rule for insurance(Canada)
 透明で再現可能なリスク評価　＋　契約
 micro data

 anonymisatino: managing data (ico) 2012 anonymisatino rule (England)
 micro data + aggregated data
 

 anonymisation standard nhs 2013 anonymisatino rule for healthcare data
 法律の曖昧な部分を明確にして、標準を提示している。
 microdata + aggregated data -> データの扱いを変える
 opinion 2014 on anonymisation 
 microdata

 privacy and data protection by design from policy to engineerring enisa 2014
 by designで漏洩防止
 micro data

 de identification of personal information nist 2015
 micro data

 Guidance regarding methods for deidentification hippa
 micro data
 具体的な運用手順を書いている 

 model 

 data subject -> data provider(data controller?) <-> data recipient

 data controller : 匿名化の目的、処理を行う人
 data specialist : 匿名化を監督する人

 risk 
 re identification
  identity disclosure : 個人を特定
  singling out : 個人に対応するデータ
  linkability
  linkability(group) : 
 attribute disclusure 
  inference : 開示されていない属性を推定すること

 high-risk -> データの扱いを変える (NHS)
 攻撃者の同期が強い
 データに偏り
 多数の興味
 公開データとのlinkageが容易

 attackers : 分類 (NIST)
 　一般大衆
 　専門家
 　内部受療者
 　供給側内部犯
 　プロの犯罪者
 　詮索好きな隣人

 攻撃方法 (ICO)
 　実名情報をほ揺する攻撃者が、匿名データから同一人物を捜す
 　匿名情報を保有する攻撃者が、実名データセットから同一人物を捜す

 Q
 　匿名化モデル
 　controller と processorは別企業？専門家は？
 A
 　専門家は別
  NISTやHIPAAの資料では、外部の専門家に聞いて、としている。
 　


 匿名化の分類 千田さんの分類
 　仮名化、非識別化、耐属性推定(l-diversity、differential privacyなど)、統計的開示制御
 　現状は、非識別化までしか考えられていない

 HIPAA
 safe harbor : 18列を消して、actual knowledge residual informatin can identify individual
 expert determinatin : apply statistical or scientific principles  + risk evaluation
 
 非識別化処理
 　データの加工をどのようにするか、どのような指標を扱うか
 　　k-匿名性と母集団一意性について触れられているのみ
 　　　kをいくつにしろ、というものも多い
 　　　　ENISA : 技術カタログみたいな位置づけ　紹介のみ　
 　　　　NHS：医療界隈　運用レベルの文書　削除と一般かを扱っている

 PWS勉強会これまで
 　opinion 05/2014 on Annonyisation : 2015年第1回にやっちゃっている...

 属性推定の問題について、副手
 　k-anonimity
   削除、一般化、トップ/ボトムコーディング、ミクロアグリゲーションなどの加工に適用できる指標
 　
 　属性推定
 　　同種攻撃：機密情報が全部一緒だとk-匿名化されていてもダメですね
 　　背景知識攻撃：追加知識で推定できてしまう
 　　-> l-diversityなどが必要になる
 　　-> α,k匿名性　どの値の出現頻度もα以下かどうか? どんな論文？
 　　-> p-sensitive k-匿名性 : p-通り以上の属性値あるかどうか
 　　　　l-多様性じゃないの？
 　　    - これはdistinct l-多様性
 　　　　- entropy l-多様性　割合も考えたもの
 　　　　- recursive (c,l)-多様性 割合も考えたもの　 

 母手段一位性
 　サンプルされたデータセットの評価
 　　データセットで１人しかいない　母集団でも１人のとき、危険！
 　　逆に、母集団と比較したとき、データセットで一意だった場合でも削除しなくていいかもしれない 例えば、母集団で1000以上ならOK、みたいな文書もある


 非識別化
 　手法はたくあん
 　　PRAM post randomizatin method
 　　　Pk-匿名化に使うアレ
 　　　　統計値の復元ができる
 　　　k=f(p_j)で測れる p_J: 各属性の遷移確率　匿名化技術をどう使うか　
 　
 QA
 Q: そもそもk-匿名化したらデータセットが劣化しちゃうじゃん
 　　α,k匿名性とかしたら辛い
 A: 改善したいよね
 　　pk-匿名化などはそれを目指している

 Q: 母集団1000以上なら大丈夫って、誰が判断するの？
 A: 国勢調査を行った人の中に専門家を置いて、とう想定

 Q: 潤識別子の決め方って書いてあるの？どういう決め方？
 A: 強いk-匿名化: 機密属性を１つ、残りは潤識別しとしておく、など
 　　high-risk data に対して、など
 Q: 集計に影響が出るな？推定ってどうやるの？
 A: PRAM:逆行列かけたり、ベイズ推定したり
   平均０のノイズを付加すれば、平均値は変わらないする
 Q: 逆行列の計算負荷？
 A: 逆行列は無理。ベイズ推定：１０属性くらいから辛い。

 Q: DBが変化したらどうなる？オプトアウトやデータ追加...
 A: 第4回で話すよ！
 　　ドキュメントには言及されていない

 Q: ノイズ付加で非識別化できていないのでは？
 A: グループ化

 Q: 機密属性が識別子になりませんか？
 A: なりますね 提供元の容易照合性の観点から、個人情報ですね 

 -> 今日の話は、攻撃に対して、の話
 -> 法律上の「匿名加工情報」ではない

 　 
 匿名化技術をどう使うか　標準、ガイドライン、事例　島岡政基 セコム　IS研究所
 　実行委員の人
 　
 良い匿名化[Opinion)
 際識別リスクレベルの見積もり方法[best practice]
 匿名化の手順[NIST]

 標準化匿名プロセス [NHS]

 USRCのケーススタディ[ICO]

 Q: 累積クエリの検知：超難しいよね？
 A: 何も書いていないけどこういう危険があるから気をつけてね、程度
 　　どうやるかは書いていない。どうやるかはわかっていない
   こういう危険：差分プライバシー

 
 best practice: 
 開示請求の精査、リスク評価、匿名化、軽減策（残存リスク対応、影響評価）、運用

 nhs
 これが高田さんのあれ？

 nist
 書くの大変 
 
 best practice 
 de-id risk assessment model(16)
 攻撃者の同期、能力
 軽減策の効果
 際識別攻撃成功確率
 潜在リスク
 匿名化の必要性見積もり
 　影響の大きさと攻撃成功確率から、閾値を決定して<= 表がある
 　 なんやかんやある

 remote? わずかな、という意味

 匿名化の手順
 HIPAAのあれ、高田さんのあれ? exepert determination methodの一例
 （サンプルデータで匿名加工をして再識別リスクをリスクを評価して、という手順が入っている？）
 
 標準化匿名プロセス(NHS) イギリスの医療機関が情報を公開するときに遵守するもの

 匿名化リスク評価と匿名化プランの選択
 　集計データ: sdc
 　個票：ノーマルリスクなら弱いk-匿名化、k=3
 　　　　ハイリスクなら強いk-匿名化 k=5
 　
 「gurdian やsiroなどのアドバイザを受ける」

 事例
 眠い
	2016/07/12 1700-1930
	海外匿名化基準サーベイ　千田浩司、吉浦、島岡　NTT セキュア
	survey 2016/07/12

	best practice guidelines 2010 anonymizatino rule for insurance(Canada)
	透明で再現可能なリスク評価　＋　契約
	micro data

	anonymisatino: managing data (ico) 2012 anonymisatino rule (England)
	micro data + aggregated data


	anonymisation standard nhs 2013 anonymisatino rule for healthcare data
	法律の曖昧な部分を明確にして、標準を提示している。
	microdata + aggregated data -> データの扱いを変える
	opinion 2014 on anonymisation
	microdata

	privacy and data protection by design from policy to engineerring enisa 2014
	by designで漏洩防止
	micro data

	de identification of personal information nist 2015
	micro data

	Guidance regarding methods for deidentification hippa
	micro data
	具体的な運用手順を書いている

	model

	data subject -> data provider(data controller?) <-> data recipient

	data controller : 匿名化の目的、処理を行う人
	data specialist : 匿名化を監督する人

	risk
	re identification
	identity disclosure : 個人を特定
	singling out : 個人に対応するデータ
	linkability
	linkability(group) :
	attribute disclusure
	inference : 開示されていない属性を推定すること

	high-risk -> データの扱いを変える (NHS)
	攻撃者の同期が強い
	データに偏り
	多数の興味
	公開データとのlinkageが容易

	attackers : 分類 (NIST)
	一般大衆
	専門家
	内部受療者
	供給側内部犯
	プロの犯罪者
	詮索好きな隣人

	攻撃方法 (ICO)
	実名情報をほ揺する攻撃者が、匿名データから同一人物を捜す
	匿名情報を保有する攻撃者が、実名データセットから同一人物を捜す

	Q
	匿名化モデル
	controller と processorは別企業？専門家は？
	A
	専門家は別
	NISTやHIPAAの資料では、外部の専門家に聞いて、としている。



	匿名化の分類千田さんの分類
	仮名化、非識別化、耐属性推定(l-diversity、differential privacyなど)、統計的開示制御
	現状は、非識別化までしか考えられていない

	HIPAA
	safe harbor : 18列を消して、actual knowledge residual informatin can identify individual
	expert determinatin : apply statistical or scientific principles + risk evaluation

	非識別化処理
	データの加工をどのようにするか、どのような指標を扱うか
	k-匿名性と母集団一意性について触れられているのみ
	kをいくつにしろ、というものも多い
	ENISA : 技術カタログみたいな位置づけ　紹介のみ
	NHS：医療界隈　運用レベルの文書　削除と一般かを扱っている

	PWS勉強会これまで
	opinion 05/2014 on Annonyisation : 2015年第1回にやっちゃっている...

	属性推定の問題について、副手
	k-anonimity
	削除、一般化、トップ/ボトムコーディング、ミクロアグリゲーションなどの加工に適用できる指標

	属性推定
	同種攻撃：機密情報が全部一緒だとk-匿名化されていてもダメですね
	背景知識攻撃：追加知識で推定できてしまう
	-> l-diversityなどが必要になる
	-> α,k匿名性　どの値の出現頻度もα以下かどうか? どんな論文？
	-> p-sensitive k-匿名性 : p-通り以上の属性値あるかどうか
	l-多様性じゃないの？
	- これはdistinct l-多様性
	- entropy l-多様性　割合も考えたもの
	- recursive (c,l)-多様性割合も考えたもの

	母手段一位性
	サンプルされたデータセットの評価
	データセットで１人しかいない　母集団でも１人のとき、危険！
	逆に、母集団と比較したとき、データセットで一意だった場合でも削除しなくていいかもしれない例えば、母集団で1000以上ならOK、みたいな文書もある


	非識別化
	手法はたくあん
	PRAM post randomizatin method
	Pk-匿名化に使うアレ
	統計値の復元ができる
	k=f(p_j)で測れる p_J: 各属性の遷移確率　匿名化技術をどう使うか

	QA
	Q: そもそもk-匿名化したらデータセットが劣化しちゃうじゃん
	α,k匿名性とかしたら辛い
	A: 改善したいよね
	pk-匿名化などはそれを目指している

	Q: 母集団1000以上なら大丈夫って、誰が判断するの？
	A: 国勢調査を行った人の中に専門家を置いて、とう想定

	Q: 潤識別子の決め方って書いてあるの？どういう決め方？
	A: 強いk-匿名化: 機密属性を１つ、残りは潤識別しとしておく、など
	high-risk data に対して、など
	Q: 集計に影響が出るな？推定ってどうやるの？
	A: PRAM:逆行列かけたり、ベイズ推定したり
	平均０のノイズを付加すれば、平均値は変わらないする
	Q: 逆行列の計算負荷？
	A: 逆行列は無理。ベイズ推定：１０属性くらいから辛い。

	Q: DBが変化したらどうなる？オプトアウトやデータ追加...
	A: 第4回で話すよ！
	ドキュメントには言及されていない

	Q: ノイズ付加で非識別化できていないのでは？
	A: グループ化

	Q: 機密属性が識別子になりませんか？
	A: なりますね提供元の容易照合性の観点から、個人情報ですね

	-> 今日の話は、攻撃に対して、の話
	-> 法律上の「匿名加工情報」ではない


	匿名化技術をどう使うか　標準、ガイドライン、事例　島岡政基セコム　IS研究所
	実行委員の人

	良い匿名化[Opinion)
	際識別リスクレベルの見積もり方法[best practice]
	匿名化の手順[NIST]

	標準化匿名プロセス [NHS]

	USRCのケーススタディ[ICO]

	Q: 累積クエリの検知：超難しいよね？
	A: 何も書いていないけどこういう危険があるから気をつけてね、程度
	どうやるかは書いていない。どうやるかはわかっていない
	こういう危険：差分プライバシー


	best practice:
	開示請求の精査、リスク評価、匿名化、軽減策（残存リスク対応、影響評価）、運用

	nhs
	これが高田さんのあれ？

	nist
	書くの大変

	best practice
	de-id risk assessment model(16)
	攻撃者の同期、能力
	軽減策の効果
	際識別攻撃成功確率
	潜在リスク
	匿名化の必要性見積もり
	影響の大きさと攻撃成功確率から、閾値を決定して<= 表がある
	なんやかんやある

	remote? わずかな、という意味

	匿名化の手順
	HIPAAのあれ、高田さんのあれ? exepert determination methodの一例
	（サンプルデータで匿名加工をして再識別リスクをリスクを評価して、という手順が入っている？）

	標準化匿名プロセス(NHS) イギリスの医療機関が情報を公開するときに遵守するもの

	匿名化リスク評価と匿名化プランの選択
	集計データ: sdc
	個票：ノーマルリスクなら弱いk-匿名化、k=3
	ハイリスクなら強いk-匿名化 k=5

	「gurdian やsiroなどのアドバイザを受ける」

	事例
	眠い