Skip to content

Instantly share code, notes, and snippets.

@gghatano
Created February 10, 2017 01:18
Show Gist options
  • Save gghatano/c76e4667858d4442c3ec25ec47e8b0bf to your computer and use it in GitHub Desktop.
Save gghatano/c76e4667858d4442c3ec25ec47e8b0bf to your computer and use it in GitHub Desktop.
pws meetup 2017
https://pwscup.personal-data.biz/meetup.php
参加者: 40人くらい
1. pwscup2016 振り返り
https://pwscup.personal-data.biz/login/pws2016/data/20170209_PWSMeetup_1-1.pdf
過加工評価、安全性評価、有用性評価の3つで評価する
同じデータに対する匿名化が1000回投稿された
ユースケースから有用性を決めた
 クロス集計、RFM分析、バスケット分析
再識別 手持ちのアルゴリズムが尽きたらもうおわり...という大会だった
QA
運営のスケジュールは?
 4月 - 7月 meetingを5回くらい
 今テスト期間中 大変だった
 体制は?あとで聴いてみる
 
 
そもそも予備選って何?
 ゆるいルールでルールの確認をしてみた
 本戦ルール確定のための期間
技術解説
 有用性、安全性、過加工、という3つで評価
 山岡匿名化 ー>過剰スワップ
  過加工評価につながる話
休憩... 
運営側
 小栗さん「月一くらいのミーティング
      グローバル化も考えている
      SIの知見、是非欲しい」
1位チームの解説
 group-by山岡匿名化が強い?
  逆の結論になるはず
 
 ランダム+クラスタ入れ替えを考える
  ...?
  
QA
 クラスタ数設定と計算量、時間は?
  計算自体はすぐ。
 
 匿名化のコンテスト
  脆弱性を探すような大会になっている?
  山岡匿名化を行わない方針がとてもよかった
 
pwscup2017の計画
https://pwscup.personal-data.biz/login/pws2016/data/20170209_PWSMeetup_4.pdf
 # 全然決まってない
 反省
  データを共通化したこと
  最終プレゼン
  規則やガイドライン、標準との乖離
 
 ガイドラインの案からは離れてしまった...
  仮名化ID(識別できる結合キー)はダメ
  ...??
  (Q)元データと結合できたらダメ
 属性推定
  日本では特に法律で指摘されていないから、優先度低め
  
 保護規則を考えたい
 仮名IDの制御を行いたい 
 コンテストの加工、評価をオープンソースにしたい
 QA
 仮名ID保持期間は委員会で決定されるか?
  難しそう
  長くする有用性 vs 短くする安全性 みたいなルールを入れたい
 (takagi)
 「特異な記述の削除」って、複数列考えるよね?
 委員会にははぐらかされた どう考えている?
  複数列で、という認識。そうでないと意味がない
 複数列で一意、だと使えるデータ出てこない気がする
 政府に文句を言っていかないといけないと思う
  確かに
 
 特異な記述 症例の少ない病気、とかを指している?
 業界ごとに話があるかも
 医療界の議論を見るといいと思う
  はい
 参加者ごとにデータを変える予定は?
  ある。そろそろそうしたい
  
 (委員会の資料、フォローしなきゃ 1号から5号までよくわかっていない)
個体識別リスクの定量管理
 国勢調査の結果を利用して、
 社会科学系の研究者向けに、「匿名データ」を提供している
 
 統計法に準拠している。
http://stat.w3.kanazawa-u.ac.jp/owner/pdf/evidence.pdf
個体識別...官庁統計の世界では...個体識別モデルを考えている
 pdf参照
 例えば...母集団一意性
  攻撃者にとっての母集団で、一意になっているかどうか
   攻撃者が、ある程度母集団の情報を知っているかもしれない(あの集落だ、とか
 
 母集団一意の確証
  http://www.nstac.go.jp/services/pdf/151127_5-1-1.pdf
 安全と安心の違い...
 指紋 finger-print...母集団一意の確証成功
 ...スライドみよう...
 個体識別が不可能
  確率モデルで、個体識別成功確率が0になればいい
  k匿名化は嫌われる
 
 閾値設定して、それを超えない(個体識別リスクの許容
 QA
 adverseryの数値モデル化 キー変数の選択方法
  軸に落とし方ってどうやるの?
  順位をつけて(一意になる数で)、閾値以下のもの...?????
 ちょっとついていけてない
 
ノイズを含んだ個票データのリスク評価
 官庁統計のリスク評価を行う
 public use micro data samples
 センサスの5%データ
 
QA
 サブサンプルも実施する?
  しますねー
 母集団一意...母集団がどうなっているかなんて、誰にもわからないはずでは?
  理論的にはしなければいけない?
  説明のために必要だと思っている。一意だけどちゃんと安全だよ、というため
  
 母集団一意の確証との関連...
  弁護士とかは一意がすぐにわかるので、母集団一意性は判定できる
  母集団一意がわかる場合があるよ
差分プライバシー研究動向
NTTドコモ 寺田さん
 appleもmsもgoogleも差分プライバシーを使っている
 
 国内では...全部が準識別しとして...としている場合がある気がする
 
 k-匿名化 kを満たすやりかたがたくさんある kとは...?
 差分プライバシー 基準だけ満たせばいい
安全に、簡単に、有用なデータを作る
  使い物になるかどうか...
  安全性: 基準だけ満たせばOK
   有用性:イプシロンを変えない範囲で、有用性をあげられる
       目的を定めて、イプシロンを保ってやる
       低ランク近似して...
       高次元データへの対応...
domingo ferrer振り返り
読み方はファレー先生
 事業者がデータを統合する際に...
 データを匿名化したことを証明する
  かこうしてデータを提供して、有用性を保つ
  みんながk-匿名化して提供する or 提供してから統合してk-匿名化する
  
 値の大きさの順位が変わらないようなnoise、という制限を置く
  
 ..
 直感的に、何を満たすことになるの?
  よくわからん d,vってなに 2m個もあるけどどうやって決めるの?
  k-匿名化のkならわかるのに
   よくわからん 「刺激が強い」 excitingな理論...
匿名加工情報の最新動向
NTT 高橋さん
 ガイドライン 11/30公布
  ドキュメントが揃っていない...
ビッグデータの匿名化
 悩みの共有がしたい...
一旦、用語と概念を整理しなきゃ(pwsというコミュニティだけでも
 
匿名加工情報は料理
列は項目、行はレコード、加工、基準を満たせば匿名加工情報
漏えいリスク...いろいろあるね
結局k-匿名化になるかも
仮IDってどうなんだっけ 大丈夫そう??
QA
 リスクの類型
 観点が違うのでは?データから特定の個人を識別できるリスクを考えているが
  ターゲティングに使われる、とか<-これはダメ
  提供元基準での容易照合性...識別状態がダメ、と思っている?
   仮ID、とかが
   攻撃者が最強となる状況は、PWSCUPでやってきたこと。提供元容易照合。
  不幸なプロファイル、とかが発生しうるでしょ、とか
  法律の要請は、特定の個人を識別がダメ、だけど、
  よくわからない誰かが不幸にならないような仕組み、にしないとダメでしょ
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment