Skip to content

Instantly share code, notes, and snippets.

@gghatano
Created January 9, 2021 05:30
Show Gist options
  • Save gghatano/8a19d9c224a9c08936e8935ac98edd77 to your computer and use it in GitHub Desktop.
Save gghatano/8a19d9c224a9c08936e8935ac98edd77 to your computer and use it in GitHub Desktop.
匿名加工と分析への影響分析
○212 たなべさん 第一三共
胆石症患者への投薬結果データの分析
[用語 ]
Research Question
 PECOS...後で調べる
  Patient, Exposure, Comparison, Outcome
胆石の何か
 (後で調べる)
薬が投与されてどうなったか,対称群を用意して比較
投与日+投与日数
outcome
 術後細菌感染があるかどうか
  CPR/白血球の測定力判断
匿名加工
 日付: 相対化して、ランダムノイズを足している?
 年齢性別身長体重でk匿名性を確認してOK
  身長体重は必要?
  年齢はちょっと調整した (30代未満、そのあとは10歳刻み)
k>=8になった
  
データの確認
 暴露群/対称群で大きな差がないかチェック
匿名加工前後の比較
 年齢くらいしか加工に影響していないので...あまり変わらない
 
まとめ
 シミュレーションデータなので、綺麗な値しかない?
  実際は外れ値他の対処が必要なはず
 年齢に1件異常があったが、そのまま使った
結果
 識別子を分析に利用しないシナリオだったので、影響はほぼない
 RQごとに加工を考える必要はある
[QA]
年齢の異常値はどう判断した?
 10代の胆石症患者。一旦採用した。大きく影響しないと思ったから。
 
検査値の異常は、どう判断した?
 検査値からはわからないはず、という感覚
  医療従事者からの識別を考慮すると、何か処置しておきたい
加工方針はどのくらい開示する?どのように判断する?
 今回は、自分の知見から。実際は...?
分析者と加工者が同じだからなー
  -> 身長体重年齢での異常検知が必要かも?
○203 井谷さん 日本大学医学部
胆石症のデータに対する加工・分析
 10000件 抗生物質を投与するしないの、有効性評価
  手術後の感染症が発生する/しないについて、対称群を用意して分析する
匿名加工
 郵便番号、年齢、性別を純識別子とした
  郵便番号は上2桁
  年齢は30代未満、30代、40代以上、の3区分。
   k<3となる数十行を削除
分析結果
 生データの分析
  抗菌薬ガイドラインを参照して、白血球数とCRPの測定値から、術後感染症を判断
   術前から炎症がある人は外してから、多変量解析
   -> ハザード比?を見て、投薬する方が発生率が低い、と判断できた
 匿名加工データセットでも同様の結果。
  ちょっと差がある。
データの観察
 6歳で163cm64kgの人がいた
 195cm46kgの人がいた
 他...
  この辺のクレンジングが必要
  -> 身長体重年齢での異常検知が必要かも?
○214 中路さん 亀田総合病院
 ガイドラインベースで分類、適宜層別化
  日付を期間に、身長体重を層別化、郵便番号は削除
   可視化して外れ値を確認して対処する、など
  層別化の基準...分布を確認して適当にやる
   k匿名性を確認して、区切りを定める
 分析
  入院期間が減っているか
  術後入院期間が減っているか、有害事象、etc...
  傾向スコアマッチングで対処
  -> 大差はないです。
 
QA
 感染症発症よりも、入院期間を評価した?
  実目的を考慮して設計した。中身(白血球数etc)も評価した方が良かったかも
 あり得ない人(年齢身長体重)だけでなく、あり得ない郵便番号があった
  こういうのも対処する必要があるなー
  
  
 
 
 
 
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment