[논문] Synthetic Data

synthetic data
Author

김보람

Published

March 24, 2023

A Comparison of Synthetic Data Approaches Using Utility and Disclosure Risk Measures

  • Deep generative model
  • Discolsure risk
  • Nonparametric Bayesian
  • Sequential regression
  • Synthetic data
  • Utility

Seongbin An, Trang Doan, Juhee Lee, Jiwwo Kim, Yong Jae Kim, Yunji Kim, Changwon Yoon, Sungkyu Jung, Dongha Kim, Sunghoon Kwon, Hang J Kim, Jeongyoun Ahn, Cheolwoo Park

The Korean Journal of Applied Statistics

서론

- 재현자료 생성기법

  • 순차적 회귀분석

  • 비모수 베이지안

  • 인공지능 기반: CTGAN, TVAE

- 유용성 지표

. (대역 유용성):자료 전체의 분포적인 특성을 얼마나 비슷하게 유지 - Propensity Score, 거리측도, α-정밀도, β-wogusdbf

. (특정 유용성): 특정 분석이 데이터의 적용될 것을 가정하고 해당 분석에서 원본자료와 재현자료가 얼마나 유사한 결과를 나타내는지 기반으로 유용성 판단 - 신뢰구간 중첩

- 노출 위험도 지표

  • 신원 노출 위험도

  • 속성 노출 위험도

  • 독창성 점수

Survey Est

  • 2019년 전국 사업체 조사 데이터

이항형, 다항형, 연속형 변수

구분 변수명 변수설명
범주형 SEX 대표자 성별(남/여)
SUMMAT_CD 매출 금액(9단계 범주)
연속형 WORKER_T 총 근로자수
EMP_T 상용근로 종사자수
BIS_MNTH 영업개월수

WORKERT>=EMPT

재현자료 생성기법

순차적 회귀모형

변수의 순서에 따라 결합분포의 추정값이 다르다.

Xj 범주형 분류 의사결정나무 : 지니계수

Xj 수치형 회귀 의사결정나무 : 엔트로피

베이지안

인공지능

재현자료의 평가 지표

Propensity Score Measure

Propensity Score: 공변량 X가 주어졌을 때 처리그룹으로 배치될 확률 Pr(Treatment=1|X)

재현자료로 배치되는 경우를 처리 그룹으로 배치되는 경우로 생각

pMSE=1ns+noi=1ns+no(p̂ic)2

재현자료의 유용성이 높을수록 pMSE는 0에 가까움

  • 원본자료와 재현자료를 분포적으로 구분할 수 있는지 수치화
  • 개별적 비교 필요 없이 변수의 관계성을 고려하여 평가 가능
  • 분류 모델에 따라 pMSE 값이 달라지므로 귀무분포를 고려해야 함

분포간 거리 측도

  • 원본자료와 재현자료에서 각 변수의 분포를 각각 계산하여 유용성 판단 가능

  • 변수간의 상관성 고려 못함

- KL괴리도

  • Kullback-Leibler

D(f||g)=f(x)logf(x)g(x)dx

- Wasser-stein 거리

Wr(f,g)=(01|Ff1(t)Fg1(t)|r)1/rdt

신원 노출 위험도

Notation 설명
n 원본(재현)자료 관측치 개수
fi 원본자료의 i번째 관측치에 대해 준식별자 값이 같은 관측치 개수
Xi 원본자료의 i번째 관측치의 민감 변수 값
Pi 원본자료에서 Xi 와 같은 값을 갖는 관측치의 비율
di 1-pi
Yi 원본자료의 i번째 관측치와 연결된 재현자료 민감 변수 값
(di) 원본자료에서 Xi가 속한 군집에 있는 관측치의 비율

- 민감변수: 준식별자를 제외한 나머지 변수

  • 민감변수(명목형)

di×I(Xi=Yt)>pi(1pi),i=1,2,,n

  • 민감변수(연속형): k-means를 이용해 값을 군집화하고 부등식 확인

di×|XiYi|<1.48×MAD,i=1,2,,n

MAD:중위절대편차

원본자료의 i번째 관측치에서 위 부등식을 만족하는 민감벼눗의 비율이 5% 이상이면 1, 그렇지 않으면 0 지시함수 Ri

- 신원 노출 위험도

1ni=1n(1fi×Ii×Ri)

작을수록 신원 추출 가능성이 작아짐

  • 구현 시간이 오래 걸림
  • 준식별자와 민감 변수로 구분시 명확한 기준이 없음

속성 노출 위험도

  • 공격자가 개인의 신원을 식별할 수는 없지만 특정 민감한 변수의 속성을 추론할 수 있을때 발생

  • 완전 재현자료여도 속성 노출 위험도 항상 존재

- CAP(correct attribution probability)

  • 공격자가 원본자료의 일부 변수(K:key bariables)를 가지고 있고 하나의 특정 변수의 값에 대하여 알고자 하는(T:target variable) 상황에서 계산

  • KT 모두 범주형이어야 계산 가능, 연속형 변수는 K-MEANS를 실시하여..

α-정밀도, β-재현율, 독창성 점수

  • 원본자료와 재현자료의 토대를 추정
  • 테이블, 이미지 등 다양한 형태 데이터 져핸에 대한 평가 지표
  • 잠재공간으로 임베딩시 hyperparameter설정에 따라 결과가 다르게 나옴

- α정밀도

  • 재현자료가 원본자료를 얼마나 충실하게 재현하는가
  • 재현자료 유용성 측정지표
  • α정밀도가 높은 재현자료는 현실성이 높은 관측치를 포함

원본 데이터 DO의 확률분포의 서포트 안에서 α 만큼의 확률을 가지는 가장 작은 토대(α-support)를 S0α

α:Pα Pα:=Pr(xsS0α),forα[0,1]

- β재현율

  • 재현자료가 원본자료의 다양성을 충분히 반영하는가
  • 재현자료 유용성 측정지표
  • β재현율이 낮은 재현자료는 원본자료의 일부만을 반복적으로 재현

β:Rβ Rβ:=Pr(xoS0β),forβ[0,1]

- 독창섬점수 - 재현자료를 얼마나 원본자료에 존재하지 않는 새로운 관측치들을 만들어 내는가 - 정보노출의 위험성 측정 지표 - 재현자료가 원본자료를 과적합하여 그대로 사용하고 있는지?