[논문] Synthetic Data
A Comparison of Synthetic Data Approaches Using Utility and Disclosure Risk Measures
- Deep generative model
- Discolsure risk
- Nonparametric Bayesian
- Sequential regression
- Synthetic data
- Utility
Seongbin An, Trang Doan, Juhee Lee, Jiwwo Kim, Yong Jae Kim, Yunji Kim, Changwon Yoon, Sungkyu Jung, Dongha Kim, Sunghoon Kwon, Hang J Kim, Jeongyoun Ahn, Cheolwoo Park
The Korean Journal of Applied Statistics
서론
-
재현자료 생성기법
순차적 회귀분석
비모수 베이지안
인공지능 기반: CTGAN, TVAE
-
유용성 지표
.
(대역 유용성):자료 전체의 분포적인 특성을 얼마나 비슷하게 유지 - Propensity Score, 거리측도, α-정밀도, β-wogusdbf
.
(특정 유용성): 특정 분석이 데이터의 적용될 것을 가정하고 해당 분석에서 원본자료와 재현자료가 얼마나 유사한 결과를 나타내는지 기반으로 유용성 판단 - 신뢰구간 중첩
-
노출 위험도 지표
신원 노출 위험도
속성 노출 위험도
독창성 점수
Survey Est
- 2019년 전국 사업체 조사 데이터
이항형, 다항형, 연속형 변수
구분 | 변수명 | 변수설명 |
---|---|---|
범주형 | SEX | 대표자 성별(남/여) |
SUMMAT_CD | 매출 금액(9단계 범주) | |
연속형 | WORKER_T | 총 근로자수 |
EMP_T | 상용근로 종사자수 | |
BIS_MNTH | 영업개월수 |
재현자료 생성기법
순차적 회귀모형
변수의 순서에 따라 결합분포의 추정값이 다르다.
베이지안
인공지능
재현자료의 평가 지표
Propensity Score Measure
Propensity Score: 공변량 X가 주어졌을 때 처리그룹으로 배치될 확률
재현자료로 배치되는 경우를 처리 그룹으로 배치되는 경우로 생각
재현자료의 유용성이 높을수록
- 원본자료와 재현자료를 분포적으로 구분할 수 있는지 수치화
- 개별적 비교 필요 없이 변수의 관계성을 고려하여 평가 가능
- 분류 모델에 따라
값이 달라지므로 귀무분포를 고려해야 함
분포간 거리 측도
원본자료와 재현자료에서 각 변수의 분포를 각각 계산하여 유용성 판단 가능
변수간의 상관성 고려 못함
-
KL괴리도
- Kullback-Leibler
-
Wasser-stein 거리
신원 노출 위험도
Notation | 설명 |
---|---|
n | 원본(재현)자료 관측치 개수 |
원본자료의 i번째 관측치에 대해 준식별자 값이 같은 관측치 개수 | |
원본자료의 i번째 관측치의 민감 변수 값 | |
원본자료에서 |
|
1- |
|
원본자료의 i번째 관측치와 연결된 재현자료 민감 변수 값 | |
원본자료에서 |
-
민감변수: 준식별자를 제외한 나머지 변수
- 민감변수(명목형)
- 민감변수(연속형): k-means를 이용해 값을 군집화하고 부등식 확인
MAD:중위절대편차
원본자료의 i번째 관측치에서 위 부등식을 만족하는 민감벼눗의 비율이 5% 이상이면 1, 그렇지 않으면 0
-
신원 노출 위험도
작을수록 신원 추출 가능성이 작아짐
- 구현 시간이 오래 걸림
- 준식별자와 민감 변수로 구분시 명확한 기준이 없음
속성 노출 위험도
공격자가 개인의 신원을 식별할 수는 없지만 특정 민감한 변수의 속성을 추론할 수 있을때 발생
완전 재현자료여도 속성 노출 위험도 항상 존재
-
CAP(correct attribution probability)
공격자가 원본자료의 일부 변수(K:key bariables)를 가지고 있고 하나의 특정 변수의 값에 대하여 알고자 하는(T:target variable) 상황에서 계산
와 모두 범주형이어야 계산 가능, 연속형 변수는 K-MEANS를 실시하여..
α-정밀도, β-재현율, 독창성 점수
- 원본자료와 재현자료의 토대를 추정
- 테이블, 이미지 등 다양한 형태 데이터 져핸에 대한 평가 지표
- 잠재공간으로 임베딩시 hyperparameter설정에 따라 결과가 다르게 나옴
-
α정밀도
- 재현자료가 원본자료를 얼마나 충실하게 재현하는가
- 재현자료 유용성 측정지표
- α정밀도가 높은 재현자료는 현실성이 높은 관측치를 포함
원본 데이터
-
β재현율
- 재현자료가 원본자료의 다양성을 충분히 반영하는가
- 재현자료 유용성 측정지표
- β재현율이 낮은 재현자료는 원본자료의 일부만을 반복적으로 재현
-
독창섬점수 - 재현자료를 얼마나 원본자료에 존재하지 않는 새로운 관측치들을 만들어 내는가 - 정보노출의 위험성 측정 지표 - 재현자료가 원본자료를 과적합하여 그대로 사용하고 있는지?