안녕하세요, 디사일로 사업개발팀의 Business Analyst 고유진입니다😊
다들 데이터 유출 때문에 스팸 전화가 오거나, 내 개인정보가 어디까지 유출됐는지 걱정한 경험이 있으시죠?
오늘은 개인정보 유출 없는 안전한 데이터 협업을 위해 디사일로가 개발한 ‘디사일로 데이터 클린룸(DESILO Data Clean Room)’을 소개하겠습니다!
👉🏻디사일로 데이터 클린룸은 무엇인가요?
디사일로 데이터 클린룸(이하 DDCR)이란 완전동형암호를 기반으로 한 데이터 공유·협업 솔루션입니다.
데이터 공급자가 DDCR에 데이터를 업로드하면, 데이터 수요자는 DDCR을 통해 동형암호화된 데이터에 AVERAGE, One-way ANOVA, Pearson correlation coefficient 등 다양한 통계 연산을 적용하여 데이터를 파악하고 유용한 인사이트를 얻을 수 있습니다.
동형암호의 성질을 활용해서 원본 데이터의 유·노출 가능성을 원천적으로 차단하기 때문에, 민감한 개인정보는 보호하는 동시에 사용자 간 데이터를 공유하고 분석할 수 있습니다.
👉🏻동형암호는 무엇인가요?
동형암호는 암호문 상태에서 연산이 가능한 암호화 기술입니다.
기존 암호화 방식으로 처리된 데이터는 연산을 위해 필수적으로 복호화를 거치게 됩니다. 그 순간부터 연산 후 다시 결과값이 암호화되기까지의 구간은 정보 유출 가능성이 높아지게 되는 것이죠.
하지만 동형암호는 복호화 과정이 필요 없는, 암호문 상태에서 연산이 가능한 기술이기 때문에 기존 암호화 방식의 취약점이던 “연산 구간 중 정보 유출 위험”이 현저히 낮아지게 됩니다. 그 중 완전동형암호의 경우 덧셈과 곱셈 연산 모두를 보존할 수 있어 데이터 분석, AI 학습 등에 적용할 수 있습니다.
완전동형암호 기술이 적용되었기 때문에 DDCR에서는 중간에 원본 데이터가 노출되거나 개인정보가 유출될 걱정 없이 사용자들이 데이터를 제공하고, 또 안전하게 다양한 분석을 할 수 있습니다.
👉🏻디사일로 데이터 클린룸은 왜 필요한가요?
최근 개인화를 넘어 소비자의 잠재적 니즈까지 타겟하는 “초개인화 서비스”가 확산되고 제3자 ‘쿠키’ 수집이 중단되면서 개인정보가 포함된 데이터의 가치가 주목받고 있습니다.
특히 서비스의 차별화와 고도화를 위해 금융·의료분야의 데이터를 분석하려는 수요가 증가하고 있습니다. 소비활동에서 디지털 기술과 미디어의 활용이 활성화되면서 온/오프라인 결제 데이터로 개인의 라이프스타일을 측정할 수 있고, 디지털 헬스케어의 가속화로 의료 데이터가 방대해지면서 질병 진단이나 예방 기능이 개선될 수 있기 때문입니다.
그러나 금융이나 의료 같이 개인 정보가 유출될 시 프라이버시 침해 피해의 정도나 규모가 큰 민감 데이터는 쉽게 활용되지 못하고 있습니다. 예를 들어, 금융 데이터를 활용하는 과정에서 개인의 신용카드 정보가 유출된다면 이는 개인의 금전적 피해로 직결되고 그 피해 규모는 무한히 커질 수 있습니다. 의료 데이터 또한 유출된다면 사이버 범죄자가 악용사기 청구, 협박, 처방약 및 의료기기 주문 등으로 쉽게 수익을 창출할 수 있는 구조입니다.
하지만 DDCR을 활용한다면, 민감 데이터에서 보호되어야 할 개인 정보는 지키되 데이터로부터 연구나 서비스에 필요한 정보를 추출할 수 있습니다.
따라서,
- DDCR은 데이터 보호와 활용 간의 충돌 문제를 해결하여 그간 제한적이었던 민감 데이터의 활용을 활성화시키고
- 다양한 산업군에서 고부가가치를 창출할 수 있는 열쇠가 될 수 있습니다.
👉🏻디사일로 데이터 클린룸은 어떻게 사용하나요?
DDCR은 언제, 어디서든 접속할 수 있는 웹 형태의 서비스입니다.
필요에 따라 자유롭게 접속하여 데이터에 대한 다양한 통계 분석을 수행하고 인사이트를 도출할 수 있습니다.
먼저, 데이터 분석가는 검증하고자 하는 가설인 프로젝트를 생성합니다.
그 다음, 해당 프로젝트를 검증하기 위한 데이터 분석 쿼리인 워크플로우의 정보를 입력합니다. 워크플로우는 SQL 형태의 쿼리문을 작성하여 생성할 수 있습니다.
이때 데이터 분석가는 데이터 제공자로부터 사용할 데이터 에셋 및 쿼리문에 대해 승인을 받아야 분석을 진행할 수 있습니다.
승인 요청이 수락되면 작성한 워크플로우의 aggregate statistics(집계 통계)값이 표 형태로 화면 하단에 보여집니다.
단, 분석가가 GROUP BY를 사용했을 경우 group 내 row 수가 최소 취합 기준보다 적다면 해당 그룹에 대한 연산 결과는 결과창에 출력되지 않습니다. 특정 데이터 노출로 대상이 식별되는 것을 방지하기 위함입니다.
👉🏻디사일로 데이터 클린룸에서 원본 데이터를 열람할 수 없음에도 유의미한 데이터 분석을 할 수 있나요?
네, 가능합니다!🙆🏻♀️
디사일로는 실제로 DDCR을 사용했을 때 데이터 프라이버시는 보호하면서 연구나 업무에 유용한 분석이 가능한지 확인해보았습니다.
샘플 데이터로 시뮬레이션을 수행하여 DDCR의 분석결과가 연구자의 가설을 뒷받침 할 수 있는 근거나 마케터가 고객 타겟팅을 하기 위한 트렌드 인사이트를 제공할 수 있는지 검증했습니다.
이를 바탕으로 한국데이터마이닝학회에서 주최하는 추계학술대회에 참여하여 발표를 진행하기도 했는데요, 자세한 검증 결과는 이후 블로그에서 확인해보실 수 있습니다😊