한국데이터마이닝학회 2023 추계학술대회 소회

🗓️
Nov 15, 2023
🌐
KO
🗂️
디사일로 Story
행사/이벤트
📑
‘초거대 AI 시대의 데이터마이닝’ 금융·경영 세션 발표를 진행하다
안녕하세요, 디사일로 사업개발팀의 Business Analyst 박지윤입니다. 사업개발팀에서 금융업, 의료업, 학계 등에 필요한 데이터 분석 쿼리 시나리오를 제작하고 검증하는 일을 하고 있습니다.
지난주(11/7) 한국데이터마이닝학회(KDMS) 2023 추계학술대회에 다녀왔습니다! 😊
 
23/11/06(화) 양재동 엘가든에서 열린 KDMS 2023 (2) 발표자 박지윤(좌), 고유진(우)
23/11/06(화) 양재동 엘가든에서 열린 KDMS 2023 (2) 발표자 박지윤(좌), 고유진(우)
 

👉🏻 KDMS 2023이란?

KDMS 2023은 ‘초거대 AI 시대의 데이터마이닝’을 주제로 개최되어, 데이터마이닝·머신러닝·딥러닝 및 관련된 다양한 분야의 연구자들이 참여했습니다.
현재 AI분야에서 가장 뜨거운 주제인 생성형 AI 강연으로 행사가 시작됐고, 학생논문경진대회 6개 세션과 일반논문 4개 세션으로 진행됐습니다.
 
KDMS 2023 일정표
KDMS 2023 일정표
 
초거대 AI라는 새로운 흐름에 데이터마이닝이 어떻게 기여할 수 있는지 논의하고, 그 한계를 극복할 수 있는 연구를 다뤄본 자리였습니다.
금융·경영, 제조, 의료, 산업 등 데이터마이닝 세션이 굉장히 세분화돼서 많은 인사이트를 얻을 수 있었습니다.
 
KDMS 2023 일반논문 세션
KDMS 2023 일반논문 세션
 

👉🏻 이번 학회 발표가 가지는 의미는?

디사일로는 ‘금융·경영 데이터마이닝’ 세션을 배정받아 발표를 진행했습니다.
그간 상용화된 데이터 분석에는 프라이버시 강화 기술(Privacy Enhancing Technologies, PETs)이 많이 다뤄지고 있지 않았지만, 데이터마이닝학회의 금융·경영 세션에서 저희가 준비한 내용이 발표 주제로 정식 채택된 게 인상 깊었습니다.
학계에 데이터 보호와 활용에 대한 적정선을 논의하는 장을 열었다는 점에서 의미가 크다고 생각합니다.
디사일로는 PET 분야가 생소한 연구자분들, 그리고 이 글을 읽는 독자분들에게 새로운 시각을 전하고자 했으며, 그 여정은 지금도 계속되고 있습니다!🚗
 

👉🏻 이번 발표를 통해 어떤 이야기를 전하고자 했나요?

디사일로는 동형암호 기반 안전한 데이터 협업 솔루션, 디사일로 데이터 클린룸(DDCR)을 개발했습니다.
DDCR을 활용한 데이터 분석이 실제 산업에서 활용 가능한 인사이트를 도출할 수 있다는 것을 검증하기 위해 쿼리 시나리오를 제작해 발표했습니다.
데이터 보호에 많은 노력을 기울이는 것이 오히려 민감한 데이터에 대한 분석을 활성화시킬 수 있습니다.
 
디사일로 금융·경영 데이터마이닝 세션 발표 장면
디사일로 금융·경영 데이터마이닝 세션 발표 장면
 
연구자용 시나리오에서는
2030 세대의 금융 라이프 스타일 세분화 연구를 주제로, ‘20대 여성 중 체중 상위 1%가 체중 하위 1%보다 카페/간식에 소비하는 금액이 더 클 것이다’ 등 가설 검증을 진행했습니다.제품상에서 계산한 p-value와 One-way ANOVA 테스트 결과로 유의미한 상관관계가 존재한다는 것을 밝혔습니다.
마케터용 시나리오에서는
세분화 마케팅 전략을 도출하기 위해 투자 성향과 소비 패턴 간 상관분석을 진행하고, 일반적인 자산 기준 특정 타켓층의 소비 트렌드를 파악했습니다.예를 들어, ‘여행에 10만 원 이상 지출한 20대가 선호하는 금융상품 top 5’를 뽑아보니 항공사, 선박회사에 많은 투자를 한다는 것을 알아냈습니다. 따라서 여행과 같이 20대 취미 분야를 파악해 친숙한 분야에 대한 투자를 유도하는 프로모션 방안을 제안했습니다.
 
그간 치열한 고민과 논의를 거쳐 만든 분석 시나리오와 가설 검증 아이디어로 학회에서 발표하고 서로 질문을 던지고, 더 나은 주제에 대해 탐색하게 하는 자극을 받았던 좋은 자리였습니다.
 

👉🏻 행사 당일 발표를 진행한 소감은?

QnA 시간도 굉장히 열정적으로 진행되었는데 다들 세세한 부분까지 집중해서 들어주신다는 걸 느꼈습니다 👍🏻
 
한 연구자분께서 “동형암호가 연산 끝까지 적용되는 게 맞나요? 결국은 디사일로 제품도 복호화 과정은 거친 것 아닌가요? p-value 에 e-17이 붙은 걸로 보아 동형암호 연산으로 나올 수 있는 값이 아닌 것 같아 보여서요” 라며 수치 하나도 넘기지 않고 예리한 질문을 던져주셨습니다.
 
발표 시간상 설명하지 못한 부분이어서 QnA 시간을 통해 자세한 답변을 드렸습니다.
 
“f-stat과 p-value의 경우, 궁극적으로 sum of squares 값들이 계산되어야 합니다. DDCR은 이 sum of squares가 closed form으로 표현 가능하다는 지점을 활용합니다. 먼저 사용자로부터 쿼리가 들어오면, 요청된 변수에 한해 정보가 동형암호화됩니다. 이후, closed form equation의 재료가 되는 수치들, 즉 sum(x), sum(x²), sum(1)과 같은 aggregate 값들이 동형암호화 된 상태에서 연산이 됩니다. 이 aggregate 값들이 복호화된 후 후처리 단계에서 조합되어 f-stat과 p-value가 최종적으로 계산됩니다. 즉, row data에서 aggregate 수치 연산까지 동형암호화 된 상태로 진행되며, 중간에 복호화는 일어나지 않습니다. 추가로, DDCR에는 당사 데이터 거버넌스의 일환으로 minimum aggregate threshold 정책이 적용되고 있습니다. 어떤 aggregate 값이 암호화된 채로 계산되어 복호화를 거치더라도, 그룹 내 표본 수가 threshold 이하면 그 결괏값은 출력되지 않습니다”라고 설명했습니다.
 
이처럼 세세한 QnA를 진행하며, 제품의 작동 과정을 좀 더 많은 분께 납득시킬 수 있도록 노력해야겠다고 느꼈습니다. 또한 PET 분야를 더 많이 알리고 더 나은 분석 주제를 탐색해야겠다는 자극을 받은 좋은 자리였습니다.
 

👉🏻발표 준비 비하인드가 있다면?

“이런 좋은 내용은 널리 알려야 한다.”
매월 한 팀씩 돌아가면서 진행 중인 업무·사업 추진 현황을 공유하는 ‘릴레이 캐치업’이라는 디사일로만의 행사가 있습니다 🙌
 
디사일로 릴레이 캐치업 행사 장면
디사일로 릴레이 캐치업 행사 장면
 
지난 9월, 사업개발팀 차례가 되어 그동안 제작해 둔 연구자용 및 마케터용 쿼리 시나리오를 공유했는데 내부 반응이 좋아 학회 발표까지 빠르게 추진됐습니다.
저와 유진님의 첫 학회 발표였는데 적극적으로 도움을 주신 사업개발팀 혜진님, 용대님과 디자인팀 치상님께 감사드립니다 🙇‍♀️
 

👉🏻앞으로 계속될 디사일로의 행보를 기대해주세요!

이번 KDMS 2023에서는 금융·경영 세션으로 발표했지만 다양한 산업군에서도 사용이 가능한 만큼 여러 산업에서 use case를 만들고, Output Privacy를 보장하기 위해 Differential Privacy 등 PET를 계속 도입해 나가겠습니다.
다음 글에서는 KDMS 2023에서 발표한 연구자용 및 마케터용 시나리오를 자세하게 소개해드릴게요! 👋🏻
notion image
 
디사일로에 대해 궁금하다면 desilo.ai 및 링크드인에서 다양한 소식을 보실 수 있습니다.
 
notion image