🪙

디사일로 DCR을 활용한 2030 세대의 금융 라이프 스타일 연구

🌐
KO
생성 일시
Feb 6, 2024 05:22 AM
🗓️
Jan 5, 2024
🗂️
데이터분석
DCR
📑
디사일로 DCR로 어떤 데이터 분석을 할 수 있을까요?
안녕하세요, 디사일로 사업개발팀의 Business Analyst 고유진입니다😊
 

👉🏻지난 이야기

참고: 한국데이터마이닝학회 2023 추계학술대회 소회
지난 11월 7일, 디사일로가 한국데이터마이닝 학회(KDMS) 2023 추계학술대회에서 발표했다는 사실, 기억하시나요?
저희는 금융•경영 데이터마이닝 세션에서 “프라이버시 강화 기술을 적용한 개인 금융 데이터 분석 시나리오 개발” 주제로 발표를 진행했습니다.
 

👉🏻데이터 분석 시나리오가 무엇인가요?

디사일로의 사업개발팀은
“DDCR로 실제 산업에서 쓸 수 있는 유의미한 데이터 분석을 할 수 있을까?”
라는 원천적인 질문을 해왔습니다.
특히 DDCR이 도움이 될 것으로 예상되는 학계의 연구자들과 마케터들이 실제로 DDCR을 유용하게 활용할 수 있을지 테스트하는 것이 필요했습니다.
따라서 크게 연구자와 마케터로 사용자를 나누어, DDCR을 활용해 데이터를 분석하고 유의미한 인사이트를 도출하는 과정을 시뮬레이션 해보았는데요, 이것이 바로 데이터 분석 시나리오입니다.
이번 글에서는 두 가지 데이터 분석 시나리오 중 연구자용 시나리오에 대해 먼저 다룰 예정입니다!
 

👉🏻연구자용 시나리오의 특징?

연구자의 경우, 일반적으로 연구를 진행하는 과정에서 특정 가설을 데이터로 입증하는 형태로 데이터가 활용됩니다.
따라서 가설 검증 형식으로 연구자용 시나리오를 구성하였습니다🔍
 

👉🏻연구자용 시나리오 주제

💸
“2030 세대의 금융 라이프 스타일 세분화 연구”
 

주제 선정 배경

DDCR 탑재 데이터 설명 (출처: 디사일로)
DDCR 탑재 데이터 설명 (출처: 디사일로)
 
현재 DDCR에 탑재된 데이터는 누적 회원 약 850만 명의 마이데이터 기업 B사의 개인 소비 및 자산 데이터이며 그 중 10,000명의 샘플 데이터를 사용할 수 있습니다.
이 데이터를 통해 개인의 소비금액 뿐만 아니라 소득, 자산, 투자, 건강 등 한 개인의 금융 라이프 스타일을 종합적으로 확인할 수 있다는 점이 큰 장점입니다.
해당 데이터는 가공되지 않은 금융 라이프 스타일에 대한 기록으로 구성돼있습니다. 특히 소비 데이터의 경우 특정 카드 사용 내역이 아닌 유저의 실소비 내역이 모두 담겨 있기 때문에 유저의 더 정확하고 완전한 금융 상태를 파악할 수 있습니다.
 
DDCR의 WHERE, GROUP BY, HAVING 등의 SQL기반 쿼리를 사용하면 위 데이터 중 사용자가 원하는 조건에 맞는 데이터만 세분화하여 조회할 수 있습니다.
또한 마이데이터 특성상 2030 세대 위주로 구성돼있기 때문에 DDCR의 데이터는 요즘 세대가 돈💰을 어떻게 사용하고, 어떤 라이프 스타일🧑🏻‍💻을 영위하는지 구체적으로 확인하기에 제격이었습니다 :)
 
DDCR을 활용한 2030 세대의 금융 라이프 스타일 세분화 연구 개요 (출처: 디사일로)
DDCR을 활용한 2030 세대의 금융 라이프 스타일 세분화 연구 개요 (출처: 디사일로)
 
위의 연구 개요에서 나타난 것과 같이, 최근 사회가 개인화되면서 성별처럼 전통적인 인구통계학적 요소에 따라 패턴이 형성되기보다는 그 안에서도 여러 요소에 의해 많은 세부 집단이 생겨나고 있습니다.
세분화 연구를 통해 라이프 스타일의 경향성을 형성하는 세부적인 요인을 파악한다면, 이를 바탕으로 소비자 스스로도 몰랐던 자신의 다양한 취향을 저격하는 맞춤 서비스가 나올 수 있겠죠?
이런 초개인화 서비스들이 많아지면 다양한 산업군 전반이 활성화됨과 동시에 사람이 살기에 한층 더 편안한 세상🌍이 될 것입니다.
 
따라서 DDCR 데이터의 특성과 세분화 연구의 필요성을 바탕으로 “2030 세대의 금융 라이프 스타일 세분화 연구”를 연구자용 데이터 분석 시나리오의 주제로 결정했습니다.
notion image

👉🏻연구자용 시나리오 내용

연구자용 시나리오는 소비에 영향을 주는 요인을 크게 1) 성별, 2) 연령, 3) 체중 세 가지로 나누어 가설을 수립했습니다.
 
가설 1. 여성이 남성보다 식사와 쇼핑에 쓰는 금액이 더 클 것이다.
인스타그램과 같은 SNS를 보다보면 여성 유저가 맛있고 예쁜 식당🍽️, 다양한 옷👗을 업로드하는 모습을 쉽게 찾아볼 수 있습니다.
그렇다면 주로 여자가 남자보다 식사와 쇼핑에 더 많은 돈을 쓰지 않을까요?
이 가설을 검증하기 위해서는 성별에 따라 식사와 쇼핑에 평균적으로 소비하는 비용을 확인해야 합니다.
가설 1을 검증하기 위한 DDCR의 쿼리 정보 (출처: 디사일로)
가설 1을 검증하기 위한 DDCR의 쿼리 정보 (출처: 디사일로)
 
DDCR에 탑재된 소비 데이터에는 소비 대분류를 의미하는 “parent_category”라는 항목이 있는데요,
SQL형식의 쿼리 중 WHERE를 통해 parent_category를 (“식비”, “온라인쇼핑”, “옷”, “패션/쇼핑”, “뷰티/미용”) 항목으로 제한하여 식비와 쇼핑에 관련된 소비내역만 조회하였습니다.
그리고 성별과 연령대를 GROUP BY의 기준으로 설정하여 성별과 연령대에 따른 데이터를 추출하였습니다.
 
DDCR에서 추출된 결과 테이블 (출처: 디사일로)
DDCR에서 추출된 결과 테이블 (출처: 디사일로)
 
 
(출처: 디사일로)
(출처: 디사일로)
 
위 쿼리로 도출된 테이블을 CSV파일로 다운받아 파이썬 그래프로 시각화한 결과입니다.
여성이 남성보다 식사와 쇼핑에 쓰는 금액이 더 클 것이라는 가설과 달리 2~30대는 남성의 평균 소비금액이 더 컸고 4~50대는 여성의 소비금액이 더 커큰 것이 보이네요!
왜 40대부터는 여성의 소비금액이 오히려 더 커지는걸까요?
가설을 검증하기 위해 데이터를 확인한 결과 그래프에서 전환점이 발견되었고, 전환점은 이처럼 또 다른 의문을 제기하며 연구자들에게 새로운 연구 소재🗝️가 될 수 있을 것 같습니다.
 

 
가설 2. 20대의 식비 및 쇼핑 결제 금액이 다른 연령대에 비해 작을 것이다.
두 번째 가설의 경우, 20대는 사회 초년생이기에 음식이나 쇼핑에 평균적으로 소비하는 비용이 다른 연령대보다 상대적으로 적을 것이라는 생각에서 착안하였습니다.
 
(출처: 디사일로)
(출처: 디사일로)
 
확인해보니 정말 20대가 다른 연령대에 비해 식사나 쇼핑에 평균적으로 쓰는 돈이 적다는 것을 알 수 있었습니다. 아마 가설대로 20대는 주로 학생 혹은 사회 초년생으로 이루어져있기 때문이겠죠?
또 온라인 쇼핑이 포함된 소비생활의 technology take up 정도가 연령대별로 다르게 분포돼있을 것이라고 유추해볼 수 있습니다.
이렇게 DDCR을 통해서 뉴스 어디선가에 나와있는 광범위한 통계자료가 아니라 “식비”, “온라인쇼핑”, “뷰티/미용” 등 원하는 카테고리를 설정해서 연구 목적에 딱 맞는 데이터를 확인하고 가설을 검증할 수 있었습니다 :)
 

가설 3–1. 20대 중 체중 상하위 1%를 비교했을 때 성별과 상관없이 체중 상위 1%가 식비에 소비하는 금액이 더 클 것이다.
지금부터는 과연 체중과 소비가 연관이 있을까?라는 생각에서 나온 가설들을 검증해보려고 합니다.
실제로도 학계에서 신장, 체중과 같은 기본 건강 정보와 식생활 라이프 스타일, 신체 관련 소비, 의복 소비, 웰빙 소비 등의 소비 행태의 관계에 관한 연구가 활발하게 진행된다고 합니다!
식비에 평균적으로 쓰는 금액과 체중은 상관관계가 있을까요?
 
체중 하위 1%는 범례에서 백분위 0으로, 체중 상위 1%는 백분위 100으로 표기 (출처: 디사일로)
체중 하위 1%는 범례에서 백분위 0으로, 체중 상위 1%는 백분위 100으로 표기 (출처: 디사일로)
 
DDCR의 체중 백분위 컬럼을 통해 체중 상위 1%, 하위 1%의 평균 식비 결제 금액을 성별로 나누어 확인해보았습니다.
여성은 체중 하위 1%의 식비 소비가, 남성은 체중 상위 1%의 식비 소비가 더 크다는 결과를 얻을 수 있었습니다.
마른 여성의 평균 식비 소비 금액이 더 큰 이유는 다이어트 관련 식품이나 건강식의 가격이 상대적으로 비싸기 때문이지 않을까하는 새로운 가설을 생각해볼 수 있습니다.
남성의 경우 식사량과 식비가 비례하기 때문일 것이라는 또 다른 가설이 떠오르네요!
 
가설 3–2. 20대 중 체중 상하위 1%를 비교했을 때 성별과 상관없이 체중 하위 1%가 쇼핑에 소비하는 금액이 더 클 것이다.
이번에는 체중과 쇼핑 소비의 상관관계를 확인해보려고 합니다.
과연 체중의 차이가 쇼핑의 소비패턴과 연관성이 있을까요?
 
(출처: 디사일로)
(출처: 디사일로)
 
데이터 분석 결과, 여성은 체중 하위 1%가, 남성은 체중 상위 1%가 쇼핑에 소비하는 금액이 더 크다는 것이 확인되었습니다.
여성의 경우 체중 하위 그룹이 꾸미는 것💄에 관심이 많아 평균적으로 쇼핑에 사용하는 금액이 더 큰 경향이 있을 수 있다는 새로운 가설을 수립할 수 있었습니다.
남성의 경우 여성과 반대로 체중 상위 1%가 쇼핑에 소비하는 금액이 더 큰 이유가 궁금해지네요. 빅사이즈 옷이 더 비싸기 때문일까요?
 
가설 3–3. 20대 체중 상하위 1% 데이터에서 성별에 따라 식비 및 쇼핑 결제금액이 유의미하게 다르다.
위의 분석 결과에서 확인해보니 식비와 쇼핑 모두 성별에 따라 체중별 소비금액이 달랐습니다. 그러면 식비나 쇼핑에 소비하는 습관은 성별에 영향을 받는 것이 아닐까요?
 
가설 3–3을 확인하기 위한 ANOVA 쿼리 정보 (출처: 디사일로)
가설 3–3을 확인하기 위한 ANOVA 쿼리 정보 (출처: 디사일로)
 
이를 확인해보기 위해서 DDCR의 ONE-WAY ANOVA를 활용해 성별과 소비금액간의 상관관계를 분석해보았습니다.
 
성별-식비 및 쇼핑 결제 금액 ONE-WAY ANOVA 분석 결과 (출처: 디사일로)
성별-식비 및 쇼핑 결제 금액 ONE-WAY ANOVA 분석 결과 (출처: 디사일로)
 
분석결과 p-value가 0.01 이상으로 상관관계가 유의미하지 않다는 결론이 났습니다!
위 그래프들에서 식비 및 쇼핑 결제 금액이 성별에 따라 다른 양상을 보이는 것은 보이는 것과 달리 성별과 유의미한 상관관계가 있어서가 아니라 다른 요인으로 인해, 혹은 비선형관계로 인해 그래프상의 차이가 발생했다고 유추해볼 수 있습니다.
 
가설 3–4. 20대 중 체중 상하위 1%를 비교했을 때 남자는 체중 상위 1%가, 여자는 체중 하위 1%가 패션 및 뷰티에 소비하는 금액이 더 클 것이다.
위에서 쇼핑과 관련된 분석을 하다보니 쇼핑 중에서도 구체적으로 패션이나 뷰티에 소비하는 금액이 체중과 연관이 있는지 궁금해졌습니다.
앞선 그래프에서 본 것과 같이 여성은 체중 하위 1%가, 남성은 체중 상위 1%가 패션 및 뷰티에 더 많이 소비를 할까요?
 
(출처: 디사일로)
(출처: 디사일로)
 
예상과는 다르게 남녀 모두 체중 하위 1%가 패션, 뷰티에 더 많이 소비하는 편이라는 결과가 나왔습니다! 성별과 무관하게 체중이 적게 나가는 사람들이 패션이나 뷰티에 쓰는 금액이 더 크네요 :)
그럼 패션과 뷰티의 경우 체중이 소비에 영향을 주는 요소이지 않을까요?
 
가설 3–5. 성별과 상관없이 체중에 따라 패션 및 뷰티에 소비하는 금액이 유의미하게 다르다.
이 가설 또한 DDCR을 통해 검증해볼 수 있었습니다!
 
체중-패션 및 뷰티 소비금액 ONE-WAY ANOVA 분석 결과 (출처: 디사일로)
체중-패션 및 뷰티 소비금액 ONE-WAY ANOVA 분석 결과 (출처: 디사일로)
 
검증 결과 p-value가 0.01이하인 것으로 보아, 체중과 패션/뷰티 소비는 유의미한 상관관계가 있군요!
가설 3–4에서 성별을 불문하고 체중 하위 1%의 패션 및 뷰티 소비금액이 더 높은 것은 실제로도 20대의 체중이 패션 및 뷰티 관련 소비에 유의미한 영향력을 가지기 때문이라는 것을 알 수 있습니다.
 
일반적으로 한 사람의 건강정보와 소비습관을 한 번에 조사하지 않기 때문에 기존의 통계자료에는 소비와 건강 데이터가 따로 존재하는 경우가 많습니다.
그래서 DDCR 사용 전에는 소비와 건강의 상관관계가 궁금해도 연관지어 분석해보기 어려웠는데요, DDCR에는 한 개인의 금융 라이프 스타일에 대한 정보가 한데 모여있기 때문에 포괄적인 데이터 분석이 가능하고 새로운 인사이트를 도출할 수 있어서 연구에 활용하기에 딱💡이라는 생각이 들었습니다 :)
특히 파이썬이나 R과 같은 언어에 익숙해야만 해볼 수 있던 ANOVA 분석을 DDCR에서는 클릭 몇 번을 통해 ANOVA를 진행하여 근거 있는 상관관계 분석이 가능하다는 점도 정말 편리했습니다.
 

 
DDCR을 활용한 연구자 데이터 분석 시나리오, 어떠셨나요?
개인 금융 소비자를 연구하는 연구자들이 이러한 가설들을 수립하고 그 가설을 검증하는 과정에서 DDCR을 유용하게 사용할 수 있을 것 같죠?😎
 
다음 글은 마케터들은 DDCR을 어떻게 사용하고 마케팅에 필요한 인사이트를 도출할 수 있을지를 보여주는 마케터용 시나리오입니다 :)
마케터용 시나리오도 기대해주세요🙌🙌
 
notion image
 
디사일로에 대해 궁금하다면 desilo.ai 및 링크드인에서 다양한 소식을 보실 수 있습니다.
 
notion image
 
 

참고자료

  • 김인숙. 2016. ‘의복소비가치에 따른 집단별 외모관리행동의 차이’, 한국의류산업학회지, 18(5), 606–616.