EDA란? 데이터 분석 초보자를 위한 EDA 방법 5단계
콘텐츠를 작성할 때 주제 선정과 개요 작성이 중요하고, 상품을 기획할 때 문제 정의와 가설 수립이 중요하듯, 모든 작업에서 첫 단추를 잘 꿰는 것이 중요합니다.
데이터 분석 역시 마찬가지입니다. 데이터 분석의 첫 단추를 잘 꿰는 대표적인 방법은 EDA를 수행하는 것입니다.
EDA란 무엇이고, 구체적으로 어떻게 하는 것일까요? EDA의 뜻과 구체적인 방법을 초보자를 위해 알려드리겠습니다.
EDA 뜻, 데이터 분석에서 EDA란
탐색적 데이터 분석의 개념, 의미
EDA(Exploratory Data Analysis, 탐색적 데이터 분석)란 데이터 분석 초기에 데이터를 다양한 각도에서 관찰하고 이해하는 과정을 가리키는 말입니다. 벨연구소의 수학자 존 튜키가 개발한 데이터 분석 방법론이죠.
EDA는 데이터를 분석하고 결과를 내는 과정에서 지속적으로 해당 데이터에 대한 ‘탐색과 이해’를 기본으로 가져야 한다는 일종의 방법론, 자세, 태도를 가리키는 말이기도 합니다.
쉽게 말하면, 데이터를 분석하기 전에 시각적 자료나 통계값 등을 만들어서 자료를 직관적으로 바라보는 시간을 갖는 과정을 의미합니다.
데이터 수집 및 전처리 과정이 끝나면, 본격적으로 목적에 맞게 데이터 분석에 돌입하기 전에, 기본적으로 만들어볼 수 있는 차트, 그래프, 각종 평균 및 중앙값 등 통계치 등을 뽑아서, 한 발짝 물러나 객관적으로 바라보는 것이죠.

EDA가 중요한 이유
1. 데이터의 문제를 발견할 수 있다
EDA를 하게 되면, 데이터 수집 및 전처리 과정에서 미처 발견하지 못했던 문제를 발견할 수 있습니다.
2. 생각하지 못했던 패턴을 발견할 수 있다
실제 데이터를 수집해 펼쳐놓고 보면, 데이터 수집 전에 생각해보지 못했던 데이터 간의 패턴을 발견할 수 있습니다.
3. 후속 작업이 수월해진다
본격적으로 데이터 분석에 돌입할 때 사용할 데이터 분석 도구를 선정하는 데 도움이 됩니다. 또한 추가 자료 수집 여부를 결정하는 속도도 빨라집니다.

누구나 쉽게 할 수 있는 EDA의 방법
데이터 전문가가 아니어도 간단하게 할 수 있는 EDA 5단계
1단계 : 데이터의 전체 그림 보기
EDA의 첫 번째 단계는 불러온 데이터를 시각적으로 펼쳐보는 것입니다. 마치 탐사를 하기 전에 지도를 펼쳐놓고 전체 지형을 파악하듯, 데이터도 한눈에 볼 수 있게 펼쳐봐야 합니다.
가장 기본적인 표 형태로 데이터를 펼쳐본다면, 컬럼(열)에는 품목, 수량, 금액과 같은 항목이 들어갈 것입니다. 열을 둘러보면서 대략적으로 어떤 데이터 분석이 가능할지 미리 가늠해볼 수 있습니다.
로우(행)에는 각 데이터의 값이 들어갈 것이고, 행의 개수를 통해 데이터의 대략적인 양을 가늠할 수 있겠죠.
2단계 : 기초 통계 확인
기본적으로 떠올릴 수 있는 통계값들을 확인해봅니다.
평균(mean), 중앙값(median), 최대값/최소값(max/min), 분산/표준편차 등을 확인해볼 수 있습니다.
이를 통해 대략적인 통계 분포를 확인하고, 데이터가 한쪽으로 치우쳐 있거나 튀는 값이 있지는 않은지 등을 확인합니다.
3단계 : 시각화 해보기
숫자로만 이루어진 표가 아니라, 그래프 등의 시각화 차트로 데이터를 펼쳐보는 방법입니다.
데이터 분포를 펼쳐볼 수 있는 히스토그램, 범주형 데이터를 비교해보는 막대 그래프, 시간에 따른 변화를 볼 수 있는 선 그래프 등을 만들어봅니다.
4단계 : 이상치, 결측치 찾아보기
데이터를 탐색하다 보면 ‘어라, 왜 이렇게 값이 튈까?’ 하는 의문이 생기는 지점들이 눈에 보입니다.
이런 경우를 이상치(outlier)라고 합니다. 또한 데이터 값이 아예 누락된 결측치(missing value)도 발견할 수 있습니다.
예를 들어 조금이라도 숫자가 기록되어야 할 부분인데 아예 ‘0’으로 데이터 수집된 경우가 있거나, 반대로 과도하게 큰 숫자가 입력되어 있으면, 이는 이상치 또는 결측치일 가능성이 있으므로, EDA 단계에서 확인해봐야 합니다.
5단계 : 패턴, 관계 찾아보기
시각화 자료에서 데이터 간의 패턴, 관계를 찾아보는 단계입니다.
예를 들어 광고비를 많이 쓸수록 매출이 증가하는 패턴이 보인다면, 하나의 가설로 상정해둔 다음 후속 데이터 분석 작업에서 조금 더 면밀하게 가설을 검증해볼 수 있습니다.

EDA를 처음 시작하는 데이터 초심자를 위한 팁
하나, 작은 데이터부터 시작해보세요
처음부터 실제 인하우스 데이터, 실무에서 사용하는 데이터로 EDA를 하게 되면 데이터 양도 방대하고 다루기가 어려울 수 있습니다. EDA가 완전히 처음이라면, 특히 데이터 분석 직군이 아니라 마케터이거나 기획자라면, 우선은 샘플 데이터로 EDA를 해보세요.
둘, 파이썬(Python) 데이터 분석만 EDA는 아닙니다
온라인 상에 EDA 방법 등을 검색하면, 주로 Python을 통한 데이터 분석 방법이 나옵니다.
이 때문에 파이썬을 다룰 줄 모르는 분들은 데이터 분석을 할 때 EDA를 생략해버리기도 하는데요.
EDA는 꼭 파이썬으로 해야하는 것은 아닙니다. 엑셀, 구글 시트 등 스프레드시트만으로도 기본적인 EDA를 할 수 있으니, 데이터를 들여다봐야 하는 상황이라면 어떤 도구를 사용해서든 EDA를 해보세요.
셋, 질문을 던지는 습관을 가져보세요
서두에 언급했듯, EDA의 핵심은 데이터를 분석하면서 지속적으로 해당 데이터를 탐색하고 이해하고자 하는 일종의 자세, 태도입니다.
‘왜 매출이 감소했을까?’, ‘왜 사용자가 이때는 늘어났고 이때는 줄어들었을까?’ 이와 같은 질문들을 계속 던져보면서 호기심 어린 자세로 탐구하며 EDA를 진행하세요. 이러한 자세에서 의미있는 질문과 가설이 나오게 되고, 더 큰 가치를 안겨주는 데이터 분석으로 이어지게 됩니다.

외부 데이터 EDA로 마케팅 전략에 정확성을 더해보세요
타깃 고객이 남긴 최신의 결제・소비 데이터를 활용해보세요
디사일로는 마케팅 전략 수립, 시장 진출 전략 고도화, 신제품 개발 기획 등으로 고민하는 기업을 위해 빅데이터를 제공합니다.
기업 입장에서는 디사일로가 중개하는 방대한 분량의 빅데이터를 활용해, 실제 소비자들이 남긴 데이터를 뜯어보면서 데이터 인사이트를 얻을 수 있습니다.
예를 들어 2030세대 1만명의 소비・자산 데이터를 확인하면 카드 결제 내역, 계좌 잔고, 이자・배당 등 금융소득 정보는 물론 투자 종목 및 액수 데이터, 건강검진 데이터, 보험 데이터 등을 열람할 수 있습니다.
이를 통해 나이・성별 등으로 나눈 특정 인구집단이 어떤 소비 패턴을 보이는지, 어떤 분야에 자주 돈을 쓰고 큰 돈을 쓰는지 등을 정량조사할 수 있습니다.
이러한 외부 데이터를 탐색적 데이터 분석(EDA)하는 과정을 통해 기업은 내부 데이터만으로는 절대로 얻을 수 없었던 차별화된 인사이트를 얻을 수 있게 됩니다.

✅ 함께 읽으면 좋은 콘텐츠 : 마이데이터로 소비자 마음 읽기 - 2030 1만명 쇼핑・식비 데이터 분석
다른 기업・기관의 데이터를 활용해 타깃 광고를 집행하면 광고 클릭율(CTR)이 15% 증가합니다. 또한 맥킨지에 따르면, 데이터 기반으로 브랜딩 전략을 수립하게 되면 ROI가 20% 증가하는 것으로 집계되었습니다.
이처럼 인하우스 데이터만으로는 충분하지 않을 때, 타 기업・기관의 외부 데이터를 탐색적 분석하는 것이 정량조사의 정확성과 효율을 높이는 방법입니다.

편리한 시각화를 제공하며, 암호화된 상태로 분석할 수 있습니다
디사일로 마켓인텔리전스(DESILO Market Intelligence, DMI)를 활용하면, 테이블이든 대시보드든 원하는 시각화 형태로 필요한 데이터를 뽑아서 활용할 수 있습니다.
EDA의 필수 과정 중의 하나인 데이터 시각화가 몇 번의 클릭으로 가능하도록 도와드립니다.
또한 기존의 데이터 분석 시 매우 불편하고 지난한 작업이었던 ‘데이터 협의 및 전처리 과정’ 없이, 실시간으로 데이터를 가져와서 곧바로 분석을 시작할 수 있어 만족도가 높습니다.
마케팅 및 기획 담당자이신가요? 담당하시는 직무에 맞춤형으로 제작한 형태로 데이터를 조합하여 제공하는 데이터 마켓 서비스를 먼저 둘러보세요.
외부 데이터로 마케팅 전략 수립에 정확도와 속도를 더하고, 고객의 실제 데이터를 기반으로 더욱 면밀하게 전략을 수립해보세요!
👉 디사일로 마켓인텔리전스 활용 방법 실제 사례 보러가기
👉 데이터 마켓 둘러보러 가기