1-(2) EDA(Exploratory Data Analysis)란 |        Serendipity                                                                                                                                                                                                                                                                                                                                                                                   
Post

1-(2) EDA(Exploratory Data Analysis)란

1-(2) EDA(Exploratory Data Analysis)란

🟢 (2) EDA(Exploratory Data Analysis)란 무엇인가요?

⚪ Intro

현재 스프린트 과정에서는 머신러닝의 초입 단계인 데이터 분석 단계를 진행중이다. 대표적으로 pandas라는 통계 패키지를 활용하여 각종 데이터를 분석해보는 실습을 진행중에 있다. 개인적으로 예전에 머신러닝 수업을 몇개 듣기도 했고 코드잇 국비지원으로 데이터분석 과정도 수료한 기억이 있어서 DataFrame을 다루는데 약간 자신이 있었지만 EDA는 처음 듣는 개념이라서 이번 수업중에 당황했던 기억이 있다.


⚪ 새로운 머신러닝 기법?

EDA라는 개념을 찾기 위해 예전에 공부했던 머신러닝 책 2권을 다시 들춰봤지만 EDA라는 개념을 찾을 수는 없었다. 그래서 머신러닝 기법에 무언가 새로운 수학적인 접근 방식이 나왔다고 생각하고 수업을 들었지만… 듣고 나니 상당히 일반론적인 얘기라서 당황했다. 구글링도 해보고 GPT에게도 물어봤지만 일반적인 데이터 분석을 하는 과정을 길~게, 장황하게 설명하고 있었다.


⚪ 일반적으로

데이터를 다루는 직군에서는 데이터로부터 인사이트를 얻기 위해 여러가지 시도를 한다. 특히 가장 기본적이면서 중요한 통계적 베이스를 바탕으로 하는 분석은 연구자부터 실무자까지 필수적으로 하고 있으며 이를 통해 논문도 나오고 회사의 의사 결정도 하게 될 것이다. 물론 이런 높은 레벨에서는 다루게 되는 데이터의 복잡도가 매우 높기 때문에 숙련된 데이터분석가가 (말그대로) 탐색적인 분석을 시도할 것이며, 나도 대학원에서 아침 마다 하는 일과가 내가 밤새 돌렸던 데이터의 correlation coefficient 확인하는 과정이었다.


⚪ 한마디로 요약하면

EDA는 데이터 분석 기법에서 나온 기본적인 방법론이며 특정한 수학적인 접근 방식이 아니라 데이터를 탐색하며(exploratory) 데이터의 통계적인 인사이트를 얻는 기법이라고 보면 될것 같다.


🟢 예시 답안 (코드잇 제공)

EDA, 즉 탐색적 데이터 분석(Exploratory Data Analysis)은 데이터를 이해하고 분석하기 위해 데이터를 탐구하는 과정입니다. 이 과정은 데이터 분석의 첫 단계로, 데이터를 시각화하거나 요약 통계를 계산하면서 데이터의 구조와 특성을 파악하는 데 중점을 둡니다. 주된 목표는 데이터를 통해 숨겨진 패턴을 발견하고, 이상치나 결측값처럼 해결해야 할 문제를 찾아내며, 변수 간의 관계를 탐구하는 것입니다. 예를 들어, 고객 데이터를 분석할 때 연령별 구매 금액의 분포를 확인하거나 구매 빈도와 금액 간의 관계를 탐색하는 것이 EDA에 해당합니다. EDA에서는 주로 평균, 분산과 같은 요약 통계 계산, 히스토그램이나 산점도와 같은 그래프를 활용한 시각화 기법이 사용됩니다. 이를 통해 데이터의 특성과 문제를 명확히 이해하고, 이후 모델링이나 분석의 방향성을 정하는 데 중요한 역할을 합니다.

This post is licensed under CC BY 4.0 by the author.

© 2025 Soohyun Jeon ⭐

🌱 Mostly to remember, sometimes to understand.