Post

1-(3) 대표적인 데이터 전처리 방법인 결측값, 중복값, 이상치 처리에 대해

1-(3) 대표적인 데이터 전처리 방법인 결측값, 중복값, 이상치 처리에 대해

🟢 (3) 대표적인 데이터 전처리 방법인 결측값, 중복값, 이상치 처리에 대해 각각 설명해 주세요.

🟡 들어가며

데이터 전처리(Preprocessing)는 데이터를 본격적으로 활용하기 위한 어떤 작업을 하기 전에 미리 processing을 하는 과정이다. 과거 대학원 시절에도 이 preprocessing은 실험의 결과를 좌우한다고 해도 과언이 아닐 정도로 매우 중요한 과정이며 사실상 이걸로 논문 한편이 나올 정도로 중요한 부분이다. 만약 새로운 전처리 과정을 통해서 나의 실험의 결과를 유의미하게 이끌어냈다면 논문 제목에 Data-Driven이라는 멋있는 수식어를 넣을 수 있게 하는 중요한 작업이다.

🟡 이번 스프린트에서

다루게 되는 데이터 전처리는 가장 기본적이면서 중요한 작업인 3가지를 다뤘다. 우리가 사는 현실 세계에서 데이터는 특정값이 결측되기도 하며(Missing value), 값이 여러번 중복되어서 입력된 경우도 있으며(duplicated Value), 통계적으로 많이 벗어난 이상치(Outlier)가 발견되기도 한다. 이러한 현실적인 상황에서 데이터 분석 능력을 끌어올리기 위해서 가장 먼저 해야하는 것이 이 3가지 데이터에 대한 처리이다.

🟡 데이터 전처리를 하다보면

간단하게 결측치, 중복값, 이상치를 제거하면 되는거 아니야?라고 생각했지만 실제로 전처리를 진행하게 되면 나의 판단 능력이 중요하다는 것을 깨닫게 된다. 중복값이나 이상치는 그렇게 큰 판단력이 필요하지 않지만 결측치가 생기면 꽤 골치 아픈 상황이 발생한다. 혹여 결측치가 많이 발생하면 데이터를 버릴 수는 없으니 여러가지 방법으로 테크닉이 들어갈 수 있겠다는 생각이 든다.

🟡 따라서

이러한 과정은 정답이 따로 정해져 있지 않다는게 중요하기 때문에 이번 스프린트 과제를 진행하면서 다른 사람은 이 데이터를 어떻게 분석 했을까? 비교해보면서 공부를 하면 조금 더 폭넓은 분석 능력을 갖출 수 있을 것 같다.

🟢 예시 답안 (코드잇 제공)

<결측값 처리=""> 결측값(missing values)은 데이터셋에 값이 존재하지 않는 경우입니다. 결측값 처리 방법에는 다음과 같은 방법들이 있습니다. 제거: 결측값이 포함된 행이나 열을 완전히 삭제하거나 특정 기준에 따라 일부 결측값이 포함된 행이나 열만 삭제합니다. 예시: data.dropna(), data.dropna(thresh=3) (결측값이 3개 미만인 행만 남김) 대체: 평균/중앙값 대체, 최빈값 대체, 예측 대체 등의 방법을 활용할 수 있습니다. 특수 값 할당: 결측값을 특수 값(예: -1, 'Unknown')으로 대체하여 결측 여부를 표시합니다.
<중복값 처리=""> 중복값(duplicate values)은 데이터셋에 동일한 데이터가 여러 번 나타나는 경우입니다. 중복값을 처리하지 않으면 분석 결과가 왜곡될 수 있습니다. 중복값을 탐지하고 제거를 진행할 수 있습니다. 이상점 처리 이상점(outliers)은 데이터에서 다른 값들과 현저하게 차이가 나는 데이터 포인트입니다. 이상점을 탐지 (시각화 또는 통계적 방법 적용 등) 후 제거/대체/변환 등의 과정을 거칩니다.
This post is licensed under CC BY 4.0 by the author.

© 2025 Soohyun Jeon ⭐

🌱 Mostly to remember, sometimes to understand.