Post

1-(2) EDA(Exploratory Data Analysis)๋ž€

1-(2) EDA(Exploratory Data Analysis)๋ž€

๐ŸŸข (2) EDA(Exploratory Data Analysis)๋ž€ ๋ฌด์—‡์ธ๊ฐ€์š”?

# ๋“ค์–ด๊ฐ€๋ฉฐ

ํ˜„์žฌ ์Šคํ”„๋ฆฐํŠธ ๊ณผ์ •์—์„œ๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์˜ ์ดˆ์ž… ๋‹จ๊ณ„์ธ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋‹จ๊ณ„๋ฅผ ์ง„ํ–‰์ค‘์ด๋‹ค. ๋Œ€ํ‘œ์ ์œผ๋กœ pandas๋ผ๋Š” ํ†ต๊ณ„ ํŒจํ‚ค์ง€๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ฐ์ข… ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•ด๋ณด๋Š” ์‹ค์Šต์„ ์ง„ํ–‰์ค‘์— ์žˆ๋‹ค. ๊ฐœ์ธ์ ์œผ๋กœ ์˜ˆ์ „์— ๋จธ์‹ ๋Ÿฌ๋‹ ์ˆ˜์—…์„ ๋ช‡๊ฐœ ๋“ฃ๊ธฐ๋„ ํ–ˆ๊ณ  ์ฝ”๋“œ์ž‡ ๊ตญ๋น„์ง€์›์œผ๋กœ ๋ฐ์ดํ„ฐ๋ถ„์„ ๊ณผ์ •๋„ ์ˆ˜๋ฃŒํ•œ ๊ธฐ์–ต์ด ์žˆ์–ด์„œ DataFrame์„ ๋‹ค๋ฃจ๋Š”๋ฐ ์•ฝ๊ฐ„ ์ž์‹ ์ด ์žˆ์—ˆ์ง€๋งŒ EDA๋Š” ์ฒ˜์Œ ๋“ฃ๋Š” ๊ฐœ๋…์ด๋ผ์„œ ์ด๋ฒˆ ์ˆ˜์—…์ค‘์— ๋‹นํ™ฉํ–ˆ๋˜ ๊ธฐ์–ต์ด ์žˆ๋‹ค.

# ์ƒˆ๋กœ์šด ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฒ•?

EDA๋ผ๋Š” ๊ฐœ๋…์„ ์ฐพ๊ธฐ ์œ„ํ•ด ์˜ˆ์ „์— ๊ณต๋ถ€ํ–ˆ๋˜ ๋จธ์‹ ๋Ÿฌ๋‹ ์ฑ… 2๊ถŒ์„ ๋‹ค์‹œ ๋“ค์ถฐ๋ดค์ง€๋งŒ EDA๋ผ๋Š” ๊ฐœ๋…์„ ์ฐพ์„ ์ˆ˜๋Š” ์—†์—ˆ๋‹ค. ๊ทธ๋ž˜์„œ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฒ•์— ๋ฌด์–ธ๊ฐ€ ์ƒˆ๋กœ์šด ์ˆ˜ํ•™์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋‚˜์™”๋‹ค๊ณ  ์ƒ๊ฐํ•˜๊ณ  ์ˆ˜์—…์„ ๋“ค์—ˆ์ง€๋งŒโ€ฆ ๋“ฃ๊ณ  ๋‚˜๋‹ˆ ์ƒ๋‹นํžˆ ์ผ๋ฐ˜๋ก ์ ์ธ ์–˜๊ธฐ๋ผ์„œ ๋‹นํ™ฉํ–ˆ๋‹ค. ๊ตฌ๊ธ€๋ง๋„ ํ•ด๋ณด๊ณ  GPT์—๊ฒŒ๋„ ๋ฌผ์–ด๋ดค์ง€๋งŒ ์ผ๋ฐ˜์ ์ธ ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ํ•˜๋Š” ๊ณผ์ •์„ ๊ธธ~๊ฒŒ, ์žฅํ™ฉํ•˜๊ฒŒ ์„ค๋ช…ํ•˜๊ณ  ์žˆ์—ˆ๋‹ค.

# ์ผ๋ฐ˜์ ์œผ๋กœ

๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” ์ง๊ตฐ์—์„œ๋Š” ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ธ์‚ฌ์ดํŠธ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ๊ฐ€์ง€ ์‹œ๋„๋ฅผ ํ•œ๋‹ค. ํŠนํžˆ ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ด๋ฉด์„œ ์ค‘์š”ํ•œ ํ†ต๊ณ„์  ๋ฒ ์ด์Šค๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ•˜๋Š” ๋ถ„์„์€ ์—ฐ๊ตฌ์ž๋ถ€ํ„ฐ ์‹ค๋ฌด์ž๊นŒ์ง€ ํ•„์ˆ˜์ ์œผ๋กœ ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ ์ด๋ฅผ ํ†ตํ•ด ๋…ผ๋ฌธ๋„ ๋‚˜์˜ค๊ณ  ํšŒ์‚ฌ์˜ ์˜์‚ฌ ๊ฒฐ์ •๋„ ํ•˜๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค. ๋ฌผ๋ก  ์ด๋Ÿฐ ๋†’์€ ๋ ˆ๋ฒจ์—์„œ๋Š” ๋‹ค๋ฃจ๊ฒŒ ๋˜๋Š” ๋ฐ์ดํ„ฐ์˜ ๋ณต์žก๋„๊ฐ€ ๋งค์šฐ ๋†’๊ธฐ ๋•Œ๋ฌธ์— ์ˆ™๋ จ๋œ ๋ฐ์ดํ„ฐ๋ถ„์„๊ฐ€๊ฐ€ (๋ง๊ทธ๋Œ€๋กœ) ํƒ์ƒ‰์ ์ธ ๋ถ„์„์„ ์‹œ๋„ํ•  ๊ฒƒ์ด๋ฉฐ, ๋‚˜๋„ ๋Œ€ํ•™์›์—์„œ ์•„์นจ ๋งˆ๋‹ค ํ•˜๋Š” ์ผ๊ณผ๊ฐ€ ๋‚ด๊ฐ€ ๋ฐค์ƒˆ ๋Œ๋ ธ๋˜ ๋ฐ์ดํ„ฐ์˜ correlation coefficient ํ™•์ธํ•˜๋Š” ๊ณผ์ •์ด์—ˆ๋‹ค.

# ํ•œ๋งˆ๋””๋กœ ์š”์•ฝํ•˜๋ฉด

EDA๋Š” ๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ธฐ๋ฒ•์—์„œ ๋‚˜์˜จ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ๋ฒ•๋ก ์ด๋ฉฐ ํŠน์ •ํ•œ ์ˆ˜ํ•™์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์ด ์•„๋‹ˆ๋ผ ๋ฐ์ดํ„ฐ๋ฅผ ํƒ์ƒ‰ํ•˜๋ฉฐ(exploratory) ๋ฐ์ดํ„ฐ์˜ ํ†ต๊ณ„์ ์ธ ์ธ์‚ฌ์ดํŠธ๋ฅผ ์–ป๋Š” ๊ธฐ๋ฒ•์ด๋ผ๊ณ  ๋ณด๋ฉด ๋ ๊ฒƒ ๊ฐ™๋‹ค.

์˜ˆ์‹œ ๋‹ต์•ˆ (์ฝ”๋“œ์ž‡ ์ œ๊ณต)

EDA, ์ฆ‰ ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„(Exploratory Data Analysis)์€ ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ•˜๊ณ  ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ํƒ๊ตฌํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ๋ฐ์ดํ„ฐ ๋ถ„์„์˜ ์ฒซ ๋‹จ๊ณ„๋กœ, ๋ฐ์ดํ„ฐ๋ฅผ ์‹œ๊ฐํ™”ํ•˜๊ฑฐ๋‚˜ ์š”์•ฝ ํ†ต๊ณ„๋ฅผ ๊ณ„์‚ฐํ•˜๋ฉด์„œ ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ์™€ ํŠน์„ฑ์„ ํŒŒ์•…ํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘ก๋‹ˆ๋‹ค. ์ฃผ๋œ ๋ชฉํ‘œ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ์ˆจ๊ฒจ์ง„ ํŒจํ„ด์„ ๋ฐœ๊ฒฌํ•˜๊ณ , ์ด์ƒ์น˜๋‚˜ ๊ฒฐ์ธก๊ฐ’์ฒ˜๋Ÿผ ํ•ด๊ฒฐํ•ด์•ผ ํ•  ๋ฌธ์ œ๋ฅผ ์ฐพ์•„๋‚ด๋ฉฐ, ๋ณ€์ˆ˜ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํƒ๊ตฌํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ณ ๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•  ๋•Œ ์—ฐ๋ น๋ณ„ ๊ตฌ๋งค ๊ธˆ์•ก์˜ ๋ถ„ํฌ๋ฅผ ํ™•์ธํ•˜๊ฑฐ๋‚˜ ๊ตฌ๋งค ๋นˆ๋„์™€ ๊ธˆ์•ก ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํƒ์ƒ‰ํ•˜๋Š” ๊ฒƒ์ด EDA์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค. EDA์—์„œ๋Š” ์ฃผ๋กœ ํ‰๊ท , ๋ถ„์‚ฐ๊ณผ ๊ฐ™์€ ์š”์•ฝ ํ†ต๊ณ„ ๊ณ„์‚ฐ, ํžˆ์Šคํ† ๊ทธ๋žจ์ด๋‚˜ ์‚ฐ์ ๋„์™€ ๊ฐ™์€ ๊ทธ๋ž˜ํ”„๋ฅผ ํ™œ์šฉํ•œ ์‹œ๊ฐํ™” ๊ธฐ๋ฒ•์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ๊ณผ ๋ฌธ์ œ๋ฅผ ๋ช…ํ™•ํžˆ ์ดํ•ดํ•˜๊ณ , ์ดํ›„ ๋ชจ๋ธ๋ง์ด๋‚˜ ๋ถ„์„์˜ ๋ฐฉํ–ฅ์„ฑ์„ ์ •ํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

This post is licensed under CC BY 4.0 by the author.

ยฉ 2025 Soohyun Jeon โญ

๐ŸŒฑ Mostly to remember, sometimes to understand.