Post

2-(4) K-폴드 교차 검증에서 K의 값을 선택할 때 고려해야 할 점

2-(4) K-폴드 교차 검증에서 K의 값을 선택할 때 고려해야 할 점

(4) K-폴드 교차 검증에서 K의 값을 선택할 때 고려해야 할 점은 무엇인가요?

# 들어가며

예시 답안 (코드잇 제공)

K-폴드 교차 검증에서 K의 값을 선택할 때는 데이터셋의 크기, 계산 비용(리소스), 분산과 편향의 균형, 데이터의 특성 등을 종합적으로 고려해야 합니다. 일반적으로 5-폴드나 10-폴드 교차 검증이 많이 사용됩니다. 데이터셋의 크기가 크면 k의 값을 상대적으로 작은 값으로 설정해도 충분합니다. (5 정도) k 값이 클 수록 각 폴드에 대해 모델을 더 많이 학습시켜야하므로 계산에 필요한 비용이 증가합니다. k 값이 작을 수록 계산 비용이 줄어들지만, 모델 평가의 변동성이 커질 수 있습니다. k 값이 클 수록 모델의 분산이 줄어들고, 더 정확한 평가가 가능하지만 편향(bias)는 증가할 수 있습니다. 반대로 k 값이 작을 수록 모델의 편향은 줄어들지만 모델 평가의 신뢰도를 떨어뜨릴 수 있습니다. 데이터가 균형 잡혀 있는 경우 어떤 k값을 사용해도 비교적 일관된 결과를 얻을 수 있습니다. 다만 데이터가 불균형한 경우 각 폴드에 모든 클래스가 충분히 포함되도록 신중하게 k값을 선택해야 합니다.

This post is licensed under CC BY 4.0 by the author.

© 2025 Soohyun Jeon ⭐

🌱 Mostly to remember, sometimes to understand.