12-(2) 모델 크기를 키우는 것만으로는 성능이 일정 시점 이후 둔화되는 이유는 무엇일까요? |        Serendipity                                                                                                                                                                                                                                                                                                                                                                                   
Post

12-(2) 모델 크기를 키우는 것만으로는 성능이 일정 시점 이후 둔화되는 이유는 무엇일까요?

12-(2) 모델 크기를 키우는 것만으로는 성능이 일정 시점 이후 둔화되는 이유는 무엇일까요?

🟢 모델 크기를 키우는 것만으로는 성능이 일정 시점 이후 둔화되는 이유는 무엇일까요?


⚪ TBU..

모델 크기를 키우는 것만으로 성능 향상이 둔화되는 가장 핵심적인 이유는 데이터가 모델의 거대한 크기를 뒷받침해주지 못하기 때문입니다. 즉, 모델이 소화할 ‘음식(데이터)’은 한정되어 있는데, 몸집(파라미터 수)만 계속 커지는 상황과 같습니다.

이는 ‘스케일링 법칙(Scaling Laws)’ 연구를 통해 명확해졌으며, 주로 두 가지 주요 원인으로 설명할 수 있습니다. scaling

## 1. 훈련 데이터의 양과 질의 한계

LLM의 성능은 모델의 크기뿐만 아니라, 학습에 사용된 데이터의 양과 질에 의해 결정됩니다.

  • 데이터 고갈 (Data Exhaustion): 모델이 특정 수준 이상으로 커지면, 인터넷에 존재하는 고품질의 텍스트 데이터를 거의 다 학습해버리는 시점이 옵니다. 더 이상 새롭고 유용한 정보를 학습할 수 없으니, 모델 크기를 키워도 성능 향상은 미미해집니다. 저품질 데이터를 반복 학습하는 것은 오히려 성능에 악영향을 줄 수 있습니다.
  • 데이터 품질의 중요성: 모델이 아무리 커도, 학습 데이터에 편향되거나 부정확한 정보가 많다면 그 한계를 그대로 학습하게 됩니다. 결국 모델의 성능은 데이터의 품질이라는 천장에 부딪히게 됩니다.

## 2. 모델과 데이터 크기의 불균형 (Chinchilla’s Scaling Law)

DeepMind의 ‘친칠라(Chinchilla)’ 연구는 이 문제에 대한 매우 중요한 통찰을 제공했습니다. 이 연구는 제한된 컴퓨팅 예산 안에서 최고의 성능을 내기 위해서는 모델 크기와 학습 데이터의 양을 균형 있게 함께 늘려야 한다는 것을 발견했습니다.

  • 기존의 접근: 이전에는 모델의 파라미터 수를 늘리는 것이 성능 향상의 핵심이라고 생각했습니다. 예를 들어, GPT-3는 1750억 개의 파라미터를 가졌지만, 3000억 개의 토큰으로 학습되었습니다.
  • 친칠라의 발견: 친칠라는 같은 양의 컴퓨팅 자원을 사용했을 때, GPT-3보다 파라미터 수는 3배 가까이 작지만(700억 개), 학습 데이터는 4배 더 많은(1조 4천억 개) 모델이 훨씬 뛰어난 성능을 보인다는 것을 증명했습니다.

이는 무작정 모델 크기만 키우는 것은 비효율적이라는 것을 의미합니다. 모델의 잠재력을 최대한 끌어내기 위해서는 그에 걸맞은 양의 고품질 데이터가 반드시 필요하며, 이 둘의 균형이 깨지는 시점부터 성능 향상은 급격히 둔화됩니다.

결론적으로, 현재 LLM의 성능 한계는 단순히 파라미터 수를 늘리는 것만으로는 극복하기 어렵습니다. 더 좋은 품질의 데이터를 더 많이 확보하고, 모델과 데이터의 규모를 최적의 비율로 함께 확장하는 것이 앞으로의 성능 발전을 위한 핵심 과제라고 할 수 있습니다.

🟢 예시 답안 (코드잇 제공)

  • 모델 크기를 키우면 초기에는 성능이 눈에 띄게 좋아지지만, 일정 규모를 넘어서면 성능 향상 속도가 점점 느려지고 결국에는 거의 개선되지 않는 구간에 도달하게 됩니다. 이 현상에는 몇 가지 이유가 있습니다.
  • 첫째, 학습 데이터의 한계입니다. 모델이 아무리 크더라도 학습할 수 있는 데이터가 부족하거나 품질이 낮으면 그 성능은 금방 한계에 부딪힙니다. 특히 데이터에 중복이 많거나 편향된 정보가 많으면, 큰 모델일수록 오히려 그 편향을 더 강하게 반영할 수 있습니다.
  • 둘째, 모델이 학습한 정보 중에는 실제로 문제 해결에 도움이 되지 않는 정보도 포함되기 때문에, 모델이 커질수록 반드시 ‘좋은 정보만 더 많이’ 배우는 것은 아닙니다. 오히려 불필요한 패턴이나 잡음을 과도하게 학습할 가능성도 있습니다.
  • 셋째, 하드웨어 자원과 학습 비용의 문제도 있습니다. 모델이 커질수록 연산량과 메모리 사용량이 급격히 증가하므로, 학습 효율은 떨어지고 실제로 그만큼의 성능 향상을 얻기 어려워집니다. 즉, 비용 대비 성능 개선이 비효율적인 구간에 들어서는 거죠. 결국 성능을 계속 높이기 위해서는 단순히 모델 크기를 키우는 것만으로는 부족하고, 더 나은 데이터, 정렬 기법(Model Alignment), 지식 보강, 또는 프롬프트 설계와 같은 다양한 기술이 함께 사용되어야 합니다.
This post is licensed under CC BY 4.0 by the author.

© 2025 Soohyun Jeon ⭐

🌱 Mostly to remember, sometimes to understand.