11-(3) BERT와 GPT 이후 등장한 주요 사전학습 모델에는 어떤 것들이 있으며, 특징은 무엇인가요? 구글링 등을 통해 자유롭게 리서치해서 정리해보세요.

Posted Aug 22, 2025 Updated Oct 16, 2025

By soohyun-chris-jeon

views 10 min read

🟢 BERT와 GPT 이후 등장한 주요 사전학습 모델에는 어떤 것들이 있으며, 특징은 무엇인가요? 구글링 등을 통해 자유롭게 리서치해서 정리해보세요.

BERT와 GPT의 등장 이후, 수많은 후속 모델들이 이들의 아키텍처를 계승, 발전시키거나 새로운 접근법을 제시하며 LLM 기술을 이끌고 있다.

이 모델들은 크게 BERT 계열(Encoder 중심), GPT 계열(Decoder 중심), 그리고 둘을 합치거나 새로운 구조를 도입한 기타 모델로 나눌 수 있습니다.

사실 제대로 따라가기도 힘들 정도로 이 산업은 빠르게 성장 중이며 어떤 공학자에 의하면 현재 LLM을 배우는 것에 대한 무용론을 제기하기도 하였다.

그럼에도 배움에는 끝이 없고 블로그에 정리해놓으면 나중에 도움이 되리라… 믿고 정리를 해보았다.

⚪ 1. BERT의 후예들: 더 효율적이고 강력한 ‘이해’ 모델

BERT의 양방향 문맥 이해라는 핵심 아이디어를 계승하면서, 학습 효율성과 성능을 개선하는 데 초점을 맞춘 모델들입니다.

RoBERTa (by Meta AI) RoBERTa는 BERT의 학습 방식을 ‘견고하게 최적화(Robustly Optimized)’한 모델입니다. 더 큰 데이터셋으로, 더 오래, 그리고 더 큰 배치 사이즈로 학습시켰습니다. 또한, BERT의 학습 목표 중 하나였던 ‘다음 문장 예측(NSP)’이 성능에 별 도움이 되지 않는다는 것을 발견하고 이를 제거했습니다. 간단한 학습 전략의 변화만으로 기존 BERT의 성능을 크게 뛰어넘었습니다.

ELECTRA (by Google AI) ELECTRA는 BERT의 MLM(마스크 언어 모델) 방식이 전체 토큰의 15%만 학습에 사용하는 비효율성을 지적하며 ‘교체된 토큰 탐지(Replaced Token Detection)’라는 새로운 학습 방식을 제안했습니다. 작은 ‘생성기(Generator)’가 일부 토큰을 그럴듯한 가짜 토큰으로 바꾸면, 메인 모델인 ‘판별기(Discriminator)’가 어떤 토큰이 원본이고 어떤 토큰이 가짜인지 맞추는 방식입니다. 모든 토큰을 학습에 활용하므로, 훨씬 적은 컴퓨팅 자원으로도 BERT보다 높은 성능을 달성했습니다.

⚪ 2. GPT의 후예들: 거대화와 효율화를 통한 ‘생성’ 모델

GPT의 스케일업(Scale-up) 가능성에 주목하여, 모델 크기를 키우고 학습 데이터양을 늘려 성능을 극대화하는 방향과, 반대로 효율적인 구조를 통해 작지만 강력한 성능을 내는 방향으로 발전했습니다.

LLaMA 시리즈 (by Meta AI): LLM 산업 전체와 개발자 커뮤니티에 지대한 영향을 미친 오픈소스 모델 LLaMA는 GPT-3와 유사한 Decoder-only 구조를 가지지만, 상대적으로 작은 모델 크기임에도 불구하고 방대한 고품질 데이터로 학습하여 뛰어난 성능을 보여주었습니다. 특히, 가중치를 오픈소스로 공개하여 전 세계 개발자들이 자유롭게 연구하고 자신만의 모델을 만들 수 있는 생태계를 열었다는 점에서 LLM 역사에 큰 획을 그었습니다. Llama 3는 현재 가장 강력한 오픈소스 LLM 중 하나로 꼽힙니다.

Mixtral (by Mistral AI): 최신 LLM 기술 트렌드 Mixtral은 ‘전문가 혼합(Mixture-of-Experts, MoE)’이라는 혁신적인 아키텍처를 도입했습니다. 이는 거대한 신경망 전체를 사용하는 대신, 입력된 질문의 종류에 따라 가장 관련 있는 작은 ‘전문가’ 네트워크 몇 개만 선택적으로 활성화하는 방식입니다. 덕분에 추론 시에는 훨씬 적은 파라미터만 사용하면서도, 실제로는 수백억 개의 파라미터를 가진 거대 모델과 맞먹는 성능을 낼 수 있어 추론 속도와 효율성을 크게 높였습니다.

⚪ 3. 새로운 패러다임: Encoder-Decoder와 하이브리드 모델

BERT와 GPT의 장점을 결합하거나, 외부 지식을 활용하는 새로운 방식의 모델들도 등장했습니다.

T5 (Text-to-Text Transfer Transformer, by Google AI) T5는 NLP의 모든 과제(번역, 요약, 분류, 질의응답 등)를 ‘텍스트-투-텍스트(Text-to-Text)’라는 하나의 통일된 프레임워크로 풀어낸 모델입니다. 예를 들어, “translate English to German: That is good.”이라는 텍스트를 입력하면 “Das ist gut.”을 출력하는 식입니다. BERT와 GPT의 구조를 모두 활용한 Encoder-Decoder 구조를 채택하여, 문맥 이해와 텍스트 생성이 모두 필요한 복잡한 작업에서 뛰어난 성능을 보입니다.
BART (by Meta AI) BART 역시 T5와 같은 Encoder-Decoder 구조를 가집니다. 하지만 학습 방식이 독특한데, 원본 텍스트에 노이즈(토큰 삭제, 문장 섞기 등)를 주어 망가뜨린 후, 이를 다시 원본 텍스트로 복원하는 ‘Denoising Autoencoder’ 방식으로 학습합니다. 이 과정에서 BERT처럼 양방향 문맥을 이해하는 능력과 GPT처럼 유창한 문장을 생성하는 능력을 동시에 기르게 되어, 특히 텍스트 요약이나 번역과 같은 생성 기반 작업에서 강점을 보입니다.
RAG (Retrieval-Augmented Generation) RAG는 LLM이 학습 데이터에 없는 최신 정보나 특정 전문 지식에 대해 환각(Hallucination)을 일으키는 한계를 극복하기 위해 등장한 ‘프레임워크’입니다. 사용자의 질문이 들어오면, LLM이 바로 답변을 생성하는 것이 아니라 먼저 외부 데이터베이스(DB)나 문서에서 가장 관련 있는 정보를 ‘검색(Retrieve)’한 뒤, 그 정보를 참고 자료로 삼아 답변을 ‘생성(Generate)’합니다. 이를 통해 훨씬 더 정확하고 신뢰도 높은 답변을 만들어낼 수 있습니다.

🟢 예시 답안 (코드잇 제공)

RoBERTa (Robustly Optimized BERT Approach) RoBERTa는 BERT를 기반으로 하되, 학습 방법을 개선해 성능을 끌어올린 모델입니다.
BERT보다 더 많은 데이터와 긴 학습 시간으로 훈련됨.
NSP(Next Sentence Prediction) 태스크를 제거하고, 순수한 Masked Language Modeling만 사용.
큰 배치 사이즈와 학습률, 다양한 시퀀스 길이 사용.
BERT와 구조는 동일하지만, 더 정교한 학습 설정으로 대부분의 NLP 태스크에서 성능 향상.

GPT-2 / GPT-3
GPT 시리즈는 OpenAI에서 발표한 초거대 언어 생성 모델입니다.
GPT-2는 1.5B 파라미터, GPT-3는 175B 파라미터 규모.
사전학습만으로도 few-shot / zero-shot 학습이 가능하다는 점을 보여줌.
단일 모델로 다양한 언어 생성 작업을 수행할 수 있어 범용성이 매우 높음.
GPT-3는 API 형태로 제공되며, 텍스트 생성, 문서 작성, 요약, 대화 시스템 등에서 활용.

Deep Learning, LLM

This post is licensed under CC BY 4.0 by the author.