MIT 6.S191: Large Language Models (Google) 강의 |        Serendipity                                                                                                                                                                                                                                                                                                                                                                                   
Post

MIT 6.S191: Large Language Models (Google) 강의

🟣 구글 Gemini Applied Research group의 Peter Grabowski의 MIT 강연

MIT 6.S191: Large Language Models (Google) 강의

MIT 6.S191: Large Language Models

MIT의 Deep Learning 강의 시리즈 중 Google의 Alexander Amini가 진행한 LLM 세션을 정리했습니다. LLM의 기본 동작 원리부터 최신 트렌드인 Agent까지 다루고 있어 연구 흐름을 잡기에 좋은 강의입니다.

1. What are Large Language Models?

LLM은 본질적으로 Next Token Prediction을 수행하는 확률 모델입니다. 이를 Auto-regressive decoding이라고 합니다. 강의에서는 이를 “Fancy Autocomplete”라고 표현하며, 단순한 단어 예측을 넘어 문제 해결 도구로서의 가능성을 보여줍니다.

“Language models are like fuzzy lookups back into their training data.”

2. Key Drivers of Progress

최근 LLM의 비약적인 발전은 다음 요소들에 기인합니다:

  1. Scale (Parameters): 수조(Trillions) 단위의 파라미터 확장. (BERT Large가 340M이었던 것에 비해 엄청난 증가)
  2. Data & Context Window: Gemini 등 최신 모델은 수백만 토큰의 Context를 처리 가능.
  3. Emergent Behaviors: 일정 규모 이상에서 Zero-shot, Few-shot 능력이 발현됨.
    • Reference: “Language Models are Few-Shot Learners” (NeurIPS 2020)

3. Improving LLMs: Beyond Pre-training

Base Model을 유용한 Assistant로 만들기 위한 기법들입니다.

Prompt Engineering

  • Role Prompting: 모델에게 특정 페르소나(예: MIT Mathematician)를 부여하여 정답률 향상.
  • Chain of Thought (CoT): “Let’s think step by step” 프롬프트를 통해 추론 과정 유도.

Fine-tuning & Alignment

  • Instruction Tuning: 지시사항(Instruction)을 따르도록 튜닝.
  • RLHF: 인간 선호도를 반영한 강화학습.
  • Constitutional AI: Anthropic에서 제안한 방식으로, 인간 피드백 대신 규칙(Constitution)을 기반으로 AI가 AI를 평가.
  • PEFT (Parameter-Efficient Fine-Tuning):
    • LoRA: 전체 파라미터 대신 Low-rank 행렬만 학습하여 효율성 극대화. 하나의 Base Model 위에 여러 LoRA 어댑터를 끼워 쓸 수 있음.

4. Risks and Considerations

  • Hallucination: 그럴듯하지만 틀린 정보 생성. -> RAG (Retrieval Augmented Generation)로 완화.
  • Bias: 학습 데이터의 편향 반영.
  • Adversarial Attacks: Jailbreaking, Prompt Injection.

5. AI Agents

LLM이 단순 텍스트 생성을 넘어 도구를 사용하고 계획을 수립하는 단계로 진화하고 있습니다.

  • ReAct (Reasoning + Acting):
    • 모델이 추론(Reasoning)과 행동(Action)을 교차하며 수행.
    • Reference: “ReAct: Synergizing Reasoning and Acting in Language Models”
  • Toolformer:
    • LLM이 스스로 외부 API(계산기, 검색엔진 등)를 호출하는 법을 학습.
    • API 호출이 Loss를 줄이는지 판단하여 유용한 호출만 학습 데이터로 필터링.
    • Reference: “Toolformer: Language Models Can Teach Themselves to Use Tools”
This post is licensed under CC BY 4.0 by the author.

© 2025 Soohyun Jeon ⭐

🌱 Mostly to remember, sometimes to understand.