10-(1) 텍스트 데이터를 모델에 적용하기 전에 어떤 전처리 과정을 거치나요?

Posted Aug 8, 2025

By soohyun-chris-jeon

2 min read

🟢 TBU

⚪ TBU..

🟢 예시 답안 (코드잇 제공)

텍스트 데이터를 모델에 적용하기 전에 반드시 전처리 과정을 거쳐야 합니다. 텍스트는 구조화되지 않은 형태로 존재하기 때문에, 이를 수치적으로 처리 가능한 형태로 변환해주는 것이 전처리의 핵심 목적입니다.
가장 기본적인 전처리는 불필요한 문자 제거입니다. 예를 들어, HTML 태그, 특수 문자, 숫자, 이모지 등을 제거하거나 필요한 경우에만 유지하는 식으로 데이터를 정리합니다.
그다음으로는 소문자 변환을 많이 사용합니다. 대소문자를 통일함으로써 ‘Apple’과 ‘apple’을 같은 단어로 취급하게 되어 불필요한 중복을 줄일 수 있습니다.
또한, 불용어 제거도 중요한 과정입니다. 불용어는 ‘의’, ‘이’, ‘가’, ‘the’, ‘is’, ‘and’처럼 자주 등장하지만 분석에 큰 의미가 없는 단어들로, 이들을 제거하면 모델이 더 중요한 단어에 집중할 수 있습니다.
토큰화(Tokenization)*도 핵심 과정 중 하나입니다. 문장을 단어, 형태소, subword 단위 등으로 나누는 과정이며, 사용하는 언어와 목적에 따라 다양한 방식이 적용됩니다. 그 외에도 어간 추출(Stemming)이나 표제어 추출(Lemmatization)을 통해 단어의 기본 형태를 통일할 수도 있고, 중복 공백 제거, 이상값 필터링, 맞춤법 교정 등의 세부적인 정제 작업도 포함될 수 있습니다.
이러한 전처리 과정을 통해 텍스트를 모델이 학습할 수 있는 일관된 입력 형태로 정리함으로써, 학습 효율과 성능을 향상시킬 수 있습니다.

Codeit AI 3기, Weekly Paper

This post is licensed under CC BY 4.0 by the author.

🟢 TBU

⚪ TBU..

🟢 예시 답안 (코드잇 제공)

Trending Tags