📌 주니어 PM 혼자 AI 기초 공부: 마스크 언어 모델링(Masked Language Modeling, MLM)
1. 소개
마스킹 학습(Masked Learning), 또는 마스크 언어 모델링(Masked Language Modeling, 이하 MLM)은 대형 언어 모델(LLM)의 사전 훈련 기법 중의 하나입니다. 특히 자연어 처리(NLP) 분야의 딥러닝 모델(BERT, GPT의 일부)을 훈련하는 데 사용되는 자기 지도 학습(Self-Supervised Learning) 방법입니다.

MLM은 입력한 문장의 일부 단어를 무작위로 가리고(MASK 토큰), 모델이 문장의 맥락을 바탕으로 가려진 단어를 예측하며 학습합니다. 이는 '빈칸 채우기(fill-in-the-blank)'와 유사합니다. 모델이 빈 칸 앞/뒤의 맥락을 양방향으로 학습하여 문장을 깊이 이해하고 풍부한 언어 표현을 사용할 수 있게 합니다.
AI 제품을 기획하고 사업에 적용할 때, MLM은 BERT 같은 모델의 기반이 되어 텍스트 이해(NLU) 능력을 크게 향상시킵니다. 또한 고객 리뷰 분석, 챗봇, 검색 엔진 등에서 언어를 더 정확하게 이해할 수 있도록 하여 사용자 경험을 개선하고, 비즈니스 의사결정을 지원합니다.
2. 핵심 개념
- 무작위 마스킹(Random Masking)
- 입력 토큰의 약 15%를 무작위로 [MASK]로 대체합니다.
- (BERT 기준, 일부는 원래 단어 유지 또는 랜덤 단어로 변경하여 학습 안정성 확보)
- 양방향 컨텍스트(Bidirectional Context)
- 가려진 단어를 예측할 때 왼쪽과 오른쪽 모든 주변 단어(문맥)를 동시에 고려합니다.
- 자기지도 학습(Self-Supervised Learning)
- 라벨 없이 대량의 텍스트 데이터만으로 학습 가능합니다.
- 예측 대상이 데이터 자체에서 나옵니다.
- 사전 훈련(Pre-training)
- 대규모 비지도 텍스트 데이터셋에서 이 마스킹 학습을 수행하여 언어의 일반적인 이해를 먼저 습득합니다.
- 이후 특정 작업(예: 번역, 감성 분석)에 맞게 미세 조정(Fine-tuning)됩니다.
3. 등장 배경
기존 언어 모델은 단방향(unidirectional)으로 왼쪽에서 오른쪽으로만 문장을 보며 다음 단어를 예측했습니다(자기회귀, autoregressive). 이는 문장 생성에는 좋지만, 전체 맥락 이해가 필요한 작업(질문 답변, 감성 분석)에서 한계가 있었습니다. 또한 지도 학습(Supervised Learning) 모델은 사람이 직접 분류한(레이블링된) 대규모의 데이터가 필요했는데, 이는 시간과 비용이 많이 들었습니다. MLM은 2018년 BERT 논문에서 소개되었고, 양방향 컨텍스트를 통해 더 깊은 의미 이해를 가능하게 하여 기존 모델의 한계를 극복했습니다.
현재(2025년 기준)는 BERT 계열 모델이 NLP 벤치마크를 지배하며 많은 LLM의 기반이 되었고, fine-tuning으로 실전 적용이 폭발적으로 증가했습니다. (다만 생성 중심 작업에서는 여전히 autoregressive 모델이 우위입니다.)
4. 비유
MLM의 학습은 퍼즐 맞추기와 비슷합니다. 전체 그림이 주어지지만 일부 조각이 빠져 있습니다. 주변 조각들을 보며 빠진 부분을 추측하는 과정에서, 모델은 그림 전체의 패턴과 관계를 깊이 이해하게 됩니다. MLM은 단순히 순서대로 조각을 쌓는(단방향 모델) 것이 아니라, 양쪽을 동시에 보면서 가장 적절한 조각을 맞추는 방식입니다.
5. 활용/예시
- 사용자의 검색 의도(Long-tail query)를 정확하게 파악하여, 키워드 일치 이상의 문맥에 맞는 검색 결과를 제공합니다.
- 사업에서는, 고객 문의시의 문맥과 뉘앙스(불만, 긴급 등)를 깊이 이해하여 더 적절한 답변을 생성하거나 문제 해결이 가능한 부서로 연결합니다.
- 상품 리뷰나 소셜 미디어 게시물에서, 문장 전체의 내용을 파악하여 긍정/부정 감성을 더 정밀하게 분류할 수 있습니다.
6. 한계
- 마스킹 토큰의 불일치
- 훈련 시 사용하는 [MASK] 토큰이 실제 서비스(미세 조정 또는 추론) 시에는 사용되지 않아 불일치가 발생합니다.
- 이를 극복하기 위해 '대체 토큰 예측(Replaced Token Detection)' 학습 방식을 사용합니다.
- 느린 학습 속도
- 전체 입력 토큰 중 마스킹된 일부만 예측하는 방식으로 학습하므로, 학습이 비효율적일 수 있습니다.
- 입력 텍스트에 삭제, 삽입 등 다양한 종류의 노이즈를 주어 전체 텍스트를 재구성하게 하는 디노이징 기법을 사용하여 이를 극복합니다.
- 생성 능력 부족
- MLM은 빈칸을 채우는 능력이 뛰어나지만, 문장을 길게 생성하는 작업에서는 비효율적입니다.
- 다음 단어를 순차적으로 예측하는 GPT 스타일의 자동 회귀(Auto-regressive) 모델의 장점을 결합한 연구로 극복합니다.
대체 토큰 예측
모델에게 원본 단어가 아닌 가짜(대체된) 단어를 주고, 이 단어가 원래 단어인지 가짜인지를 구별하도록 학습시킵니다.(예: ELECTRA 모델) RTD는 MLM(BERT)보다 훨씬 효율적으로 모델을 훈련시켜 동일한 성능을 적은 컴퓨팅 자원으로 달성합니다.
RTD는 마스킹된 일부만 학습하는 것이 아니라, 입력의 모든 토큰에 대해 손실을 계산하고 학습하므로 훈련의 효율성이 극대화됩니다. 또한 가짜 단어를 만들 때도 무작위가 아닌 '그럴듯한' 단어를 만들어서, 모델이 맥락을 이해하는 방식을 더 세밀하게 학습합니다.
RTD를 적용한 ELECTRA 모델이 GLUE 등 벤치마크에서 BERT/RoBERTa를 능가하며, DeBERTa-v3 등 후속 모델에도 적용되었습니다. 훈련 비용 1/4로 동등하거나 우수한 성능 달성했습니다.
Span Corruption
Span Corruption은 T5(Text-to-Text Transfer Transformer) 모델의 사전 훈련 방식으로, 입력 텍스트의 연속된 토큰 스팬(span)을 무작위로 선택해 하나의 특수 sentinel 토큰(예: <X>, <Y>)으로 대체한 후, 모델(encoder-decoder)이 이 가려진 스팬들을 원래 순서대로 재구성하도록 학습하는 디노이징(denoising) 기법입니다. 이는 자기지도 학습(self-supervised)으로, 라벨 없이 대량 텍스트로 모델을 훈련합니다.
T5의 text-to-text 프레임워크는 모든 NLP 작업(번역, 요약, 분류 등)을 입력-출력 텍스트로 통합합니다. Span Corruption은 생성 중심(encoder-decoder) 모델에 최적화되어 긴 텍스트를 생성하고 이해하는 능력을 강화하므로, 챗봇, 요약 도구, 콘텐츠 생성 등 사업 제품에 직접 적용 가능합니다.
7. 주요 용어
- Masked Language Modeling (MLM): 마스킹된 언어 모델링, 빈칸 채우기 학습.
- [MASK] Token: 가려진 단어를 나타내는 특수 토큰.
- Bidirectional Context: 양방향 맥락, 왼쪽과 오른쪽 모두 고려.
- Pre-training: 사전 훈련, 대량 데이터로 기본 능력 학습 단계.
- Fine-tuning: 미세 조정, 특정 작업에 맞게 추가 학습.
- BERT (Bidirectional Encoder Representations from Transformers): MLM을 도입한 대표 모델.
- Self-Supervised Learning: 자기지도 학습, 라벨 없이 데이터 자체로 감독.
- Token: 텍스트의 기본 단위(단어 또는 서브워드).
- Contextual Representation: 맥락 의존적 표현, 단어 의미가 주변에 따라 변함.
- Next Sentence Prediction (NSP): BERT에서 MLM과 함께 사용된 보조 작업(문장 관계 예측).
8. 참고 자료
- IBM: What are masked language models? (https://www.ibm.com/think/topics/masked-language-model)
- TechTarget: What are Masked Language Models (MLMs)? (https://www.techtarget.com/searchenterpriseai/definition/masked-language-models-MLMs)
- Hugging Face: Masked language modeling (https://huggingface.co/docs/transformers/en/tasks/masked_language_modeling)
- Keras: End-to-end Masked Language Modeling with BERT (https://keras.io/examples/nlp/masked_language_modeling/)
- Wikipedia: BERT (language model) (https://en.wikipedia.org/wiki/BERT_(language_model))
- Coursera: Understanding NLP Algorithms: The Masked Language Model (https://www.coursera.org/articles/masked-language-model)
'AI Study > 머신러닝(ML)' 카테고리의 다른 글
| 주니어 PM 혼자 AI 기초 공부: 머신러닝 모델과 알고리즘 (0) | 2025.12.17 |
|---|---|
| 주니어 PM 혼자 AI 기초 공부: 강화 학습(Reinforcement Learning) (1) | 2025.12.16 |
| 주니어 PM 혼자 AI 기초 공부: LLM (Large Language Models) (0) | 2025.12.13 |
| 주니어 PM의 AI 자습서: Flux.1 [dev] (0) | 2025.12.11 |
| 머신러닝의 기초: 디퓨전 모델(Diffusion models) (0) | 2025.12.05 |