AI Study/머신러닝(ML)

주니어 PM 혼자 AI 기초 공부: LLM (Large Language Models)

Brownee 2025. 12. 13. 14:08
반응형

📌 주니어 PM의 AI 자습서: LLM (Large Language Models)

1. LLM의 개념과 정의

Large Language Models(이하 LLM) 은 엄청나게 방대한 양의 텍스트 데이터셋을 학습하여 인간의 언어를 알아듣고, 새로운 텍스트를 만들 수 있는 딥러닝 기반의 인공지능 모델입니다. 번역, 요약, 질문 응답 등 다양한 언어 작업이 가능합니다.

'Large' 의 의미는 모델의 규모가 크다는 뜻입니다. 이는 주로 모델이 가진 파라미터(parameter; 매개변수)의 수로 측정됩니다. 파라미터는 모델이 학습을 통해 얻는 지식의 양으로 볼 수 있으며, LLM은 수십억 개에서 수조 개에 달합니다.

 

2. LLM의 등장 배경

LLM의 뿌리는 2010년대 후반 자연어 처리(NLP) 연구에서 시작되었습니다. 2017년 Google의 트랜스포머 아키텍처 발표가 전환점이 되었고, 2018년 OpenAI의 GPT 시리즈가 대중화의 물꼬를 텄습니다.

인터넷의 발달로 대규모 텍스트 데이터(웹페이지, 책 등)를 수집할 수 있게 되었고, GPU 등 하드웨어 기술의 발전으로 이 방대한 데이터를 학습시킬 수 있는 연산 능력이 확보되었습니다. 특히 구글이 발표한 트랜스포머 아키텍처는 기존 순환 신경망(RNN)의 한계를 극복하고 병렬 학습을 가능하게 하여, 모델 크기를 폭발적으로 키울 수 있는 기반을 마련했습니다. 그리고 대규모 데이터로 모델의 '기초 지식'을 먼저 학습시킨 후, 특정 작업(예: 번역, 챗봇)에 맞춰 미세 조정하는 방법론이 확립되면서 LLM의 범용성이 극대화되었습니다.

2020년대 들어 컴퓨팅 파워 증가와 데이터 폭발로 GPT-3(2020), GPT-4(2023), 그리고 2025년 현재 GPT-5 등 고성능 모델이 등장했습니다. 이는 COVID-19 팬데믹 기간 원격 작업 증가와 함께 AI 도구 수요가 폭증한 배경에서 가속화되었습니다. 2025년 기준으로 LLM은 생성 AI의 핵심으로, 비즈니스와 일상에서 필수 기술로 자리 잡았습니다.

 

3. LLM의 구조

트랜스포머 아키텍처.

 

LLM은 트랜스포머(Transformer) 라는 신경망 구조를 기반으로 하며, 이 구조는 문장 속 단어들 간의 관계를 파악하는 어텐션(attention) 매커니즘을 활용합니다. 사전학습(pre-trained) 후 미세 조정(fine-tuned)하며 특정 작업에 적합하게 만듭니다.

 

위 이미지에서, 디코더 전용 트랜스포머는 트랜스포머 디코더 블록들의 스택으로 구성됩니다. 입력은 토큰 임베딩 시퀀스로 변환된 후, 디코더 전용 트랜스포머로 전송되어 입력 임베딩 블록들을 순차적으로 변환합니다. 최종적으로 모든 가능한 토큰에 대한 확률 분포가 생성됩니다.

 

4. 트랜스포머

LLM의 핵심 구조

트랜스포머는 현대 AI, 특히 LLM의 기반이 되는 신경망 아키텍처입니다. 2017년 Google 연구팀의 논문 <Attention Is All You Need>에서 처음 제안되었으며, 기존 RNN(Recurrent Neural Network)이나 LSTM의 순차적 처리 문제를 해결하기 위해, 병렬 처리를 통한 장거리 의존성(long-range dependencies) 포착으로 혁신에 성공했습니다. 2025년 12월 기준으로 GPT 시리즈, BERT, Llama 등 거의 모든 최신 LLM이 이 아키텍처를 기반으로 하거나 변형하여 사용합니다.

등장 배경

RNN과 LSTM은 순차적으로 데이터를 처리해 학습이 느리고, 긴 문장에서 앞부분 정보를 잊는 vanishing gradient(기울기 소멸) 문제가 있었습니다. 이에 대해 트랜스포머는 어텐션 메커니즘만 사용해서 recurrence(순환)와 convolution(합성곱)을 완전히 배제하여 병렬 처리를 가능하게 하고, 학습 속도를 대폭 향상시켰습니다. 그 결과, 기계 번역에서 SOTA(State-of-the-Art)를 달성하고, 이후 NLP 전체를 지배했습니다. 현재는 컴퓨터 비전(ViT), 음성, 멀티모달(텍스트+이미지)까지 확장하고 있습니다.

 

트랜스포머 구조. (이미지 출처: https://aiml.com/explain-the-transformer-architecture/)

작동 방식

 

  • 입력 처리: 토큰 임베딩 + 위치 인코딩(Positional Encoding)
    • 단어를 벡터로 변환(Embedding).
    • 순서 정보 추가: 사인/코사인 함수로 위치 벡터 생성 (Attention은 순서 무시하므로 필수).
  • Multi-Head Self-Attention: <Attention Is All You Need>의 핵심
    • Self-Attention: 시퀀스 내 각 토큰이 다른 모든 토큰에 얼마나 주의할지 계산 (Q, K, V 사용).
    • Multi-Head: 여러 헤드(보통 8~16)로 병렬 계산 → 다양한 관점(문법, 의미 등) 포착.

 

 

  • Feed-Forward Network
    • 각 위치별 독립적 fully-connected 레이어 (ReLU 또는 GELU 활성화).
  • Residual Connection & Layer Normalization
    • 각 서브레이어 주위에 Add & Norm → 학습 안정화.

 

 

5. 어텐션 매커니즘

작동 방식

어텐션 매커니즘은 트랜스포머 모델의 핵심으로, 입력 시퀀스(예: 문장)의 각 요소가 다른 요소들과 얼마나 관련이 있는지를 동적(dynamic)으로 계산하여 맥락을 이해하게 합니다. 기존 RNN(순환 신경망)처럼 순차적으로 처리하지 않고, 모든 요소를 병렬로 고려해 장거리 의존성을 효과적으로 포착합니다.

트랜스포머 모델의 어텐션 매커니즘. (이미지 출처: Researchgate.net)

장거리 의존성?
주로 시퀀스(순서) 데이터를 처리하는 인공지능 모델에서 사용되는 핵심 개념으로, 시퀀스의 앞부분에 있는 중요한 정보아주 뒷부분에 나오는 정보 사이의 관련성(의존성)을 말합니다. '문장이 아주 길 때, 문장 맨 앞에서 언급된 중요한 핵심 정보를 모델이 끝까지 기억하고 활용할 수 있는가?' 에 대한 문제입니다.
트랜스포머 모델에서 순환 구조(Recurrence)를 완전히 버리고 어텐션 메커니즘을 핵심으로 사용하는 이유도 장거리 의존성의 한계를 극복하기 위한 것입니다. 거리가 가까운지 먼지와 상관없이 두 단어의 관련성(의존성)을 한 번의 연산으로 파악할 수 있게 되어, 장거리 의존성 문제가 근본적으로 해결되었습니다.

 

세 가지 벡터: Query(Q), Key(K), Value(V)

  • Query (Q): '질문' 또는 '현재 관심사'
    • 정의: 현재 처리 중인 토큰(단어)이 '무엇을 찾고 있는가?' 를 나타내는 벡터.
    • 역할: Query는 다른 모든 Key들과 비교되어 유사도를 계산합니다. 이 유사도가 높을수록 해당 Value에 더 많은 가중치를 줍니다.
    • 비유: 검색 엔진에서 입력하는 '검색어'. ex) "고양이 사진"을 검색할 때 이게 Query가 됩니다.
  • Key (K): '키' 또는 '인덱스/라벨'
    • 정의: 시퀀스 내 모든 토큰의 '특징 키'를 나타내는 벡터. Query와 비교될 때 사용됩니다.
    • 역할: Key는 Query와의 도트 곱(dot product)으로 유사도(attention score)를 결정합니다. Key 차원(d_k)으로 스케일링하는 이유도 안정적 계산을 위함입니다.
    • 비유: 데이터베이스의 '키'나 문서의 '제목/태그'. Query가 이 Key와 얼마나 맞는지로 관련성을 판단합니다.
  • Value (V): '값' 또는 '실제 내용'
    • 정의: 시퀀스 내 모든 토큰의 '실제 정보 내용'을 담은 벡터.
    • 역할: Attention weights(softmax 후 점수)를 곱해 가중 합산된 출력이 됩니다. Key와 달리 직접 비교되지 않고, 선택된 후 가져옵니다.
    • 비유: 데이터베이스의 '실제 데이터'나 문서의 '본문'. Query가 Key로 찾은 후 가져오는 내용입니다.
  • => Attention은 검색 엔진처럼 Query와 가장 맞는 Key를 찾아 Value를 가져오되, 모든 Key에 대해 가중치를 주어 조합합니다.

 

6. LLM의 활용

사용 예시/실제 사례

  • 고객 서비스 챗봇
    • OpenAI의 ChatGPT는 2025년 기준 2억 명 이상의 월간 사용자에게 자연어 대화를 제공합니다.
    • 은행 앱에서 '대출 상환 계획을 세워줘'라고 입력하면, 사용자의 재무 상황을 분석해 맞춤형 조언을 생성합니다.
    • 실제로 Walmart는 LLM을 활용해 제품 카탈로그를 자동화하여 처리 시간을 70% 줄였습니다.
  • 의료 진단 지원
    • Microsoft의 BioGPT는 의학 문헌을 학습해 증상 입력 시 가능한 질병을 예측합니다. 2025년 연구에서, 이는 진단 정확도를 25% 향상시켰으며, 개발도상국에서 원격 진료에 활용되고 있습니다.
  • 콘텐츠 생성
    • Anthropic의 Claude는 마케팅 팀이 블로그 포스트를 자동 작성하도록 돕습니다.
    • 2025년 Netflix는 이를 활용해 맞춤 추천 스크립트를 제작해 시청률을 15% 높였습니다.

LLM 적용 모델

모델명 개발사 출시일 주요 특징
GPT-5.2 OpenAI 2025.12.12 (최근) 통합 멀티모달(텍스트·이미지·오디오·비디오) 처리
지식 컷오프 2025.8.31
입력 $1.75/1M 토큰 · 출력 $14/1M.
컨텍스트 윈도우 272K.
Claude 4.5 Sonnet Anthropic 2025.9.29 코딩·에이전트 워크플로 최고( SWE-bench 77.2%)
컨텍스트 200K
입력 $15/1M · 출력 $75/1M.
안전성 강조(헌법 AI).
Gemini 3 Pro Google DeepMind 2025.11 검색 통합·멀티모달(>200K 컨텍스트)
입력 $4/1M · 출력 $18/1M.
Google 앱 연동(예: Search AI 모드).
Grok 4.1 xAI 2025.11 유머·실시간 검색 강점
Colossus 슈퍼컴퓨터 훈련(10K+ GPU)
컨텍스트 256K.
API 접근.
Llama 4 Scout Meta AI 2025.4 오픈소스(Apache 2.0)
10M 컨텍스트 · 17B 파라미터
저비용 커스터마이징.
Qwen 3 Alibaba 2025.4.29 오픈소스(235B 파라미터)
멀티링구얼 · VL(비전-언어) 강점
API·오픈소스 듀얼.

 

 

7. LLM의 한계

2025년 12월 13일 기준으로, LLM의 한계는 학술 연구, 산업 보고서, 그리고 최근 벤치마크(예: MMLU, GPQA)에서 지속적으로 지적되고 있습니다. LLM의 한계는 훈련 데이터의 본질적 제한, 아키텍처적 제약, 그리고 실무 적용 시 발생하는 문제로 요약됩니다.

(1) 지식 및 사실 정확성 한계 (Knowledge and Factual Limitations)

  • 환각(Hallucinations)
    • LLM이 존재하지 않는 정보를 자신 있게 생성
    • 해결: RAG(Retrieval-Augmented Generation) 도입.
  • 지식 컷오프(Knowledge Cutoff)
    • 훈련 데이터 이후 사건 모름.
    • GPT-5.2 컷오프 2025.8, Gemini 3 Pro는 2025.11.
    • 실시간 정보 필요 시 외부 API 연동 필수. 
  • 불완전한 지식 표현(Incomplete Representations)
    • 방대한 데이터에도 불구하고 부분적·편향된 지식만 학습.
    • NIH 연구(2025)에서 의학 LLM이 25% 사례에서 불완전한 진단 제시. 

(2) 이해 및 추론 능력 한계 (Understanding and Reasoning Limitations)

  • 진정한 이해 부족(Lack of True Understanding)
    • 패턴 매칭 기반으로 의식·경험 없음.
    • Intuitivedata(2025)에서 "LLM은 이해하지 않고 통계적으로 예측" 지적.
  • 복잡한 추론·수학 약점(Complex Reasoning/Math Failures)
    • 다단계 문제에서 실패.
    • Apple 연구(2025)에서 LRMs(Large Reasoning Models)이 퍼즐 30%에서 일관되지 않음.
    • 기본 산술조차 20% 오류(예: 9.11 × 9.11 = 81.9921 계산 실패).
  • 패턴 과적합(Over-reliance on Patterns)
    • 문법 패턴을 주제와 잘못 연결.
    • MIT(2025.11)에서 LLM이 "adversarial" 입력으로 해로운 콘텐츠 생성 유도 가능.

(3) 언어 및 맥락 처리 한계 (Language and Context Limitations)

  • 컨텍스트 윈도우 제한(Limited Context Window)
    • 토큰 한계(예: GPT-5.2 272K)로 긴 문서 처리 어려움.
    • PromptDrive(2025)에서 "장문 입력 시 오류 폭증" 보고.
  • 언어 지원 불균형(Uneven Language Support)
    • 영어 중심, 비표준 언어(슬랭, 방언, 코드 스위칭) 약함.
    • LearningDaily(2025)에서 underrepresented 언어 성능 40% 저하. 
  • 장기 메모리 부재(Lack of Long-term Memory)
    • 상태 없어 이전 대화 기억 안 함.
    • ProjectPro(2025)에서 "각 쿼리 독립 처리로 연속성 상실".

(4) 편향 및 윤리적 한계 (Bias and Ethical Limitations)

  • 편향(Bias)
    • 훈련 데이터 반영으로 성별·인종·문화 편향. LearnPrompting(2025)에서 "인터넷 데이터로 인한 유해 응답 15%".
  • 투명성 부족(Lack of Transparency)
    • 내부 작동 블랙박스.
    • Reddit 논의(2025)에서 "한계 공개 미비로 과대평가 유발". 
  • 윤리적 문제(Ethical Concerns)
    • Strategian(2025.12)에서 모든 모델이 false belief 테스트 실패.

(5) 기술적·운영적 한계 (Technical and Operational Limitations)**

  • 컴퓨팅 비용 및 확장성(Computational Constraints/Scalability)
    • 훈련·추론 고비용(예: GPT-5.2 입력 $1.75/1M 토큰).
    • ProjectPro(2025)에서 "에너지 소비로 환경 부하".
    • 2025 스케일링 법칙 한계: 고품질 데이터 부족.
  • 적대적 입력 취약성(Brittleness to Adversarial Inputs)
    • 프롬프트 인젝션으로 조작.
    • MIT(2025)에서 "문장 패턴 악용으로 신뢰성 저하". 
  • 실시간 학습 불가(No Real-time Learning)
    • 동적 업데이트 안 됨.
    • Shift Asia(2025)에서 "훈련 컷오프 후 무지에도 자신만만한 응답".

(6) 기타 실무 적용 한계 (Other Practical Limitations)

  • 비텍스트 언어 처리 불가
    • 음성·이미지 등 비텍스트 언어 미대응.
    • MIT(2024, 2025 업데이트)에서 "텍스트 기반 한계".
  • 과도한 자원 낭비(Resource Waste)
    • 간단 문제에 과도 컴퓨트.
    • MIT(2025.12)에서 "복잡 문제 미처리". 
  • 생성 콘텐츠 품질 변동(Quality Variability)
    • 덜 일반적인 단어·구 처리 실패.
    • HatchWorks(2025)에서 "번역·기술 문서 오류".
반응형