AI Study/머신러닝(ML)

주니어 PM 혼자 AI 기초 공부: 강화 학습(Reinforcement Learning)

Brownee 2025. 12. 16. 12:13
반응형

📌 주니어 PM 혼자 AI 기초 공부: 강화 학습(Reinforcement Learning)

1. 소개

강화 학습(Reinforcement Learning, 이하 RL)은 AI 에이전트가 보상을 최대화하는 방향으로, 스스로 학습하는 방식입니다. RL에서 에이전트는 환경과 상호작용하며 반복적으로 시행착오(Trial and Error)를 겪으면서, 어떤 행동을 해야 가장 큰 보상을 얻는지를 스스로 '깨닫게' 됩니다. 마치 인간 아이가 걷는 법을 배울 때 넘어지면서 균형 잡는 법을 스스로 체득하는 과정과 유사하며, 인간의 학습 방식과 가장 닮은 AI 학습으로 꼽힙니다.

 

RL은 미리 라벨링된 데이터를 필요로 하지 않고, 스스로 최적의 행동을 탐색하게 하는 데 초점을 맞춥니다. 

 

2. 핵심 개념

  • 에이전트와 환경
    • 학습하는 주체인 에이전트가 환경과 상호작용합니다.
  • 시행착오 (Trial & Error)
    • 처음에는 아무것도 모르기 때문에 무작위로 행동합니다.
    • 수많은 실패와 성공을 겪으며 데이터를 쌓습니다.
    • 데이터를 쌓으며 정책(Policy)을 계속 업데이트합니다.
  • 보상 시스템 (Reward System)
    • 잘한 행동에는 '양의 보상(+)'을, 잘못된 행동에는 '음의 보상(-)'을 줍니다.
    • 학습의 나침반 역할을 합니다.
  • 순차적 의사결정 (Sequential Decision Making)
    • 단발성 판단이 아니라, 연속적인 선택이 최종 결과에 영향을 미치는 문제에 특화되어 있습니다. (예: 바둑, 주식 투자)
  • 탐험과 활용 (Exploration vs Exploitation)
    • 이미 알고 있는 좋은 방법을 계속 쓸 것인지, 아니면 더 좋은 방법을 찾기 위해 새로운 시도를 해볼 것인지 균형을 맞추는 것이 핵심입니다.
  • 가치 함수 (Value Funtion)
    • 장기적인 보상을 예측하는 함수로, 어떤 행동이 미래에 더 유익한지 평가합니다.

 

3. 이미지

강화 학습 과정. (이미지 출처: https://medium.com/@krs2182/deep-reinforcement-learning-94763b654665)

 

4. 비유

강아지에게 배변 훈련을 시키는 과정을 생각해볼까요. 에이전트인 강아지 주변에 배변패드를 놓습니다. 그리고 강아지가 배변패드에 쉬하면 간식을 주고, 그 외의 장소에 쉬하면 혼내기로 합니다.

처음에 강아지는 배변패드가 뭔지 몰라서 이곳 저곳에 쉬하겠죠. 그랬더니 주인이 화를 냅니다. 어리둥절한 강아지는 혼나지 않기 위해 이것 저것을 시도해봅니다. 그러다가 어느 순간 배변패드 위에 쉬했더니 주인이 칭찬하며 간식을 줍니다. 간식을 먹은 강아지는 다음 번에도 배변패드 위에 쉬를 하고, 또 주인이 간식을 줍니다. 이 과정을 반복하면서 강아지는 '배변패드 위에 쉬하면 주인이 간식을 준다' 는 것을 배우고, 간식을 (많이) 먹기 위해 배변패드 위에만 쉬를 하게 됩니다.

즉 에이전트인 강아지는 처음 주어지는 환경에서 시행착오를 반복하지만, 정책을 만들고 계속 업데이트하는 과정에서 보상을 받는 조건을 찾으면 그 방향으로 행동을 교정하게 됩니다.

 

5. 등장 배경

RL은 1980년대 후반 리처드 서튼(Richard Sutton)과 앤드루 바토(Andrew Barto)의 연구에서 본격적으로 등장했습니다. 기존의 지도 학습이 가진 한계 - 대량의 레이블링된 데이터가 필요하고, 순차적 의사결정을 다루기 어렵다는 점을 극복하기 위해 개발되었습니다. 이를테면 기존의 방법은 정적 데이터에 의존했지만, RL은 동적 환경에서 자율 학습을 가능하게 했습니다. 그 결과는 매우 성공적이었습니다. 2016년 알파고(AlphaGo)가 이세돌 기사와의 바둑에서 승리하거나, 자율주행을 구현하는 사례로 가치를 증명했고, 산업 적용이 더욱 확대되고 있습니다. 최근에는 ChatGPT와 같은 LLM(거대언어모델)을 사람의 의도에 맞게 튜닝하는 RLHF(인간 피드백 기반 강화 학습) 기술로 다시 한번 전성기를 맞이했습니다.

 

RLHF

RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화 학습)는 강화 학습의 한 변형으로, AI 모델(특히 대형 언어 모델, LLM)을 인간의 선호도에 맞춰 정렬(alignment)하는 기술입니다. 기존 강화 학습에서 보상 함수를 수학적으로 정의하기 어려운 복잡한 인간 가치(도움이 되고, 해롭지 않으며, 솔직한 응답 등)를 인간의 직접 피드백으로 학습합니다. ChatGPT 같은 모델이 단순한 텍스트 생성기를 넘어 '인간처럼' 도움이 되는 응답을 하게 만드는 핵심 기술입니다.
RLHF는 에이전트가 같은 프롬프트에 모델이 여러 응답을 생성하면, 인간이 어느 응답이 더 좋은지 비교/랭킹합니다. 이 피드백을 바탕으로 별도의 모델을 학습시켜, 응답의 '좋음' 정도를 점수화합니다. 또한 PPO 등의 RL 알고리즘을 적용하여 리워드 모델을 사용해 원본 모델(정책)을 강화 학습으로 최적화하고, KL 페널티를 추가해 원본 모델에서 너무 멀어지지 않게 합니다. 

 

PPO

PPO(Proximal Policy Optimization)는 강화 학습의 정책 그래디언트(Policy Gradient) 방법 중 하나로, 에이전트의 정책을 안정적으로 업데이트하는 알고리즘입니다. 기존 방법이 정책 업데이트가 너무 커서 학습이 불안정해지는 문제를 해결하기 위해 '클리핑(Clipping)' 기법을 도입해 큰 변화 없이 점진적으로 개선합니다. PPO는 구현이 간단하고 안정적이며, RLHF(인간 피드백 기반 강화 학습)에서 핵심적으로 사용되어 ChatGPT 같은 LLM의 정렬(alignment)에 필수적입니다.

 

 

6. 활용 사례

RL은 로보틱스, 금융, 게임/엔터테인먼트 등의 순차적 의사결정과 최적화가 필요한 사업 분야에서 가장 효과적입니다.

  • 게임 AI
    • DeepMind의 AlphaGo: 바둑 챔피언을 이긴 AI로, 수백만 번의 시뮬레이션을 통해 최적 수를 학습.
    • 게임 산업에서 NPC(비플레이어 캐릭터) 개발에 활용.
  • 자율주행 자동차
    • Tesla Autopilot: 도로 환경에서 안전한 주행 경로를 실시간 최적화.
    • 2025년 기준, RL이 교통 신호와 장애물 대응을 강화해 사고율을 20% 줄임.
  • 금융 거래
    • JPMorgan의 LOXM: 주식 매매 타이밍을 보상(이익) 기반으로 학습.
    • 알고리즘 트레이딩에서 시장 변동성을 활용해 수익률을 높임.
  • 공정 및 에너지 최적화
    • DeepMind: 데이터 센터의 냉각 시스템 제어에 강화 학습을 적용하여 냉각 비용을 40% 절감.
    • 수많은 센서 데이터(온도, 압력 등)를 보고 AI가 스스로 팬 속도와 밸브를 조절.
  • 로보틱스 및 물류
    • 쿠팡이나 아마존 같은 물류 센터에서 로봇이 서로 부딪히지 않고 최단 경로로 물건을 나르는 경로 최적화에 사용.
  • 개인화 추천
    • 넷플릭스나 유튜브에서 유저가 '오랫동안 서비스를 이용(Long-term Engagement)'하도록 추천 순서를 배치하는 데 활용합니다.

 

7. 한계

  • 데이터 효율성 문제
    • 학습에 수백만 번의 시행착오가 필요합니다.
    • 학습시간이 오래 걸리고 컴퓨팅 비용이 비쌉니다.
  • 보상 해킹 (Reward Hacking)
    • AI가 우리가 의도한 대로가 아니라, 꼼수를 부려 보상만 챙기는 경우가 발생합니다.
    • 예: 청소 로봇에게 "먼지를 많이 흡입하면 점수를 줄게"라고 했더니, 먼지를 흡입했다가 다시 뱉고 다시 흡입하여 점수를 무한대로 올리는 경우.
  • 현실 적용 위험
    • 자율주행차를 실제 도로에서 시행착오(사고)를 겪으며 학습시킬 수는 없습니다.
    • 정교한 시뮬레이션 환경이 필수적입니다.
    • 탐험-활용 딜레마: 새로운 행동을 탐색할지(위험), 알려진 최적을 활용할지(안전) 균형이 어렵습니다.
  • 불안정성, 과적합
    • 복잡한 환경에서 정책이 불안정해집니다.

 

8. 주요 용어

  • 에이전트(Agent): 환경과 상호작용하며 학습하는 주체.
  • 환경(Environment): 에이전트가 행동하는 외부 세계.
  • 상태(State): 에이전트가 현재 처한 상황.
  • 행동(Action): 에이전트가 환경에 대해 취하는 선택.
  • 보상(Reward): 행동 후 받은 긍정/부정 피드백 점수.
  • 정책(Policy): 상태에 따른 행동 선택 규칙.
  • 가치 함수(Value Function): 장기 보상을 예측하는 함수.
  • 마르코프 결정 과정(MDP): RL의 수학적 프레임워크로, 상태 전이가 확률적임을 가정.

 

9. 퀴즈

  • 질문 1) 강화 학습에서 '보상'의 역할은 무엇인가요?  
  • 질문 2) 정책(Policy)이란 무엇을 의미하나요? 
  • 질문 3) 강화 학습의 주요 구성 요소 중 '환경'은 어떤 역할을 하나요?  
  • 질문 4) 강화 학습과 지도 학습의 가장 큰 차이점은 무엇인가요?
  •  
  • 답 1) 에이전트의 행동을 평가하고, 장기적으로 최대화할 목표가 됩니다.
  • 답 2) 상태에 따라 최적의 행동을 결정하는 전략입니다.
  • 답 3) 에이전트의 행동에 응답하며 다음 상태와 보상을 제공합니다.
  • 답 4) 지도 학습은 정답(Label)이 주어진 데이터를 학습하지만, 강화 학습은 시행착오를 통해 보상(Reward)을 최대화하는 방식을 스스로 찾아냅니다.

 

10. 참고 자료

반응형