주니어 PM 혼자 AI 기초 공부: 머신러닝

카테고리 없음

주니어 PM 혼자 AI 기초 공부: 머신러닝 - CatBoost

Brownee 2025. 12. 23. 11:47

요약

CatBoost는 Yandex에서 개발된 오픈소스 그래디언트 부스팅(Gradient Boosting) 라이브러리로, 범주형 특징(categorical features)을 자동으로 처리하는 데 특화되어 있습니다. tabular 데이터 기반의 예측 모델링에서 매우 유용하며, AI 학습에서 과적합(overfitting)을 줄이고 정확도를 높이는 데 중요한 역할을 합니다. CatBoost를 활용해서 데이터 전처리 시간을 절감하고, 비즈니스 의사결정을 위한 빠른 인사이트를 얻을 수 있습니다.

핵심 포인트
- CatBoost는 범주형 데이터를 별도 변환 없이 처리할 수 있어서 실무 효율성이 높습니다.
- Ordered boosting 기법으로 과적합을 방지하며, 모델의 일반화 성능을 강화합니다.
- GPU를 지원하여 대규모 데이터셋에서도 빠른 학습이 가능합니다.

실무에서는 Python 라이브러리를 설치해 간단한 분류/회귀 태스크부터 테스트하세요. 예를 들어, 고객 데이터로 churn 예측 모델을 만들며 실무 가치를 검증할 수 있습니다. 다만 메모리 소비가 클 수 있으니, 소규모 데이터부터 시작하세요.

Categorical Data 처리의 최강자

CatBoost는 'Categorical Boosting"의 약자로, Yandex에서 개발된 오픈소스 그래디언트 부스팅 라이브러리입니다. 의사결정 나무(Decision Trees)를 기반으로 한 머신러닝 알고리즘으로, 분류(classification), 회귀(regression), 랭킹(ranking) 등의 작업에 사용됩니다. 특히 범주형 특징(예: 고객 유형, 지역 코드 등 비수치적 데이터)을 자동으로 처리하는 데 강점이 있어서, 데이터 전처리 없이 모델을 학습할 수 있습니다.

AI 학습에서 CatBoost의 중요성은 tabular 데이터 기반의 실무 프로젝트에서 두드러집니다. 기존 알고리즘(XGBoost, LightGBM)보다 과적합을 줄이고 정확도를 높여서, 신뢰할 수 있는 예측 모델을 빠르게 구축할 수 있도록 해줍니다.

Categorical features(범주형 특징)

카테고리나 그룹으로 나눌 수 있는 특징입니다. 숫자로 계산할 수 없고, 분류 또는 구분만 가능한 데이터입니다. 텍스트나 라벨 형태의 데이터이기 때문에 머신러닝에서는 숫자로 변환해야 합니다.

핵심 개념

Ordered Boosting
- 전통적인 부스팅 기법은 모든 학습 데이터를 사용해서 다음 단계의 오차를 계산합니다. 이 때 타깃 누수(Target leakage)가 발생하기 쉽습니다.
- CatBoost는 데이터의 순서를 무작위로 섞고, 각 트리가 학습할 때 이전 데이터만 사용합니다.
- 이러한 시간적 순서 또는 순열 기반의 접근방식이 과적합을 줄이고, 실무에서 모델의 일반화 성능을 높여줍니다.
Categorical Features Handling
- 대부분의 머신러닝 모델은 문자열을 숫자로 이해할 수 없습니다.
- 기존에는 문자열을 0과 1로 변환하는 방식 또는 데이터에 숫자를 할당하는 방식을 사용했습니다.
- 기존의 방식은 카테고리의 갯수가 많아질수록 데이터가 방대해지고 연산 효율이 급격히 떨어집니다.
- CatBoost는 Ordered Target Statistics 기법을 사용해서, 범주형 데이터를 자동으로 숫자로 변환합니다.
- 이로써 복잡한 데이터 전처리 과정을 생략하고 raw data를 바로 사용할 수 있어 시간 절감 효과가 큽니다.
Symmetric Trees: 대칭 트리
- 일반적인 트리는 비대칭적으로 자라며 구조가 복잡해집니다.
- CatBoost는 트리의 특정 깊이에서 모든 노드를 동일한 피처로 분할하는 균형 트리(대칭적 구조)를 사용합니다.
- 대칭 구조는 연산 시 CPU와 GPU의 하드웨어 특성을 최대한 활용할 수 있습니다.
- 예측 속도가 매우 빠르고, 메모리 사용을 최적화하고, 모델이 필요 이상으로 복잡해지는 것을 막는 정규화 효과를 갖습니다.
- 실시간 대규모 비즈니스 데이터셋에 적합합니다.
GPU Acceleration
- CatBoost는 GPU를 사용한 학습에 최적화되어 있어서, CPU 단독 학습에 비해 수십 배 이상의 속도를 냅니다.
- 멀티 GPU 환경에서도 선형적인 성능 확장이 가능합니다.
- 대규모 데이터에서 빠른 학습이 가능합니다.

타깃 누수(Target leakage)

'미래의 정보가 과거로 새어 들어가는 것' 을 뜻합니다. 모델이 학습할 때 절대 알 수 없어야 할 정보가 특징에 포함되어, 모델이 부정행위(커닝)를 하게 되는 현상입니다. 문제집으로 시험공부를 하는데 답안지를 보고 풀어서, 실제 시험에서는 '망하는' 현상입니다. 학습이 전혀 안 된 거죠.

예를 들어, 신용카드 사기 탐지를 위해 모델을 학습시킬 때, 입력한 데이터셋에 '(사기 사례로 인한)차단 여부' 특징이 있다고 가정하겠습니다. 기존 그래디언트 부스팅 모델은 데이터셋 전체를 학습하고 결과를 내어놓기 때문에 '차단 여부' 특징까지 학습해서 사기 사례를 탐지해냅니다. 즉, 이미 사기 사례로 차단된 고객의 ID를 '사기일 확률이 높다' 고 답변하는 것이죠. 이 경우, 모델 학습에서는 높은 정확도를 기록하지만 '차단 여부' 특징이 없는 실무 데이터에서는 사기를 탐지해낼 확률이 매우 적습니다.

이러한 문제를 해결하기 위해 CatBoost에서 Ordered Boosting 방식을 사용하는 것입니다.

이미지

CatBoost 알고리즘의 전체 구조를 나타내는 다이어그램. 트리 빌딩과 categorical 처리 과정을 보여줍니다.

이미지 출처:

https://www.researchgate.net/figure/Structure-of-CatBoost-algorithm_fig3_372827215

등장 배경

CatBoost는 2017년 Yandex에서 개발되었으며, 기존 그래디언트 부스팅 라이브러리(XGBoost, LightGBM)의 한계를 극복하기 위해 등장했습니다. 이전 모델의 한계는 categorical features의 처리가 어려웠던 점과 타깃 누수로 인한 과적합이었습니다. 또한, 그래디언트를 계산할 때 동일 데이터를 사용함으로써 예측의 편향(bias)이 발생했습니다.

CatBoost는 ordered boosting과 ordered target statistics를 통해 이러한 문제를 해결했습니다. 2025년 현재 이 목적은 달성되었으며, tabular 데이터를 처리하는 산업 표준으로 자리잡았습니다. 그러나 대규모 데이터 처리 작업에서는 여전히 메모리 최적화 연구가 진행 중입니다.

문제 해결

PM으로서 CatBoost를 활용하면 다음과 같은 실무의 문제를 해결할 수 있습니다.

데이터 전처리 부담 감소
- categorical 데이터를 자동으로 처리해, 프로젝트 타임라인을 단축합니다. (예: 마케팅 데이터 분석 시 고객 유형 분류.)
예측 정확도 향상
- 과적합 방지로 신뢰성이 높은 모델을 만들어, 의사결정 시 오류를 줄입니다. (예: 재고 예측에서 수요 오차 최소화.)
대규모 데이터 처리
- GPU 지원으로 빠른 학습이 가능해, 회사 사업 확장 시 스케일링 문제를 해결합니다. PM은 이를 통해 AI 도입 ROI를 높일 수 있습니다.

활용 사례

Cloudflare의 봇 보호 시스템
- Cloudflare는 CatBoost를 사용해 매일 660억 건의 요청을 분석하며, 봇 트래픽(예: credential stuffing 공격)을 예측합니다.
- trillion 규모 데이터셋에서 모델을 학습해 99.68%의 true positive rate를 달성했습니다.
- 이는 웹 보안 사업에서 실시간 위협 탐지를 강화합니다.
Careem의 고객 행동 예측
- 중동 라이드헤일링 회사 Careem은 CatBoost로 고객의 다음 이동(목적지 예측)을 모델링합니다.
- categorical 데이터(지역, 시간대)를 활용해 추천 시스템을 개선하고, 사용자 만족도를 높였습니다.
헬스케어
- 병원에서 CatBoost를 사용해 환자 데이터(연령, 증상 카테고리)를 분석하며, 치료 결과와 자원 배분을 예측합니다.
- 이는 의료 비용을 절감시키고 환자들을 효율적으로 관리할 수 있게 했습니다.

Key Words

Gradient Boosting: 약한 학습자(트리)를 순차적으로 결합해 강한 모델을 만드는 앙상블 기법. 오류를 최소화합니다.
Categorical Features: 비수치적 데이터(예: 색상, 브랜드). CatBoost가 자동으로 처리합니다.
Ordered Boosting: 데이터 순서를 무작위로 섞어서 과거 데이터만 사용, 과적합 방지.
Target Statistics(TS): 카테고리별 타겟 평균 통계. 누수를 피하기 위해 ordered 방식 사용.
Symmetric Trees: 동일 레벨에서 같은 피처로 분할하는 균형 트리. 속도와 메모리 최적화.
Learning Rate: 각 트리의 기여도를 조절하는 파라미터. 작을수록 안정적.
GPU Acceleration: GPU를 활용한 병렬 학습. 대규모 데이터 처리 속도 향상.

한계

메모리 소비 높음
- 대규모 데이터셋이나 고차원 categorical features에서 메모리가 많이 소모됩니다.
- 특히 복잡한 모델 학습 시 시스템 자원이 부족할 수 있습니다.
- 극복: big data 적용을 위한 Spark 통합 연구가 진행 중이며, 메모리 최적화(예: batch processing, early stopping)와 더 다양한 데이터 유형 지원(예: embeddings)이 연구되고 있습니다.
학습 시간이 길다
- Ordered boosting으로 인해 다른 알고리즘보다 학습이 느릴 수 있습니다.
특정 환경 제한
- Windows 지원 미비, 일부 모드에서 text/embedding features 미지원.

퀴즈

Q1) CatBoost가 categorical features를 어떻게 처리하나요?
Q2) Ordered boosting의 주요 목적은 무엇인가요?
Q3) CatBoost의 symmetric trees가 실무에서 어떤 이점을 주나요?
A1) 자동으로 숫자 통계로 변환하며, ordered target statistics를 사용해 타깃 누수를 방지합니다.
A2) overfitting과 target leakage를 줄여 모델의 일반화 성능을 높이는 것입니다.
A3) 학습 속도를 높이고 메모리를 절약해 대규모 데이터 처리에 유용합니다.

References

- https://catboost.ai/ (공식 사이트, 키 기능 및 사례)
- https://arxiv.org/pdf/1706.09516 (알고리즘 논문, 배경 및 기법)
- https://www.datacamp.com/tutorial/catboost (초보자 가이드, 개념 및 한계)
- https://en.wikipedia.org/wiki/CatBoost (위키피디아, 역사)
- https://catboost.ai/news/cloudflare-s-protection-against-bots-employs-catboost (Cloudflare 사례)
- https://www.researchgate.net/figure/Structure-of-CatBoost-algorithm_fig3_372827215 (이미지 소스)
- https://newsletter.theaiedge.io/p/understanding-catboost (상세 설명)
- https://pmc.ncbi.nlm.nih.gov/articles/PMC7610170/ (big data 연구)

**Key Citations:**
- [CatBoost - Wikipedia](https://en.wikipedia.org/wiki/CatBoost)
- [Understanding CatBoost Algorithm - Medium](https://medium.com/analytics-vidhya/catboost-101-fb2fdc3398f3)
- [CatBoost for big data: an interdisciplinary review - PMC - NIH](https://pmc.ncbi.nlm.nih.gov/articles/PMC7610170/)
- [CatBoost in Machine Learning: A Detailed Guide | DataCamp](https://www.datacamp.com/tutorial/catboost)
- [What Is CatBoost? (Definition, How Does It Work?) | Built In](https://builtin.com/machine-learning/catboost)
- [CatBoost - Graphite Note](https://graphite-note.com/catboost/)
- [New coworker says XGBoost/CatBoost are "outdated" and we ... - Reddit](https://www.reddit.com/r/learndatascience/comments/1pbavp5/new_coworker_says_xgboostcatboost_are_outdated/)
- [CatBoost: A machine learning library to handle categorical (CAT ... - Analytics Vidhya](https://www.analyticsvidhya.com/blog/2017/08/catboost-automated-categorical-data/)
- [CatBoost: unbiased boosting with categorical features - NeurIPS](https://papers.neurips.cc/paper/7898-catboost-unbiased-boosting-with-categorical-features.pdf)
- [Overview | CatBoost](https://catboost.ai/docs/en/references/training-parameters/)
- [CatBoost: Complete Guide to Categorical Boosting with Target ...](https://mbrenndoerfer.com/writing/catboost-categorical-boosting-complete-guide-target-encoding-symmetric-trees-python-implementation)
- [Cloudflare's Protection Against Bots Employs CatBoost](https://catboost.ai/news/cloudflare-s-protection-against-bots-employs-catboost)
- [CatBoost in Machine Learning: A Detailed Guide](https://www.datacamp.com/tutorial/catboost)
- [CatBoost - state-of-the-art open-source gradient boosting library](https://catboost.ai/)
- [CatBoost: unbiased boosting with categorical features - arXiv](https://arxiv.org/pdf/1706.09516)

저작자표시 비영리 변경금지 (새창열림)

현재글주니어 PM 혼자 AI 기초 공부: 머신러닝 - CatBoost

Brownlab

인공지능(Ai) 공부하는 주니어 기획자 브라우니의 블로그. 인공지능, 머신러닝, 딥러닝을 서비스/제품 기획자 관점에서 스터디합니다!

머신러닝, 오토인코더, 지도학습, decisiontree, lightgbm, PM, 스터디, 나이브베이즈, vae, CatBoost, 그래디언트부스팅, 경사하강법, 과적합, 디퓨전모델, 랜덤포레스트, 확률적과정, 자기지도학습, xgboost, 잠재공간, Ai,

Today :
Yesterday :

Brownlab