AI Study/머신러닝(ML)

주니어 PM 혼자 AI 기초 공부: 머신러닝 모델과 알고리즘

Brownee 2025. 12. 17. 13:01
반응형

📌 주니어 PM 혼자 AI 기초 공부: 머신러닝 모델과 알고리즘

 

머신 러닝이 더 잘 하는 것

머신 러닝의 한계를 극복하기 위해 딥 러닝이 등장하면서 AI 분야에 발전과 혁신을 가져왔지만, 머신 러닝이 딥 러닝으로 완전히 대체된 것은 아니지요. 2025년 12월 현재, 여전히 가치를 인정받고 활발하게 사용되고 있는 머신 러닝 모델/알고리즘이 있습니다.

Machine Learning. (이미지 출처: https://www.geeksforgeeks.org/machine-learning/ml-machine-learning/)


그래디언트 부스팅 계열

그래디언트 부스팅(Gradient Boosting)은 머신 러닝의 앙상블 기법으로, 약한 학습기(주로 의사결정 나무)를 순차적으로 결합해서 이전 모델의 오류를 점진적으로 보정하는 방법입니다. 각 단계에서 손실 함수의 그래디언트(기울기)를 따라 모델을 최적화합니다. 랜덤 포레스트 같은 배깅보다 높은 정확도를 내고, Kaggle 대회나 실무에서 자주 우승하는 알고리즘입니다. 그래디언트 부스팅은 정형 데이터 처리에 대한 최선의 선택으로 평가받고 있습니다.

 

참고) 👉 '그래디언트 부스팅' 더 알아보기

 

(1) XGBoost (eXtreme Gradient Boosting)

세계에서 가장 인기 있는 머신러닝 도구 중 하나로, 정형 데이터에서 강력한 성능을 보입니다. 여러 개의 약한 학습기를 순차적으로 학습시켜 이전 모델의 오류를 보정하는 방식입니다. L1/L2 정규화를 통해 과적합을 방지하고, 결측값을 자체적으로 처리할 수 있습니다. Kaggle 대회에서 우승을 많이 차지한 알고리즘입니다.

(2) LightGBM

속도와 효율성을 위해 만들어졌으며, 대규모 데이터셋을 위해 설계되었습니다. Microsoft가 개발했으며, 히스토그램 기반 학습과 리프 단위 트리 성장 방식으로 빠른 학습 속도와 낮은 메모리 사용량을 자랑합니다. 실시간 입찰 시스템, 추천 엔진, 대규모 분류 문제에 이상적입니다.

(3) CatBoost

범주형 특성을 자동으로 처리하도록 만들어졌습니다. Yandex가 개발했으며, 대칭 트리 구조를 사용하고 Ordered Boosting으로 과적합을 방지합니다. 전자상거래(제품 추천)와 고객 행동 분석처럼 범주형 특성이 많은 데이터셋에서 탁월합니다. 신용카드 사기 탐지에서 F1 점수 0.9161로 최고 성능을 달성했습니다.


의사결정 나무 (Decision Tree)

규칙 기반으로 데이터를 분할하는 트리 구조 모델입니다. 각 노드에서 특성 값에 따라 데이터를 나누며, 해석이 매우 쉽고 시각화가 용이합니다. 범주형과 수치형 데이터를 모두 처리할 수 있으며, 랜덤 포레스트와 부스팅의 기본 구성 요소입니다.

 

참고) 👉 '의사결정 나무' 더 알아보기


랜덤 포레스트 (Random Forest)

여러 개의 의사결정 나무를 만들어 각각 독립적으로 학습시킨 후, 그 결과를 평균(회귀) 또는 투표(분류)로 결합하는 앙상블 기법입니다. 복잡한 비선형 패턴을 쉽게 포착하고 특성 간 상관관계를 찾을 수 있으며, 고차원 데이터를 효과적으로 처리합니다. 또한 특성 중요도를 제공하여 어떤 변수가 예측에 중요한지 알 수 있고, 병렬 처리가 가능해 계산 효율이 높습니다. IoT 보안에서 DDoS 공격 탐지에 SVM(서포트 벡터 머신)과 Naive Bayes(나이브 베이즈)보다 우수한 성능을 보였습니다. 2024-2025년 현재 토지 피복 분류, 심혈관 질환 예측, 의료 진단 등 다양한 분야에서 활발히 사용되고 있습니다.

 

참고) 👉 '랜덤 포레스트' 더 알아보기

 


서포트 벡터 머신 (SVM)

데이터를 분류하는 최적의 결정 경계(초평면)를 찾는 알고리즘입니다. 클래스 간 마진을 최대화하여 명확한 결정 경계를 만듭니다. 작은 크기~중간 크기의 잘 구조화된 데이터셋에서 잘 작동합니다. 커널 트릭(RBF, 다항식 등)을 사용하여 비선형 데이터도 처리할 수 있습니다. 결측값과 이상치에 대해 강건하고(robustness) 고차원 데이터에 효과적입니다. IoT 네트워크의 이상 탐지에서 One-Class SVM이 우수한 정밀도와 재현율을 달성했습니다. 2025년 현재 사이버 보안, DDoS 공격 탐지, 의료 진단, 원격 감지 분류 등에서 계속 사용됩니다.

 

참고) 👉 '서포트 벡터 머신' 더 알아보기


k-means 클러스터링

데이터를 k개의 그룹으로 나누는 비지도학습 알고리즘입니다. 각 데이터 포인트를 가장 가까운 중심점(centroid)에 할당하고, 중심점을 업데이트하는 과정을 반복합니다. 간단하고 빠르며, 대용량 데이터에도 효율적입니다. 고객 세그먼트, 이미지 압축, 이상치 탐지 등에 사용됩니다.

 

참고) 👉 '클러스터링' 더 알아보기


주성분 분석 (PCA)

고차원 데이터를 저차원으로 축소하는 선형 변환 기법입니다. 데이터의 분산을 최대한 보존하면서 차원을 줄여 시각화와 계산 효율을 높입니다. 노이즈 제거, 다중공선성 해결, 특성 추출에 활용되며, 특히 이미지 처리와 데이터 전처리에서 필수적입니다.

 

참고) 👉 '주성분 분석(PCA)' 더 알아보기


나이브 베이즈 (Naive Bayes)

베이즈 정리에 기반한 확률적 분류 알고리즘입니다. 각 특성이 독립적이라고 가정하여(naive) 빠르게 계산합니다. 학습과 예측이 매우 빠르고, 작은 데이터셋에서도 잘 작동합니다. 텍스트 분류(스팸 필터, 감정 분석), 추천 시스템, 의료 진단에 널리 사용됩니다.

 

참고) 👉 '나이브 베이즈(Naive Bayes)' 더 알아보기


k-최근접 이웃 (k-NN)

새로운 데이터 포인트의 클래스를 k개의 가장 가까운 이웃들의 투표로 결정하는 알고리즘입니다. 학습 과정이 없어(lazy learning) 구현이 간단하고, 비선형 데이터를 자연스럽게 처리합니다. 추천 시스템, 패턴 인식, 이상치 탐지에 활용됩니다.

 

참고) 👉 'k-최근접 이웃(k-NN)' 더 알아보기


딥러닝보다 우수한 알고리즘

위에서 소개한 머신러닝 알고리즘들은 현재 테이블/정형 데이터에서 딥러닝보다 우수한 경우가 많습니다. 또한 적은 데이터로도 효과적으로 작동하고, 해석 가능성이 높습니다. 학습 속도가 빠르고 계산 비용이 적기 때문에 실무에서 여전히 핵심 도구로 사용되고 있습니다.

반응형