AI Study 27

PM 혼자 AI 기초 공부: 머신러닝 - K-최근접 이웃(K-NN)

k-최근접 이웃(k-NN) 1. 소개 k-최근접 이웃(k-Nearest Neighbors, k-NN)은 머신러닝에서 가장 직관적이고 이해하기 쉬운 분류 및 회귀 알고리즘입니다. 새로운 데이터가 들어왔을 때, 그와 가장 가까운 k개의 기존 데이터를 찾아 다수결 또는 평균으로 결과를 예측하는 방식입니다. PM 에게 k-NN에 대해 아는 것이 중요한 이유는 다음과 같습니다. 첫째, 알고리즘의 작동 원리가 명확해서 비즈니스 이해관계자에게 설명하기 쉽습니다. 둘째, 별도의 훈련 과정 없이 바로 사용할 수 있어 프로토타입 개발이나 PoC(Proof of Concept) 단계에서 빠르게 검증할 수 있습니다. 셋째, 추천 시스템, 이상 탐지, 이미지 인..

PM 혼자 AI 기초 공부: 머신러닝 - 나이브 베이즈(Naive Bayes)

나이브 베이즈: PM을 위한 실무 가이드확률로 판단하는 AI의 기초, 실무 관점에서 이해하기소개: 확률로 판단하는 AI의 기초나이브 베이즈(Naive Bayes)는 베이즈 정리를 기반으로 한 확률적 머신러닝 알고리즘입니다. "이메일이 스팸일 확률은?", "이 리뷰가 긍정적일 확률은?"과 같은 분류 문제를 확률로 접근합니다.AI 프로젝트를 관리하는 PM에게 나이브 베이즈가 중요한 이유는 세 가지입니다. 첫째, 학습 속도가 빠르고 리소스를 적게 사용해 빠른 프로토타이핑이 가능합니다. 둘째, 결과를 확률로 제시해 비즈니스 의사결정에 직관적으로 활용할 수 있습니다. 셋째, 텍스트 분류, 스팸 필터링 등 실무에서 자주 마주치는 문제에 여전히 효과적입니다.핵심 개념베이즈 정리 기반의 조건부 확률나이브 베이즈는 "이..

PM 혼자 AI 기초 공부: 머신러닝 - 주성분 분석(PCA)

1. 소개: 주성분 분석주성분 분석(Principal Component Analysis, PCA)은 고차원 데이터를 저차원으로 압축하는 가장 기본적이면서도 강력한 차원 축소 기법입니다.고객 데이터가 100개의 특성(나이, 소득, 구매 이력, 클릭 패턴 등)을 가지고 있다면, 이를 모두 분석하는 것은 매우 복잡하고 시간이 많이 걸립니다. PCA는 이 100개의 특성 중에서 가장 중요한 정보를 담고 있는 5~10개의 '핵심 특성'으로 압축해줍니다.AI/ML 학습에서 PCA가 중요한 이유학습 속도 향상: 데이터 차원이 줄어들면 모델 학습 시간이 대폭 단축됩니다과적합 방지: 불필요한 노이즈를 제거하여 모델이 일반화를 더 잘하도록 돕습니다시각화 가능: 고차원 데이터를 2D/3D로 압축하여 사람이 이해할 수 있게 ..

그래디언트 부스팅; 세 가지 알고리즘 핵심만 비교 (XGBoost, LightGBM, CatBoost)

📌 주니어 PM 혼자 AI 기초 공부: 머신러닝 - 그래디언트 부스팅 세 가지 알고리즘 비교 (XGBoost, LightGBM, CatBoost)정형 데이터를 분류하고, 정형 데이터로부터 예측하고, 정형 데이터의 랭킹 작업을 하려면 그래디언트 부스팅 라이브러리 세 가지 중 하나를 사용하면 됩니다. 그래디언트 부스팅 계열의 세 가지 라이브러리XGBoost, LightGBM, CatBoost 는 모두 그래디언트 부스팅(Gradient Boosting) 계열 라이브러리로, 약한 모델(주로 의사결정 트리)을 여러 개 모아 강력한 예측 모델을 만드는 방법입니다. 각 알고리즘은 데이터 처리 방식에서 차이가 있기 때문에, 데이터의 규모와 종류에 따라 적절한 알고리즘을 선택합니다. 연구에 따르면, XGBoost는 균..

주니어 PM 혼자 AI 기초 공부: 머신러닝 - LightGBM

요약 LightGBM은 Microsoft가 개발한 그래디언트 부스팅 라이브러리로, 트리 기반 학습을 통해 대규모 데이터셋에서 효율적인 머신러닝 작업을 수행합니다. 연구에 따르면 XGBoost보다 속도와 메모리 효율성이 우수하지만, 데이터 규모에 따라 최적화가 필요할 수 있습니다.LightGBM은 리프 중심 트리 성장과 히스토그램 기반 기법을 통해 빠르고 메모리 효율적인 모델링을 제공하지만, 작은 데이터셋에서는 과적합 위험이 있을 수 있습니다.경쟁력 면에서 대규모 데이터 처리 속도가 탁월하며, 금융 및 의료 분야에서 실무 적용이 증가하고 있지만, 해석 가능성에 대한 논란이 있습니다.활용 사례는 사기 탐지와 판매 예측이 주를 이루며, 최근 하이브리드 모델이 한계를 보완하고 있습니다.한계로 인해 모든 시나리오..

주니어 PM 혼자 AI 기초 공부: 머신러닝 - XGBoost

📌 주니어 PM 혼자 AI 기초 공부: 머신러닝 - XGBoost정형 데이터 예측의 최강자XGBoost는 eXtreme Gradient Boosting의 약자로, 정형 데이터 예측에서 강력한 성능을 발휘하는 머신러닝 라이브러리입니다. XGBoost는 의사결정 나무(decisoin tree)를 기반으로 한 앙상블 학습 방법으로, 예측의 정확도와 속도, 안정성 면에서 뛰어납니다. 이미지나 음성이 아닌 고객 데이터/거래 데이터/로그 데이터 등의 tabular 데이터 처리에 탁월하고, 실무에서는 분류, 회귀 등의 예측 모델링에 필수적입니다. 특히 빠르게 성과를 내야 하고, 결과에 대한 설명이 필요한 비즈니스에 적합합니다. XGBoost 는 Kaggle 대회에서 우승팀의 60% 이상이 사용한 모델이기도 합니다...

주니어 PM 혼자 AI 기초 공부: 머신러닝 - 그래디언트 부스팅(Gradient Boosting)

📌 주니어 PM 혼자 AI 기초 공부: 머신러닝 - 그래디언트 부스팅(Gradient Boosting) 그래디언트 부스팅그래디언트 부스팅(Gradient Boosting, 이하 GB)은 머신러닝의 앙상블 기법으로, 여러 개의 단순한 모델('약한 예측 모델'. 주로 의사결정 나무)을 순차적으로 결합하여 강력한 예측 모델을 만드는 방법입니다. 정형 데이터를 다루는 머신러닝 대회(Kaggle 등)에서 우승한 모델의 80% 이상이 GB 모델을 사용할 만큼 성능이 검증된 개념입니다. 그래디언트 부스팅이라 부르는 이유는 '그래디언트(경사)' 라는 수학적 도구를 사용해서 모델의 성능을 '부스팅' 하기 때문입니다. 이 방법이 등장하기 전에는 에이다부스트(Adaboost) 라는 기법이 있었는데, 틀린 데이터에 가중치..

주니어 PM 혼자 AI 기초 공부: 머신러닝 모델과 알고리즘

📌 주니어 PM 혼자 AI 기초 공부: 머신러닝 모델과 알고리즘 머신 러닝이 더 잘 하는 것머신 러닝의 한계를 극복하기 위해 딥 러닝이 등장하면서 AI 분야에 발전과 혁신을 가져왔지만, 머신 러닝이 딥 러닝으로 완전히 대체된 것은 아니지요. 2025년 12월 현재, 여전히 가치를 인정받고 활발하게 사용되고 있는 머신 러닝 모델/알고리즘이 있습니다.그래디언트 부스팅 계열그래디언트 부스팅(Gradient Boosting)은 머신 러닝의 앙상블 기법으로, 약한 학습기(주로 의사결정 나무)를 순차적으로 결합해서 이전 모델의 오류를 점진적으로 보정하는 방법입니다. 각 단계에서 손실 함수의 그래디언트(기울기)를 따라 모델을 최적화합니다. 랜덤 포레스트 같은 배깅보다 높은 정확도를 내고, Kaggle 대회나 실무에..

주니어 PM 혼자 AI 기초 공부: 강화 학습(Reinforcement Learning)

📌 주니어 PM 혼자 AI 기초 공부: 강화 학습(Reinforcement Learning)1. 소개강화 학습(Reinforcement Learning, 이하 RL)은 AI 에이전트가 보상을 최대화하는 방향으로, 스스로 학습하는 방식입니다. RL에서 에이전트는 환경과 상호작용하며 반복적으로 시행착오(Trial and Error)를 겪으면서, 어떤 행동을 해야 가장 큰 보상을 얻는지를 스스로 '깨닫게' 됩니다. 마치 인간 아이가 걷는 법을 배울 때 넘어지면서 균형 잡는 법을 스스로 체득하는 과정과 유사하며, 인간의 학습 방식과 가장 닮은 AI 학습으로 꼽힙니다. RL은 미리 라벨링된 데이터를 필요로 하지 않고, 스스로 최적의 행동을 탐색하게 하는 데 초점을 맞춥니다. 2. 핵심 개념에이전트와 환경학습하..

주니어 PM 혼자 AI 기초 공부: 마스크 언어 모델링(Masked Language Modeling, MLM)

📌 주니어 PM 혼자 AI 기초 공부: 마스크 언어 모델링(Masked Language Modeling, MLM) 1. 소개마스킹 학습(Masked Learning), 또는 마스크 언어 모델링(Masked Language Modeling, 이하 MLM)은 대형 언어 모델(LLM)의 사전 훈련 기법 중의 하나입니다. 특히 자연어 처리(NLP) 분야의 딥러닝 모델(BERT, GPT의 일부)을 훈련하는 데 사용되는 자기 지도 학습(Self-Supervised Learning) 방법입니다. MLM은 입력한 문장의 일부 단어를 무작위로 가리고(MASK 토큰), 모델이 문장의 맥락을 바탕으로 가려진 단어를 예측하며 학습합니다. 이는 '빈칸 채우기(fill-in-the-blank)'와 유사합니다. 모델이 빈 칸 앞..