반응형
📌 머신러닝의 기초 - 부록. 머신러닝 라이브러리와 프레임워크가 뭘까요?
머신러닝 작업을 돕기 위해 만들어진 재사용 가능한 코드 묶음.
검증된 모듈과 알고리즘을 제공해 개발자의 시간을 절약하고 프로젝트 품질을 높여줍니다.
머신러닝 라이브러리는 개발자가 모델을 하나하나 처음부터 코딩하지 않고도 프로젝트를 빠르게 진행할 수 있게 도와주는 기성품 코드 모음집이에요. IBM은 이런 라이브러리를 '머신러닝 프로젝트에서 유용한 미리 만들어진 코드 덩어리'라고 소개하며, 사람 대신 공통적인 AI 작업을 처리하는 검증된 알고리즘과 도구를 제공해 시간을 절약한다고 설명해요.
대부분의 ML 라이브러리는 모듈로 구성돼 있어 전처리·학습·평가 등을 원하는 대로 끼워 넣을 수 있고, 파이썬만 해도 1,000개 가까운 라이브러리가 존재한다고 합니다.

✅ 무슨 역할을 하나요?
- 프레임워크/핵심 플랫폼
- TensorFlow, PyTorch, scikit‑learn 같은 일반 라이브러리는 전체 ML 파이프라인을 구축하는 기반이에요. 이런 라이브러리는 GPU를 활용한 대규모 학습(딥러닝)이나 회귀·분류·클러스터링 같은 기본 알고리즘을 모두 제공하죠 .
- 특화 라이브러리
- 특정 단계나 문제를 다루는 라이브러리도 있어요. 예를 들면 transformers는 대형 언어 모델을 쉽게 불러올 수 있고, Stable‑Baselines3는 강화학습용 알고리즘을 모아놨어요 .
머신러닝 프로젝트는 데이터 전처리, 특징 추출, 모델 학습, 하이퍼파라미터 조정, 성능 평가 등 반복적인 작업이 많아요. 이런 작업을 검증된 라이브러리를 끼워 넣어 처리하면, 안정성과 효율성이 높아지고 새 알고리즘을 만들 시간이 절약되겠죠? IBM은 대부분의 라이브러리가 오픈소스로 무료 제공되며, 개발자는 모듈을 섞어 자신만의 ML 파이프라인을 만들 수 있다고 합니다.
👉 각 도구와 프레임워크

- scikit‑learn
- scikit‑learn 공식 사이트 바로가기
- 파이썬에서 가장 널리 쓰이는 머신러닝 라이브러리
- 분류·회귀·클러스터링·차원 축소 등 기본 모델을 한 번에 제공
- NumPy, SciPy, Matplotlib 위에 구축된 오픈소스 ML 도구 모음집이며, 일관된 인터페이스 덕분에 복잡한 수학 지식 없이도 다양한 알고리즘을 적용해볼 수 있다고 강조. (IBM 기술 블로그)
- 데이터 전처리를 돕는 StandardScaler나 OneHotEncoder, 결측치 보간, 피처 선택(RFE, mutual information) 같은 도구들도 기본 제공돼요 .
- 공구상자처럼 해머(로지스틱 회귀), 드라이버(랜덤 포레스트), 줄자(K‑평균) 등 다양한 공구가 깔끔하게 들어 있어 프로젝트에 맞춰 꺼내 쓰기만 하면 됩니다. 예를 들어 이메일 스팸 필터링은 로지스틱 회귀·SVM 등 분류 모델로, 주택 가격 예측은 선형 회귀·랜덤 포레스트 등 회귀 모델로 바로 시도할 수 있습니다.


- TensorFlow와 PyTorch
- 딥러닝 세상에서 가장 유명한 두 녀석
- Meta가 만든 PyTorch는 동적 계산 그래프를 사용해 유연한 모델링이 가능하며, Python 코드와 거의 똑같은 문법 덕분에 연구용으로 인기가 많음. TorchVision(컴퓨터 비전)과 TorchText(자연어 처리)처럼 전용 라이브러리도 풍부하고 GPU 가속을 기본 지원. 마치 점토(clay)처럼 만들면서 마음대로 형태를 바꿀 수 있어 논문 실험이나 프로토타이핑에 유리합니다.
- 구글이 만든 TensorFlow는 정적 계산 그래프 기반이라 대규모 시스템에서 최적화와 배포가 쉬움. 여러 단계의 추상화 수준을 제공해 초보자부터 전문가까지 사용할 수 있고, 모델을 시각화해 주는 TensorBoard, 모바일/웹 지원(TF Lite) 같은 생태계도 갖춰져 있음. 레고처럼, 초기 설계(그래프)를 제대로 잡으면 대형 건축물을 짓는 데 강력합니다.
- 예를 들어 GAN을 연구하려면 PyTorch로 쉽게 커스텀 블록을 쌓을 수 있고, 대규모 이미지 분류 모델을 배포하려면 TensorFlow와 TF Serving으로 안정적으로 서비스할 수 있습니다.

- Keras
- Keras 공식 사이트 바로가기
- TensorFlow 위에 얹은 고수준 API
- 데이터 처리부터 하이퍼파라미터 튜닝, 배포까지 전체 ML 워크플로를 단순화한다고 설명합니다. (TensorFlow 공식 가이드)
- 간결한 인터페이스와 단계별 복잡도 노출을 통해 코드를 짧고 읽기 쉽게 만드는 것이 목표
- TPU나 여러 GPU 클러스터에서 확장 가능하고 웹·모바일에서도 실행할 수 있다는 장점
- TensorFlow라는 큰 레고 세트를 쉽게 조립할 수 있게 도와주는 가이드북 역할
- 모델을 쌓을 때 Sequential이나 Functional API를 통해 순차적 네트워크나 복잡한 DAG 구조를 간단히 선언할 수 있고, fit/predict 메서드로 학습·예측을 한 번에 처리할 수 있습니다.


- pandas와 NumPy
- 데이터 과학의 기본 도구
- NumPy는 N차원 배열(ndarray)과 벡터화 연산을 제공하는 핵심 라이브러리로, 대규모 숫자 계산을 파이썬 리스트보다 빠르게 수행합니다. Broadcasting, 다양한 수학·통계 함수, 다른 라이브러리와의 통합이 강점이며, 고정 데이터 타입 덕분에 메모리를 덜 사용합니다.
- pandas는 NumPy 위에 세워진 데이터 처리 라이브러리로, 1차원 Series와 2차원 DataFrame 구조를 제공해 테이블 형태의 데이터를 효율적으로 다룹니다. 결측치 처리, 다양한 파일 포맷(CSV, Excel, SQL, JSON) 입출력, 고급 인덱싱·그룹핑·피벗 등이 기본 기능이며, 데이터 정리·변환·EDA에 최적화되어 있습니다.
- 엑셀과 비교하면 NumPy는 고성능 계산기, pandas는 엑셀보다 파워풀한 스프레드시트 같아요. 예를 들어 주식 가격 CSV를 읽어 들여 월별 평균을 구하고, 특정 조건에 맞는 행을 필터링하거나 새로운 파생변수를 만들 때 pandas가 유용하고, 대규모 행렬 곱셈이나 통계 계산에는 NumPy가 최적입니다.


- AutoML 도구
- 사이트 바로가기 - AutoML에 대한 개념과 자료 제공
- AutoML은 알고리즘 선택, 특징 생성, 하이퍼파라미터 튜닝, 반복 모델링 등 머신러닝 파이프라인을 자동화하는 개념
- 알고리즘 선택·특징 생성·하이퍼파라미터 튜닝·모델 평가를 자동화하여 모델 학습과 평가를 쉽게 한다고 합니다.(H2O.ai)
- H2O AutoML은 단순한 인터페이스로 빠르게 최고 성능의 모델을 찾고 인간의 코딩 시간을 줄이며, 클러스터 환경으로 확장할 수 있다고 합니다. 또한 자동 전처리, 랜덤 그리드 탐색, 교차검증, 스택드 앙상블, 리더보드 제공 등 다양한 기능을 갖추고 있어요.
- TPOT은 유전 프로그래밍을 사용해 데이터 전처리·특징 선택·모델 선택·하이퍼파라미터 튜닝을 모두 자동화하는 AutoML 도구. TPOT은 수천 개의 파이프라인을 탐색해 최적의 조합을 찾으며, 사용자 정의 제약을 통해 원하는 방식으로 조정할 수 있다는 장점이 있습니다
- auto‑sklearn은 scikit‑learn 위에서 동작하는 AutoML 프레임워크로, 분류·회귀를 위해 최적의 모델과 하이퍼파라미터를 찾아주는 CASH(Combined Algorithm Selection and Hyperparameter optimization) 접근법을 사용합니다 . 메타러닝, 베이지안 최적화, 앙상블 기법을 통해 넓은 탐색 공간에서 최적의 ML 파이프라인을 찾으며, 결측치 처리나 정규화 같은 전처리도 포함되어 있습니다.
반응형
'AI Study > 머신러닝(ML)' 카테고리의 다른 글
| 머신러닝의 기초: SVM(Support Vector Machine) (0) | 2025.11.22 |
|---|---|
| 머신러닝의 기초: 랜덤 포레스트(Random Forest) (1) | 2025.11.21 |
| 머신러닝의 기초: 의사결정 나무(Decision Tree) (0) | 2025.11.20 |
| 머신러닝의 기초: 선형 회귀 (Linear Regression) (0) | 2025.11.19 |
| 주니어 PM 혼자 AI 기초 공부: 머신러닝 한눈에 훑어보기 (0) | 2025.11.15 |