Diki 검색중...

#개념

비지도 학습(Unsupervised Learning)은 머신러닝의 한 분야로, 레이블이 지정되지 않은 데이터에서 숨겨진 패턴, 구조, 관계성을 자동으로 발견하는 학습 방법이다. 교사의 지도 없이 데이터 자체의 특성과 구조를 탐색하여 의미 있는 정보를 추출한다는 점에서 지도 학습과 구별된다.
비지도 학습의 주요 목적은 데이터의 내재된 구조를 이해하고, 데이터를 더 유용한 형태로 표현하거나 그룹화하는 것이다. 이는 데이터 시각화, 특징 추출, 차원 축소, 이상치 탐지 등 다양한 작업에 활용된다.
비지도 학습의 주요 방법론은 크게 군집화(Clustering), 차원 축소(Dimensionality Reduction), 연관 규칙 학습(Association Rule Learning) 세 가지로 분류할 수 있다.
군집화는 데이터를 유사한 특성을 가진 그룹으로 나누는 방법으로, 대표적인 알고리즘으로는 K-평균 군집화(K-means Clustering), 계층적 군집화(Hierarchical Clustering), DBSCAN(Density-Based Spatial Clustering of Applications with Noise), 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 등이 있다. 군집화는 고객 세분화, 이미지 분할, 문서 분류 등에 널리 활용된다.
차원 축소는 고차원 데이터를 더 낮은 차원으로 변환하여 데이터의 핵심 특성을 보존하면서 복잡성을 줄이는 방법이다. 주성분 분석(Principal Component Analysis, PCA), t-SNE(t-Distributed Stochastic Neighbor Embedding), UMAP(Uniform Manifold Approximation and Projection), 오토인코더(Autoencoder) 등이 대표적인 기법이다. 이는 데이터 시각화, 특징 추출, 노이즈 제거 등에 사용된다.
연관 규칙 학습은 데이터 항목 간의 관계를 발견하는 방법으로, Apriori 알고리즘, FP-Growth 알고리즘 등이 대표적이다. 주로 장바구니 분석, 추천 시스템, 웹 사용 패턴 분석 등에 활용된다.
최근에는 딥러닝 기반의 비지도 학습 방법론도 활발히 연구되고 있다. 오토인코더(Auto-Encoder)는 데이터 압축과 특징 학습에 사용되며, 생성적 적대 신경망(Generative Adversarial Network, GAN)은 새로운 데이터 생성에 활용된다. 자기 지도 학습(Self-Supervised Learning)은 데이터 자체에서 지도 신호를 생성하여 표현 학습을 수행하는 새로운 패러다임을 제시하고 있다.
비지도 학습의 성능 평가는 지도 학습에 비해 상대적으로 어렵다는 특징이 있다. 군집화의 경우 실루엣 계수(Silhouette Coefficient), 칼린스키-하라바즈 지수(Calinski-Harabasz Index), 데이비스-불딘 지수(Davies-Bouldin Index) 등의 내부 평가 지표가 사용되며, 차원 축소의 경우 재구성 오차(Reconstruction Error), 정보 보존도 등이 활용된다.
비지도 학습은 레이블이 필요하지 않아 데이터 수집이 상대적으로 용이하다는 장점이 있지만, 결과의 해석이 어렵고 평가가 주관적일 수 있다는 한계가 있다. 또한, 발견된 패턴이 실제로 의미 있는 것인지 검증이 필요하며, 계산 복잡도가 높은 경우가 많다.
비지도 학습은 데이터의 숨겨진 구조를 발견하고 이해하는 데 중요한 도구로서, 데이터 전처리, 특징 추출, 이상 탐지 등 다양한 분야에서 핵심적인 역할을 수행하고 있다.

#관련 용어

군집화
유사한 특성을 가진 데이터를 그룹으로 묶는 기법
차원 축소
고차원 데이터를 더 낮은 차원으로 변환하는 기법
오토인코더
데이터를 압축하고 재구성하는 신경망 모델

#직무 연관도

DA | Data Analyst보통
데이터 탐색, 패턴 발견, 인사이트 도출
DS | Data Scientist밀접
알고리즘 연구, 새로운 패턴 발견, 특징 추출 개발
DE | Data Engineer보통
데이터 전처리, 특징 추출, 차원 축소 구현

#사용 사례

마케팅금융보안제조의료리테일이미지 처리추천시스템
개요
비지도 학습은 고객 세분화, 이상 거래 탐지, 제품 추천, 이미지 압축, 텍스트 토픽 모델링, 유전자 발현 분석 등 다양한 분야에서 활용되며, 특히 대규모 데이터에서 숨겨진 패턴을 발견하는 데 효과적이다.
사례
온라인 쇼핑몰의 고객 세분화는 구매 이력, 검색 패턴, 체류 시간 등의 데이터를 군집화하여 비슷한 행동 패턴을 보이는 고객 그룹을 식별하고, 이를 마케팅 전략 수립에 활용한다.

#참고 자료

#추천 포스트

© 2024 diki All rights reserved.