Diki 검색중...
#개념
군집화(Clustering)는 주어진 데이터 집합을 내부적으로 유사한 특성을 공유하는 여러 개의 그룹(군집 또는 클러스터)으로 분할하는 비지도 학습(Unsupervised Learning) 기법이다. 군집화의 주요 목표는 군집 내 데이터 포인트 간의 유사성(Similarity)은 최대화하고, 서로 다른 군집 간의 유사성은 최소화하는 것이다. 이를 위해 데이터 포인트 간의 유사성 또는 거리(Distance)를 측정하는 다양한 지표(예: 유클리드 거리, 맨해튼 거리, 코사인 유사도)가 사용된다.군집화는 레이블이 없는 데이터를 다루며, 데이터 자체의 내재된 구조나 패턴을 발견하는 데 중점을 둔다. 대표적인 군집화 알고리즘으로는 K-평균 군집화(K-Means Clustering), 계층적 군집화(Hierarchical Clustering), DBSCAN(Density-Based Spatial Clustering of Applications with Noise), 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 등이 있으며, 각 알고리즘은 데이터의 특성, 군집의 형태, 분석 목적에 따라 선택되어야 한다.군집화 알고리즘은 크게 분할적 군집화(Partitional Clustering), 계층적 군집화(Hierarchical Clustering), 밀도 기반 군집화(Density-based Clustering), 격자 기반 군집화(Grid-based Clustering), 모델 기반 군집화(Model-based Clustering) 등으로 분류할 수 있다. K-평균은 분할적 군집화의 대표적인 예이며, 계층적 군집화는 데이터 간의 계층적 관계를 트리 구조(덴드로그램)로 표현한다. DBSCAN은 데이터 포인트의 밀도를 기반으로 군집을 형성하여 임의의 형태를 가진 군집을 찾을 수 있으며 노이즈 처리에 강하다.군집화 결과의 품질은 실루엣 계수(Silhouette Coefficient), 데이비스-불딘 지수(Davies-Bouldin Index), 칼린스키-하라바츠 지수(Calinski-Harabasz Index) 등과 같은 내부 평가 지표를 통해 평가할 수 있으며, 만약 정답 레이블이 있는 경우(주로 연구 목적)에는 ARI(Adjusted Rand Index), NMI(Normalized Mutual Information)와 같은 외부 평가 지표도 사용된다. 군집화의 주요 과제로는 적절한 군집의 수(K)를 결정하는 것, 고차원 데이터의 '차원의 저주' 문제, 다양한 형태와 밀도의 군집을 효과적으로 탐지하는 것, 그리고 결과 해석의 주관성 등이 있다.군집화는 고객 세분화(Customer Segmentation), 이상치 탐지(Anomaly Detection), 이미지 분할(Image Segmentation), 문서 군집화(Document Clustering), 생물정보학(Bioinformatics)에서의 유전자 발현 패턴 분석, 소셜 네트워크 분석 등 매우 다양한 분야에서 데이터 탐색, 패턴 발견, 전처리 단계 등으로 널리 활용된다.
#관련 용어
비지도 학습
레이블이 없는 데이터로부터 패턴이나 구조를 학습하는 머신러닝 방식
데이터를 K개의 군집으로 나누는 분할적 군집화 알고리즘
데이터 포인트 간의 유사성 또는 거리를 정량화하는 방법
밀도 기반 군집화 알고리즘으로, 임의 형태의 군집 탐색 및 노이즈 처리가 가능
#직무 연관도
DA | Data Analyst밀접
시장 세분화, 고객 그룹핑, 이상 데이터 식별 등 데이터 탐색 및 분석에 핵심적으로 사용
DS | Data Scientist높음
데이터의 숨겨진 구조를 발견하고, 가설을 생성하며, 데이터 기반 의사결정을 지원하는 데 활용
DE | Data Engineer보통
군집화 알고리즘을 시스템에 통합하여 고객 세분화, 이상 탐지 등의 기능을 구현
#사용 사례
군집화는 마케팅에서 고객 행동 패턴을 분석하여 타겟 마케팅 전략을 수립하거나, 금융 분야에서 이상 거래를 탐지하는 등 다양한 산업에서 데이터 기반 의사결정을 지원한다. 또한, 소셜 네트워크 분석, 이미지 분할, 유전자 데이터 분석 등 학문적 연구에도 널리 사용된다.
온라인 쇼핑몰에서는 고객의 구매 이력, 검색 기록, 페이지 머문 시간 등의 데이터를 군집화하여 유사한 구매 패턴을 가진 고객 그룹을 식별한다. 이를 통해 각 그룹에 맞는 맞춤형 상품 추천이나 프로모션 전략을 수립하여 구매 전환율을 높일 수 있다.
#참고 자료
#추천 포스트
© 2024 diki All rights reserved.