머신러닝/클러스터링
[클러스터링] GMM(Gaussain Mixture Model)
1. 정의 GMM은 데이터가 여러 개의 가우시안 분포(Gaussian Distribution)을 가진 데이터 집합들이 섞여서 생성된 것이라는 가정하에 클러스터링을 수행하는 방식이다. 가우시안 분포 흔히 정규 분포로 알려져 있으며 좌우 대칭형의 종 형태를 가진다. 평균 $\mu$를 중심으로 높은 데이터 분포를 가지며 평균이 0이고, 표준편차가 1이다. 4개의 데이터 세트가 있다면, 위와 같이 나타날 것이고 수행 방식은 다음과 같다. 1) GMM으로부터 개별 정규 분포의 평균과 분산 추정 2) 각 데이터가 어떤 정규 분포에 해당되는지의 확률 추정 위 과정을 모수 추정이라고 하고 이를 위해 GMM은 EM(Expectation and Maximaization) 방법을 적용한다. 2. 사용법 iris 데이터셋을 ..
[클러스터링] 평균 이동(Mean Shift)
1. 정의 평균 이동은 K-Means와 유사하게 중심을 군집의 중심을 지속적으로 움직이면서 클러스터링을 수행한다. 다만, 평균 이동은 중심을 데이터가 모여 있는 밀도가 가장 높은 곳으로 이동시킨다. 데이터의 분포도를 이용해 중심점을 찾는데, 확률 밀도 함수를 이용하고 이를 찾기 위해서 KDE(Kernel Density Estimation)을 이용한다. KDE 커널함수를 통해 어떤 변수의 확률 밀도 함수를 추정하는 대표적인 방법. 관측된 데이터 각각에 커널 함수를 적용한 값을 모두 더한 뒤 데이터 건수로 나눠 확률 밀도 함수를 추정한다. 대표적인 커널 함수로 가우시안 분포 함수가 적용된다. 그리고 KDE의 식은 아래와 같다. $$ \mathrm{KDE}=\frac{1}{n} \sum_{i=1}^{n} K_..
[클러스터링] K-Means 알고리즘
1. 정의 K-Means 알고리즘은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. (출처:위키피디아) 수행 과정은 아래와 같다. 1) 임의의 군집 중심점(centroid)를 설정 2) 각 데이터는 가장 가까운 중심점에 소속됨 3) 중심점에 할당된 데이터들의 평균 중심으로 중심점 이동 4) 이동된 중심점으로 각 데이터 소속 변경 5) 4번에서 소속변경이 없다면 멈추고 계속 있다면 소속변경이 없을 때까지 3~4번을 반복 2. 특징 2-1. 장점 일반적으로 많이 사용되는 알고리즘으로 쉽고 간결하다. 2-2. 단점 거리 기반 알고리즘으로 속성의 개수가 많다면 정확도가 떨어진다. 반복을 수행하는데, 반복 횟수가 많을 경우 수행 시간이 느리다. ..