K-평균 알고리즘(K-means Clustering algorithm) 개념

2020. 12. 14. 22:20데이터과학/머신러닝

728x90
반응형

클러스터링(Clustering) : 여러 개의 데이터가 있을 때 데이터를 군집화하는 것

비슷한 데이터끼리 묶으면 관리하기가 쉽다는 장점이 있다.

 

ex) 학원을 운영한다고 했을 때

학생을 고급반/중급반/초급반 으로 나누어 적절히 분류한다.

-> 이렇게 적절히 분류한다면 데이터를 활용할 방안이 많다.

(클러스터링 기법은 적용할 사례가 매우 많다는 특징)

 

K-means 알고리즘은 대표적인 비지도학습(Unsupervised Learning) 알고리즘이다.

 

<K-means 사전 준비>

-클러스터링을 수행할 데이터의 주제를 결정한다.

(수학 학원에서 학생들의 성적에 따라 반을 구분하기)

 

-얼마나 많은 클러스터를 만들지 고민해야 한다.

(고급반, 중급반, 초급반,,,)

 

-데이터 준비

(데이터가 정확할수록 유리하다.)

 

-클러스터링을 수행하기 위한 방법은 다양하다.

(무작위 중심(Centroid) 값 선택, K-means++, ...)

 

K-means 수행 과정

1. 중심(Centroid)에 가까운 데이터를 클러스터에 포함시킨다.

2. 중심(Centroid)을 클러스터의 중앙으로 이동시킨다.

 

K-means는 위 두 과정을 반복 수행하면 된다. 그러면 결과적으로 완전하게 군집화된 클러스터들을 얻을 수 있다.

더이상 중심(Centroid)의 위치가 변하지 않을 때까지 반복하는 것이 일반적이다.


ko.wikipedia.org/wiki/K-%ED%8F%89%EA%B7%A0_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98

 

k-평균 알고리즘 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. k-평균 알고리즘(K-means clustering algorithm)은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작

ko.wikipedia.org