티스토리

Uno_says

검색하기

17. KMeans

데이터 분석

17. KMeans

Uno_says 2024. 7. 19. 14:52

728x90

1. Clusters(클러스터)

유사한 특성을 가진 개체들의 집합
고객분류, 유전자 분석, 이미지 분할

'x=X[0]' : 데이터셋의 첫 번째 특성(열)

'y=X[1]' : 데이터셋의 두 번째 특성(열)

'hue=y' : 각 데이터 포인트의 색상을 'y'에 따라 다르게 설정

2. marketing 데이터셋

데이터: marketing.csv

fit(): 데이터의 평균과 표준편차를 계산한다.
transform(): 데이터를 표준화(평균이 1, 표준편차가 1이 되도록)한다.

3. KMeans

k개의 중심점을 찍은 후에 이 중심점에서 각 점간의 거리의 합이 가장 최소가 되는 중심점 k의 위치를 찾고, 이 중심점에서 가까운 점들을 중심점을 기준으로 묶는 알고리즘(k개의 클러스터의 수는 정해줘야 함)

군집의 개수(k) 설정 -> 초기 중심점 설정 -> [데이터를 군집에 할당(배정) -> 중심점 재설정(갱신)] 반복

✔️ Inertia의 해석

낮은 inertia 값은 데이터 포인트가 클러스터 중심에 더 가깝다는 것을 의미하며, 이는 클러스터가 잘 정의되었음을 나타낸다.
높은 inertia 값은 데이터 포인트가 클러스터 중심에서 멀리 떨어져 있다는 것을 의미하며, 이는 클러스터가 잘 정의되지 않았음을 나타낼 수 있다.

4. 실루엣 스코어(Silhouette Score)

클러스터링의 품질을 평가하는 지표로, 각 데이터 포인트가 자신이 속한 클러스터와 얼마나 유사하고 다른 클러스터와는 얼마나 다른지를 측정
-1에서 1사이의 값을 가지며, 값이 클수록 클러스터링의 품질이 높다고 볼 수 있음

728x90