데이터 분석
17. KMeans
Uno_says
2024. 7. 19. 14:52
728x90
1. Clusters(클러스터)
- 유사한 특성을 가진 개체들의 집합
- 고객분류, 유전자 분석, 이미지 분할
'x=X[0]' : 데이터셋의 첫 번째 특성(열)
'y=X[1]' : 데이터셋의 두 번째 특성(열)
'hue=y' : 각 데이터 포인트의 색상을 'y'에 따라 다르게 설정
2. marketing 데이터셋
데이터: marketing.csv
- fit(): 데이터의 평균과 표준편차를 계산한다.
- transform(): 데이터를 표준화(평균이 1, 표준편차가 1이 되도록)한다.
3. KMeans
- k개의 중심점을 찍은 후에 이 중심점에서 각 점간의 거리의 합이 가장 최소가 되는 중심점 k의 위치를 찾고, 이 중심점에서 가까운 점들을 중심점을 기준으로 묶는 알고리즘(k개의 클러스터의 수는 정해줘야 함)
- 군집의 개수(k) 설정 -> 초기 중심점 설정 -> [데이터를 군집에 할당(배정) -> 중심점 재설정(갱신)] 반복
✔️ Inertia의 해석
- 낮은 inertia 값은 데이터 포인트가 클러스터 중심에 더 가깝다는 것을 의미하며, 이는 클러스터가 잘 정의되었음을 나타낸다.
- 높은 inertia 값은 데이터 포인트가 클러스터 중심에서 멀리 떨어져 있다는 것을 의미하며, 이는 클러스터가 잘 정의되지 않았음을 나타낼 수 있다.
4. 실루엣 스코어(Silhouette Score)
- 클러스터링의 품질을 평가하는 지표로, 각 데이터 포인트가 자신이 속한 클러스터와 얼마나 유사하고 다른 클러스터와는 얼마나 다른지를 측정
- -1에서 1사이의 값을 가지며, 값이 클수록 클러스터링의 품질이 높다고 볼 수 있음
728x90