CH08_01. Clustering

목표

1. 군집화(Clustering)의 정의
2. 계층적 군집화
3. 군집화 평가

Clustering 정의

Clustering(군집화)
유사한 속성을 갖는 데이터들을 묶어 전체 데이터를 몇 개의 군집으로 나누는 것

Clustering Classification vs Clustering

Classification

- Supervised Learning
- 소속 집단의 정보를 알고 있는 상태
- Label이 있는 데이터를 나누는 방법

Clustering

- Unsupervised Learning
- 소속 집단의 정보를 모르고 있는 상태
- Label이 없는 데이터를 나누는 방법

Clustering 종류

군집분석의 종류

1. 계층적(Hierarchical) 군집화
2. 비계층적 (Non-Hierarchical) 군집화

Hierarchical Clustering

계층적(Hierarchical) 군집화

- 개체들을 가까운 집단부터 묶어 나가는 방식
- 유사한 개체들이 결합되는 dendrogram 생성
- Cluster들은 sub-cluster를 갖고 있다.

Hierarchical Clustering 거리

개체들을 가까운 집단부터 묶어 나가는 방식

거리의 종류

- 유클리드 거리
- 맨해튼 거리
- 표준화 거리
- 민콥스키 거리

Hierarchical Clustering 종류

Hierachical Clustering 종류
묶인 클러스터와 다른 데이터 간의 거리 측정 방법에 따라 달라진다.

1. 최단 연결법
2. 최장 연결법
3. 평균 연결법
4. 중심 연결법

최단 연결법
군집에서 가장 가까운 데이터가 새로운 거리가 된다

최장 연결법
군집에서 가장 먼 데이터가 군집과 데이터의 거리가 된다.

평균 연결법
군집의 데이터들 간의 거리의 평균이 군집과 데이터의 거리가 된다.

중심 연결법
군집의 중심이 새로운 거리가 된다.

최단 연결법 예시

D, E와 A의 거리 (13,20) 중에 가까운 최단거리는 13이므로 13으로 나옴

주어진 Cluster 의 개수에 맞게 데이터를 나누는 방법

Clustering 평가

좋은 Clustering이란?

- 군집 내 유사도를 최대화 (거리를 최소화)
- 군집 간 유사도를 최소화 (거리를 최대화)

내부 평가
군집된 결과 그 자체를 놓고 평가하는 방식

외부 평가
군집화에 사용되지 않는 데이터로 평가하는 방식

Clustering 내부 평가 방법

내부 평가 방법

1. Dunn Index
2. 실루엣(Silhouette)

Dunn Index

군집과 군집 사이의 거리가 클수록,

군집 내 데이터 간 거리가 작을 수록 좋은 모델

-> DI가 큰 모델

Silhouette Index

군집 내 응집도(cohesion)
𝑎(𝑖) : 데이터 𝑥𝑖 와 동일한 군집 내의 나머지 데이터들과의 평균 거리

군집 간 분리도(separation)
𝑏(𝑖) : 데이터 𝑥𝑖 와 가장 가까운 군집 내의 모든 데이터들과의 평균 거리

-> 값이 커질수록 좋은 인덱스이다.

저작자표시 비영리 변경금지 (새창열림)

'Machine Learning > 머신러닝 온라인 강의' 카테고리의 다른 글

CH09_01. Dimensionality Reduction (0)	2022.10.19
CH08_02. Non-Hierarchical Clustering (0)	2022.10.18
CH07_04. 얼굴 사진 분류(Python) (0)	2022.10.18
CH07_02. SVM 커널 실습 (Python) (0)	2022.10.18
CH07_01. SVM (0)	2022.10.12

관리회계 & 데이터 분석 스터디

CH08_01. Clustering

목표

Clustering 정의

Clustering Classification vs Clustering

Clustering 종류

Hierarchical Clustering

Hierarchical Clustering 거리

Hierarchical Clustering 종류

최단 연결법 예시

Clustering 평가

Clustering 내부 평가 방법

Dunn Index

Silhouette Index

'Machine Learning > 머신러닝 온라인 강의' 카테고리의 다른 글

티스토리툴바

CH08_01. Clustering

목표

Clustering 정의

Clustering Classification vs Clustering

Clustering 종류

Hierarchical Clustering

Hierarchical Clustering 거리

Hierarchical Clustering 종류

최단 연결법 예시

Clustering 평가

Clustering 내부 평가 방법

Dunn Index

Silhouette Index

'Machine Learning > 머신러닝 온라인 강의' 카테고리의 다른 글

'Machine Learning/머신러닝 온라인 강의' Related Articles

티스토리툴바