-여기서 가장 작은 건 1 -> 1과2가 유사성이 높다는 것 그리하여 {1,2} 로 묶어줌
{1,2} 와 3 비교할때 -> 1과3은 5/ 2와3은 4 이므로 단일연결법에 따라 2와3인 4를 택한다.
-여기서 가장 작은 건 2.5 -> 4와5가 유사성이 높다는 것 그리하여 {4,5} 로 묶어줌
{1,2}와 {4,5} 비교할때 -> 1-4:8/ 1-5:10.5/ 2-4:7/ 2-5:9.5
-여기서 가장 작은 건 3 -> {4,5}와 3이 유사성이 높다는 것 그리하여 {3,4,5} 로 묶어줌
-단계별 거리 차가 작은거는 큰 의미가 별로 없다는 것. (??교재 다시 볼 것) -즉,,, 위 표의 경우, 군집을 2개 OR 4개로 하는 것이 제일 좋다.
완전연결법 (최장연결법) 에서도 첫 시작은 항상 가장 작은 값 선택
-계층적 군집분석은 관찰치(x1,x2,,,xp)의 적은 경우에 적당 -대용량의 데이터에서 군집분석 실시할 경우 비계층적 군집분석인 k-mean(k-평균) 군집분석을 사용
<k-mean 군집분석 사용법> (1) 군집의 수 k를 결정 (2) 임의의 k개 관찰치를 k개 각 군집에 임의로 지정하고 이를 k개 각 군집의 중심(최초평균)으로 이용 (3) 모든 관찰치를 군집중심으로부터 유클리디안 거리가 최소인 군집에 귀속 (4) 각 군집에 속한 관찰치수를 이용하여 군집중심을 새로 계산 (5) 변화(군집간 관찰치 이동)가 없을때까지 단계(3)과 (4)를 반복한다.
군집의 수를 결정하기 위해서는 각 군집의 수와 산출된 평균거리를 이용할 수 있다.
표준화 (1) Xi들의 단위가 다르고 (2) 크기가 다르기 때문에 (3) 변수의 중요도가 다르기 때문에 가중