STUDY/데이터마이닝

데이터마이닝 11.20

연나연 2023. 11. 20. 11:23

7.2 비유사성 측도

<비유사성측도>

개체의 수 n (사람의 수 n개)
변수의 수 p (x의 수 p개)

(1) 관측값(변수) : x1,x2,x3,,,,,xp
(2) 개체의 수: c1,c2,c3,,,,cn

(1) 변수
(1) 변수
(2) 개체(사람)
(2) 개체(사람)

<거리계산하는 방법>
유클리디안 거리와 맨해튼 거리가 많이 쓰임. (우리는 맨해튼을 쓰자. 더 간단하니까! ㅎ)
밑변+높이 : |x11-x21| + |x12-x22| : 맨해튼 거리
((밑변)²+(높이)²)½ : 유클리디안 거리

 

7.3 계층적 군집분석

<계층적 군집분석>
[1] 응집분석 (서로 흐트러놓고 비슷한거 찾는거)
      :가까운 관측값(X1,X2,,,,Xp)이나 개체들 끼리 묶는 것
[2] 분할분석 
      :먼 관측값들을 나누어가는 것
응집분석
   (1) 단일연결법 (최단연결법)
   (2) 완전연결법 (최장연결법)
   (3) 평균연결법
   (4) 중심연결법

 

예제 7-2

위 표를 5명씩 묶어보자
|1-1|+|1-2| = 0+1 = 1
|1-3|+|1-4| = 2+3 = 5
|1-3|+|2-4| = 2+2 = 4

-여기서 가장 작은 건 1 -> 1과2가 유사성이 높다는 것
그리하여 {1,2} 로 묶어줌
{1,2} 와 3 비교할때 -> 1과3은 5/ 2와3은 4 이므로 단일연결법에 따라 2와3인 4를 택한다.

-여기서 가장 작은 건 2.5 -> 4와5가 유사성이 높다는 것
그리하여 {4,5} 로 묶어줌
{1,2}와 {4,5} 비교할때 -> 1-4:8/ 1-5:10.5/ 2-4:7/ 2-5:9.5


-여기서 가장 작은 건 3 -> {4,5}와 3이 유사성이 높다는 것
그리하여 {3,4,5} 로 묶어줌

 

-단계별 거리 차가 작은거는 큰 의미가 별로 없다는 것. (??교재 다시 볼 것)
-즉,,, 위 표의 경우, 군집을 2개 OR 4개로 하는 것이 제일 좋다. 

완전연결법 (최장연결법)
에서도 첫 시작은 항상 가장 작은 값 선택
-계층적 군집분석은 관찰치(x1,x2,,,xp)의 적은 경우에 적당
-대용량의 데이터에서 군집분석 실시할 경우 비계층적 군집분석인 k-mean(k-평균) 군집분석을 사용

<k-mean 군집분석 사용법>
(1) 군집의 수 k를 결정
(2) 임의의 k개 관찰치를 k개 각 군집에 임의로 지정하고 이를 k개 각 군집의 중심(최초평균)으로 이용
(3) 모든 관찰치를 군집중심으로부터 유클리디안 거리가 최소인 군집에 귀속
(4) 각 군집에 속한 관찰치수를 이용하여 군집중심을 새로 계산
(5) 변화(군집간 관찰치 이동)가 없을때까지 단계(3)과 (4)를 반복한다.

군집의 수를 결정하기 위해서는 각 군집의 수와 산출된 평균거리를 이용할 수 있다.
표준화
(1) Xi들의 단위가 다르고
(2) 크기가 다르기 때문에
(3) 변수의 중요도가 다르기 때문에 가중