STUDY/데이터분석

데이터마이닝

연나연 2023. 12. 4. 11:38
자율학습: 군집분석, 연관성 분석, 주성분 분석
(요인분석(:주성분 분석의 이용으로 유사한 변수를 묶는다), 신뢰도 분석)
-> 이런걸 쓰려고 하는 이유: x가 많아서

지도학습: (y존)

요인분석 사용: 변수가 10개 였는데 비슷한 변수끼리 묶어서 변수를 3개로 만듬
신경망모형

input hidden(은닉) output
*여기서도 가장 중요한건 weight
연관성분석
:얼마나 연관이 있느냐

ex) 장바구니 분석
-지지율: A->B
-신뢰도: P(B|A) = P(A∩B)/P(A)
           
1 고기 상추    
2 고기 상추 스낵    
3 상추 스낵    
4 고기 스낵    
5 상추 탄산    
쌀->상추
지지율 :3/5 = 0.6
신뢰도: P(상추|쌀) = P(상추∩쌀)/P(상추) = 3/5 / 3/5 = 1
향상도: (신뢰도) / P(쌀) = 1/ 3/5 = 5/3 
->쌀이 상추 판매에 60%의 도움을 줌?

향상도: 쌀 -> 고기 = P(쌀,고기 동시 구매자)/P(쌀 구매자) = 1/3 / 3/5
-향상도는 확률이 아니니까 1넘어도 됨

고기->스낵
지지율: 2/5
신뢰도: P(스낵|고기) = P(스낵∩고기)/P(고기) = 2/5 / 3/5 = 2/3
향상도: (신뢰도) / P(고기) = 2/3 / 3/5 = 10/9 = 1.11
->고기판매로 인한 스낵 매출이 11% 상승했다고 볼 수 있다

쌀&고기 -> 상추
P(스낵∩고기) 지지율: 1/5
신뢰도: P(상추|쌀&고기) = P(상추 ∩ 쌀&고기)/P(쌀&고기) =  1/5 / 1/5 = 1
향상도: (신뢰도) / P(쌀&고기) = 1 / 1/5 = 5  (?확인해야함) 
신경망 모형의
가중치를 추정하는 알고리즘
역전파 알고리즘
순정파 알고리즘
신경망 모형 작성 6단계
(1) 입력변수x 및 출력변수y의 식별
(2) 입력,출력 변수값을 적절한 범위 값으로 변환
     -표준화: 변수(data)변환
            <왜 변환하느냐?>
                1-단위가 다르기 때문에 (kg, cm, km 등등)
                2-데이터 크기가 다르기 때문에
(3) 신경망의 구조를 설정한다
     -단층할지, 다층할지
       (단층인거는 신경망 모형 외 모든 것/ 신경망 모형만 다층 - 근데 그 중에서도 은닉층 수 정함)
(4) 자료를 이용하여 신경망 학습
          -80% 학습data, training data
          -20% 검정data, 모델링을 위한 data
(5) 학습에 이용되지 않은 실제 data에 대하여 작성된 모형이 적절한지 검정하여 모형을 완성한다. 
(6) (5)에서 검정된 모형을 이용하여 새로운 현상(new data,서버에 없는 데이터) 을 예측 또는 분류
<표준화 하는 방법>
(1) x를 z화 한다.

(2) 관측치-최소값/ 최대값-최소값

신경모형의 학습
역전파 알고리즘: 비선형적 추정방법과 반복적인 추정방법을 통해 가중치를 추정한다.

-시그모이드 함수: 지수함수, s곡선, 로지스틱함수

-과적합: 은닉층의 수 은닉마디가 지나치게 클 경우에 발생
  -> 학습모형에서는 매우 적합 but, 실제 data에서는 예측력이 떨어진다.
민감도 분석
-민감도 분석이란 입력 변수들의 상대적인 중요도를 간접적으로 파악하는 과정
-신경망은 분류 및 예측에 좋은 결과를 제공하지 못하지만 입력정보와 출력정보간의 관계가 불명확한 블랙박스이다.
(hidden layer 때문)
-신경망의 불투명성을 완화하기 위하여 민감도 분석이 필요하다
-입력변수 각각의 평균을 찾고 입력변수의 평균값에서 목표변수 값을 구한 뒤, 마지막으로 입력변수 값이 변할 때 마다 출력변수의 변화를 측정한다. -> 입력변수의 상대적 중요도를 측정이 가능하다.
장점
(1) 다른 예측 모형보다 예측력이 우수하다.
(2) 입력변수와 출력변수의 관계가 비선형일때 더 유용하다.
(3) 노이즈data, outlier data에도 크게 영향받지 않으므로 계량적 변수(연속형, 수치형데이터) 뿐 아니라 정성변수(문자형데이터)도 한꺼번에 효과적이고 신속하게 처리 가능.

단점
(1) 블랙박스 모형 -> 모형설명이 부족하다.  (가장 큰 단점)
-출력값이 나왔는데 왜 이렇게 나왔는지 설명이 부족하다.
(2) 실무적 측면에서 신경망 가중치 설정중에는 전문성이 필요하므로 비전문가가 쉽게 이용하기 어렵다는 단점
(3) 신경망 잘못된 입력정보에 둔갑하기 때문에 입력정보의 오류가 오랜기간이 지난 후에야 출력결과로 나타난다.