본문 바로가기

STUDY/데이터분석

데이터마이닝

자율학습: 군집분석, 연관성 분석, 주성분 분석
(요인분석(:주성분 분석의 이용으로 유사한 변수를 묶는다), 신뢰도 분석)
-> 이런걸 쓰려고 하는 이유: x가 많아서

지도학습: (y존)

요인분석 사용: 변수가 10개 였는데 비슷한 변수끼리 묶어서 변수를 3개로 만듬
신경망모형

input hidden(은닉) output
*여기서도 가장 중요한건 weight
연관성분석
:얼마나 연관이 있느냐

ex) 장바구니 분석
-지지율: A->B
-신뢰도: P(B|A) = P(A∩B)/P(A)
           
1 고기 상추    
2 고기 상추 스낵    
3 상추 스낵    
4 고기 스낵    
5 상추 탄산    
쌀->상추
지지율 :3/5 = 0.6
신뢰도: P(상추|쌀) = P(상추∩쌀)/P(상추) = 3/5 / 3/5 = 1
향상도: (신뢰도) / P(쌀) = 1/ 3/5 = 5/3 
->쌀이 상추 판매에 60%의 도움을 줌?

향상도: 쌀 -> 고기 = P(쌀,고기 동시 구매자)/P(쌀 구매자) = 1/3 / 3/5
-향상도는 확률이 아니니까 1넘어도 됨

고기->스낵
지지율: 2/5
신뢰도: P(스낵|고기) = P(스낵∩고기)/P(고기) = 2/5 / 3/5 = 2/3
향상도: (신뢰도) / P(고기) = 2/3 / 3/5 = 10/9 = 1.11
->고기판매로 인한 스낵 매출이 11% 상승했다고 볼 수 있다

쌀&고기 -> 상추
P(스낵∩고기) 지지율: 1/5
신뢰도: P(상추|쌀&고기) = P(상추 ∩ 쌀&고기)/P(쌀&고기) =  1/5 / 1/5 = 1
향상도: (신뢰도) / P(쌀&고기) = 1 / 1/5 = 5  (?확인해야함) 
신경망 모형의
가중치를 추정하는 알고리즘
역전파 알고리즘
순정파 알고리즘
신경망 모형 작성 6단계
(1) 입력변수x 및 출력변수y의 식별
(2) 입력,출력 변수값을 적절한 범위 값으로 변환
     -표준화: 변수(data)변환
            <왜 변환하느냐?>
                1-단위가 다르기 때문에 (kg, cm, km 등등)
                2-데이터 크기가 다르기 때문에
(3) 신경망의 구조를 설정한다
     -단층할지, 다층할지
       (단층인거는 신경망 모형 외 모든 것/ 신경망 모형만 다층 - 근데 그 중에서도 은닉층 수 정함)
(4) 자료를 이용하여 신경망 학습
          -80% 학습data, training data
          -20% 검정data, 모델링을 위한 data
(5) 학습에 이용되지 않은 실제 data에 대하여 작성된 모형이 적절한지 검정하여 모형을 완성한다. 
(6) (5)에서 검정된 모형을 이용하여 새로운 현상(new data,서버에 없는 데이터) 을 예측 또는 분류
<표준화 하는 방법>
(1) x를 z화 한다.

(2) 관측치-최소값/ 최대값-최소값

신경모형의 학습
역전파 알고리즘: 비선형적 추정방법과 반복적인 추정방법을 통해 가중치를 추정한다.

-시그모이드 함수: 지수함수, s곡선, 로지스틱함수

-과적합: 은닉층의 수 은닉마디가 지나치게 클 경우에 발생
  -> 학습모형에서는 매우 적합 but, 실제 data에서는 예측력이 떨어진다.
민감도 분석
-민감도 분석이란 입력 변수들의 상대적인 중요도를 간접적으로 파악하는 과정
-신경망은 분류 및 예측에 좋은 결과를 제공하지 못하지만 입력정보와 출력정보간의 관계가 불명확한 블랙박스이다.
(hidden layer 때문)
-신경망의 불투명성을 완화하기 위하여 민감도 분석이 필요하다
-입력변수 각각의 평균을 찾고 입력변수의 평균값에서 목표변수 값을 구한 뒤, 마지막으로 입력변수 값이 변할 때 마다 출력변수의 변화를 측정한다. -> 입력변수의 상대적 중요도를 측정이 가능하다.
장점
(1) 다른 예측 모형보다 예측력이 우수하다.
(2) 입력변수와 출력변수의 관계가 비선형일때 더 유용하다.
(3) 노이즈data, outlier data에도 크게 영향받지 않으므로 계량적 변수(연속형, 수치형데이터) 뿐 아니라 정성변수(문자형데이터)도 한꺼번에 효과적이고 신속하게 처리 가능.

단점
(1) 블랙박스 모형 -> 모형설명이 부족하다.  (가장 큰 단점)
-출력값이 나왔는데 왜 이렇게 나왔는지 설명이 부족하다.
(2) 실무적 측면에서 신경망 가중치 설정중에는 전문성이 필요하므로 비전문가가 쉽게 이용하기 어렵다는 단점
(3) 신경망 잘못된 입력정보에 둔갑하기 때문에 입력정보의 오류가 오랜기간이 지난 후에야 출력결과로 나타난다.

'STUDY > 데이터분석' 카테고리의 다른 글

데이터마이닝 11.13  (0) 2023.11.13
[데이터마이닝] Chap1. 데이터마이닝이란  (0) 2023.10.20