신경망 모형 작성 6단계 (1) 입력변수x 및 출력변수y의 식별 (2) 입력,출력 변수값을 적절한 범위 값으로 변환 -표준화: 변수(data)변환 <왜 변환하느냐?> 1-단위가 다르기 때문에 (kg, cm, km 등등) 2-데이터 크기가 다르기 때문에 (3) 신경망의 구조를 설정한다 -단층할지, 다층할지 (단층인거는 신경망 모형 외 모든 것/ 신경망 모형만 다층 - 근데 그 중에서도 은닉층 수 정함) (4) 자료를 이용하여 신경망 학습 -80% 학습data, training data -20% 검정data, 모델링을 위한 data (5) 학습에 이용되지 않은 실제 data에 대하여 작성된 모형이 적절한지 검정하여 모형을 완성한다. (6) (5)에서 검정된 모형을 이용하여 새로운 현상(new data,서버에 없는 데이터) 을 예측 또는 분류
<표준화 하는 방법> (1) x를 z화 한다.
(2) 관측치-최소값/ 최대값-최소값
신경모형의 학습 역전파 알고리즘: 비선형적 추정방법과 반복적인 추정방법을 통해 가중치를 추정한다.
-시그모이드 함수: 지수함수, s곡선, 로지스틱함수
-과적합: 은닉층의 수 은닉마디가 지나치게 클 경우에 발생 -> 학습모형에서는 매우 적합 but, 실제 data에서는 예측력이 떨어진다.
민감도 분석 -민감도 분석이란 입력 변수들의 상대적인 중요도를 간접적으로 파악하는 과정 -신경망은 분류 및 예측에 좋은 결과를 제공하지 못하지만 입력정보와 출력정보간의 관계가 불명확한 블랙박스이다. (hidden layer 때문) -신경망의 불투명성을 완화하기 위하여 민감도 분석이 필요하다 -입력변수 각각의 평균을 찾고 입력변수의 평균값에서 목표변수 값을 구한 뒤, 마지막으로 입력변수 값이 변할 때 마다 출력변수의 변화를 측정한다. -> 입력변수의 상대적 중요도를 측정이 가능하다.
장점 (1) 다른 예측 모형보다 예측력이 우수하다. (2) 입력변수와 출력변수의 관계가 비선형일때 더 유용하다. (3) 노이즈data, outlier data에도 크게 영향받지 않으므로 계량적 변수(연속형, 수치형데이터) 뿐 아니라 정성변수(문자형데이터)도 한꺼번에 효과적이고 신속하게 처리 가능.
단점 (1) 블랙박스 모형 -> 모형설명이 부족하다. (가장 큰 단점) -출력값이 나왔는데 왜 이렇게 나왔는지 설명이 부족하다. (2) 실무적 측면에서 신경망 가중치 설정중에는 전문성이 필요하므로 비전문가가 쉽게 이용하기 어렵다는 단점 (3) 신경망 잘못된 입력정보에 둔갑하기 때문에 입력정보의 오류가 오랜기간이 지난 후에야 출력결과로 나타난다.