STUDY/데이터분석

[데이터마이닝] Chap1. 데이터마이닝이란

연나연 2023. 10. 20. 18:47

[데이터마이닝 개념]
= 대용량의 데이터로부터 이들 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 모형화함으로써 유용한 지식을 추출하는 일련의 과정
-데이터의 특징 및 의미를 찾아내는 과정
-데이터베이스, 데이터 압축 및 전송 등 자료의 효과적인 저장과 전달을 위한 기술의 발달로 대량의 데이터 집적이 가능헤지며 활용범위가 확대됨.


[모수적 모형 접근방법 / 알고리즘 접근 방법]
#모수적 모형 접근방법 (parametric modeling approach)
=단순 선형회귀분석 Y=a+bx와 같이 모수 a,b를 과거데이터로부터 추정하는 방법.
=모형식을 세우고 식안의 모수를 데이터를 활용해 최소제곱법이나 최대우도추정법 등에 의해 구하는 방식
-장) 결과의 해석이 용이/ 결과 복잡하지 않음
-단) 가정이나 설정한 식에 부합x한 데이터의 경우, 정확도 등의 성능이 낮을 수 있음
-EX) 선형 회귀분석, 로지스틱회귀모형

#알고리즘 접근방법 (algorithmic approach)
=알고리즘에 의해 정해진 방식으로 계산된 결과에 따라 분산되는 방식/ 알고리즘에 의헤 데이터로 학습
-장) 데이터 복잡성이 높아도 적용 가능
-단) 알고리즘의 속성, 방법, 이론적 근거 모르고 남용하는 경우, 과도적합 등 우를 범할 수 있음/ 기계만이 인지할 수 있는 결과로 인해 해석 어려움.
-EX) 의사결정나무, 배깅, 부스팅, 랜덤포레스트, 신경망모형

[데이터마이닝 특징]
1. 대용량의 관측 가능한 자료를 다룸.
2.   컴퓨터 집약적 기법
-컴퓨터의 강력한 처리속도와 능력 활용
-기존 분석기법의 한계 극복
3.   경험적 방법
3.   일반화 (generalization)의 특징 
-새로운 데이터에 얼마나 잘 적용되는가
-경험적 방법에 의해 모형을 구축하되 현재의 자료보다 미래의 자료를 잘 설명할 수 있는 모형 추구
4.   업무활용성

[데이터마이닝 관련 연구 분야]
1. KDD(knowledge discovery in database)
:데이터베이스에서 지식을 추출하는 전 과정
-EX) 데이터 웨어하우징 (data warehousing), OLAP(on-line analytical)
2.   기계학습(machine learing)
:입력되는 자료 학습하여 기계가 판단할 수 있는 방법 연구
3.    패턴인식(pattern recognition)
:거대한 자료로부터 일정한 패턴 찾아가는 과정, 이미지분류와 깊은 관련
4.    통계학(statistics)
:예측모형을 적합하고 결과를 분석하는 작업
5.    deep learing
6.    AI
7.    DB

[데이터 마이닝 기법의 구분- 지도학습/ 자율학습]
#지도학습(supervised learing). -예측적 기법
:입출력 간의 관계를 결정하는 시스템에 대한 유용한 근사 시스템을 구하는 것 
-(회귀-연속형,분류-범주형)
#자율학습(unsupercised learning). -기술적 기법
:목표변수가 없이 입력변수 간의 관계를 탐색적으로 분석하여 의미있는 정보를 추출하는 기법
:군집분석(7장), 연관성분석(8장), 신경망모형(5장)

[데이터마이닝의 단계] -DELPA 과정
[1] Design 계획
-문제제기
-설계과정
-참고자료와 현업책임자와 협업
[2] Exploration 탐색
-데이터탐색 (describe: 묘사) [bar chart, histogram, pie chart, 기술통계량]
기술통계량: 평균, 분산, 최소값, 최대값, 왜도, 첩도
[3] Layout 표현
-표면,분포상황,설계,정보의요약
-> 어떤 형태의 분석작업이나 결과를 얻을 수 있는 지 확인
[4] Process 처리 (전처리 과정을 말함).   [preprocess: 전처리]
-data 변형, 정제
-변수변환
-수량화 (범주형 데이터를 수치화, 문자형 데이터를 수치화)
[5] Analysis 분석