CH01-02. Model Selection

배울것

1. 모델
2. Train data, Test data
3. 과대적합, 과소적합
4. Cross Validation

모델의 정의
- 어떤 X가 주어졌을때 f 라는함수를통해 y라는 값을 도출하는 과정
- 이때의 함수f 를 모델 또는 알고리즘이라고 부른다.

모델의수식
- 𝑦 = 𝐹(𝑋)
- X : 데이터
- y : 예측값

모델의 목적
- 데이터를 이용해 값을 예측

모델의 평가
- 모델이 값을 잘 예측하는지 평가

데이터의종류

Train Data
- 학습에 사용되는 데이터

Test Data
- 학습에 사용되지 않은 데이터
- 모델이 실제로 잘 예측하는지 알기 위해서는 학습에 사용되지 않은 데이터를 이용해 평가해야 한다

모델의 평가와 데이터의 관계
- Overfitting & Underfitting

Underfitting (과소적합)
학습 데이터를(Train data) 잘 맞추지 못하는 현상

Overfitting (과대적합)
학습데이터(Train data)는 잘 맞추지만 학습 데이터외에는 잘 맞추지 못하는 현상

Underfitting을 확인하는 방법
- Train data로 학습된 모델을 Train data로 평가한다.
- Train data를 잘 맞추지못한다면 Underfitting상태

Overfitting을확인하는방법
- Train data을 잘 학습한모델을 Test data로 평가한다.
- Train data는 잘 맞추지만 Test data를 잘 맞추지 못한다면 Overfitting상태

Data split이란?
데이터를 Train data와Test data로 나누는 것

보통 7 : 3 비율로 나눈다.

Train / Valid / Test 로 나눌때도 있다.

Train Data
-학습에 사용되는 데이터

Valid Data
-학습이 완료된 모델을 검증하기 위한 데이터
-학습에 사용되지는 않지만 관여하는 데이터

Test Data
-최종모델의 성능을 검증하기 위한 데이터
-학습에도 사용되지 않으며 관여하지도 않는 데이터

문제점
Valid Data
- >학습에 사용되지는 않지만 관여하는 데이터
Overfitting
Valid 데이터에 Overfitting 될 수도 있음

Cross Validation 정의 ( 교차검증)
Valid 데이터를 고정하지 않고 계속해서 변경함으로써 Overfitting 되는 것을 막기 위한 방법

Cross Validation 종류
1. LOOCV (Leave One Out Cross Validation)
2. K-Fold

LOOCV (Leave One Out Cross Validation)
하나의 데이터를 제외하고 모델을 학습한 후 평가

- 데이터 개수만큼의 모델을 학습해야한다.
- 데이터가 많을 경우 시간이 오래 걸린다

K-Fold
- 데이터를 K 개로 분할한 후 한개의 분할데이터를 제외한 후 학습에 사용
- 제외된 데이터는 학습이 완료된 후 평가에 사용

Cross Validation 평가
1. Cross Validation을 이용하면 방법에 따라 K개의 평가지표가 생성
2. 생성된 평가지표의 평균을 이용해 모델의 성능을 평가
3. 전체 Train 데이터를 이용해 모델학습

Step 1) Cross Validation을 이용하면 방법에 따라 K개의 평가지표가 생성

Step 2) 생성된 평가지표의 평균을 이용해 모델의 성능을 평가

Step 3) 전체 Train 데이터를 이용해 모델학습

CH02-05. Regularization (1)	2022.10.03
CH02-03. Linear Regression 실습하기 (Python) (0)	2022.10.03
CH02-02. Linear Regression 심화 (0)	2022.10.03
CH02-01. Linear Regression (0)	2022.10.03
CH01-01. 머신러닝이란 (0)	2022.10.03

관리회계 & 데이터 분석 스터디