Logistic Regression
1 Logistic Regression
목표
1. Logistic Regression의 정의
2. Area Under ROC (AUROC)
3. Multiclass Logistic Regression
데이터 자료의 형태
연속형 vs 비연속형
데이터의 형태
- 연속형 데이터키, 몸무게, … ==> Linear Regression
- 비연속형(범주형)성별, … ==> Linear Regression ... ?
연속형 예시
범주형 예시
범주형 데이터와 선형 회귀
- 정답의 범위가 0과 1 사이임
- 단순 선형 회귀의 예측값의 범위는 − ∞~∞
- 0과 1사이를 벗어나는 예측은 예측의 정확도를 낮추게 됨
- 예측의 결과가 0과 1사이에 있어야 한다!
Logistic Function
Logistic Function 수식
Logistic Regression 정의
- Linear Regression + Logistic Function
- 정답이 범주형일 때 사용하는 Regression Model
Logistic Regression의 수식
Linear Regression
$$ 𝑦 = 𝛽_0 + 𝛽_1𝑥 $$
Logistic Function
$$ 𝑦 = \frac{1}{1+e^{-1}} $$
Linear Regression + Logistic Function
Threshold(임계값)의 정의
확률값을 범주형으로 변환할 때의 기준
Threshold의 예시
Threshold = 0.5
확률이 0.5 보다 크면 1
확률이 0.5 보다 작으면 0
Threshold와 정확도(Accuracy)
Threshold를 0.5로 잡았을 때 정답? , 정확도는 ?
이 때의 정확도는 ? 66%!
Threshold를 0.51로 잡았을 때 정답? , 정확도는 ?
이 때의 정확도는 ? 100%!
AUROC (Area Under ROC)
정확도는 Threshold에 따라 변하기 때문에 지표로서 부족할 때가 있다.
이를 보완하기 위한 Threshold에 의해 값이 변하지 않는 지표가 AUROC
ROC Curve
True Positive Ratio 대 False Positive Ratio의 그래프
Confusion Matrix 정의
Confusion Matrix 예시
True Positive Ratio(TPR) = 2/3 = 0.66
False Positive Ratio(FPR) = 1/3 = 0.33
AUROC-ROC Curve
여러 Threshold에 대해서 TPR과 FPR을 계산한다
Best Threshold - youdens’ Index
최고의 임계점을 찾는 공식
Multiclass 정의
범주가 2개 일 때 성공여부
성공, 실패 --> 1, 0
범주가 3개 이상일 때
혈액형
A, B, O, AB --> 0, 1, 2, 3
One or Nothing
혈액형
A, B, O, AB --> A or Not
--> B or Not
--> O or Not
--> AB or Not
Binary Classification 예시
Multiclass Classification One or Nothing 예시
Multiclass Classification Class 선택하는법
'Machine Learning > 머신러닝 온라인 강의' 카테고리의 다른 글
CH04_01. Decision Tree (0) | 2022.10.10 |
---|---|
CH03_02. 폐암의 양성 음성 분류(실습) (0) | 2022.10.07 |
CH02_06. 당뇨병 진행도 예측 (Python) (0) | 2022.10.05 |
CH02-05. Regularization (1) | 2022.10.03 |
CH02-03. Linear Regression 실습하기 (Python) (0) | 2022.10.03 |