Machine Learning/머신러닝 완벽가이드 for Python (65) 썸네일형 리스트형 ch.5.2 단순 선형 S회귀를 통한 회귀의 이해 RSS 기반의 회귀 오류 즉정 잔차 제곱합 (Residual Sum of Squares) RSS - 오류 값의 제곱을 구해서 더하는 방식입니다. 일반적으로 미분 등의 계산을 편리하게 하기 위해서 RSS 방식으로 오류 합을 구합니다. 즉 Error2= RSS입니다. RSS의 이해 RSS 는 이제 변수가 W0, W1인 식으로 표현할 수 있으며, 이 RSS를 최소로 하는 W0, W1, 즉 회귀 계수를 학습을 통해서 찾는 것이 머신러닝 기반 회귀의 핵심 사항입니다. RSS 는 회귀식의 독립변수 X, 종속변수, Y 가 중심 변수가 아니라 w변수 ( 회귀 계수 )가 중심 변수임을 인지하는 것이 매우 중요합니다. ( 학습 데이터로 입력되는 독립변수와 종속변수는 RSS에서 모두 상수로 간주합니다 ) 일반적으로 RSS는.. ch.5.1 회귀 소개 분류 (Classification)와 회귀(Regression) 회귀 소개 회귀는 현대통계학을 이루는 큰 축 회귀 분석은 유전적 특성을 연구하던 영국의 통계학자 갈톤 (Gaitan)이 수행한 연구에서 유래했다는 것이 일반론 ‘‘ 부모의 키가 크더라도 자식의 키가 대를 이어 무한정 커지지 않으며 , 부모의 키가 작더라도 대를 이어 자식의 키가 무한정 작아지지 않는다" 회귀 분석은 이저럼 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법입니다 회귀 (Regression) 개요 회귀는 여러개의 독립 변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭합니다. 회귀의 유형 일반 선형 회귀: 예측값과 실제 값의 RSS (Residual Sum of Squares) 를 죄소화할.. 분류 (Classification) Summary 결정 트리와 결정 트리 기반의 앙상블 배깅과부스팅 랜덤 포레스트, GBM GBM 의 기능을 더욱 향상 시킨 XGBoost, LightGBM 스태킹 모델 머신러닝 완벽가이드 for python 목차 ▣ 4장: 분류 4.1. 분류(Classification)의 개요 4.2. 결정 트리 __결정 트리 모델의 특징 __결정 트리 파라미터 __결정 트리 모델의 시각화 __결정 트리 과적합(Overfitting) __결정 트리 실습 - 사용자 행동 인식 데이터 세트 4.3. 앙상블 학습 __앙상블 학습 개요 __보팅 유형 - 하드 보팅(Hard Voting)과 소프트 보팅(Soft Voting) __보팅 분류기(Voting Classifier) 4.4. 랜덤 포레스트 __랜덤 포레스트의 개요 및 실습 __랜덤 포레.. ch4.10.1 스태킹 앙상블(실습) 1 1. Basic 스태킹 모델 데이터 로딩 import numpy as np from sklearn.neighbors import KNeighborsClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.ensemble import AdaBoostClassifier from sklearn.tree import DecisionTreeClassifier from sklearn.linear_model import LogisticRegression from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split fr.. ch. 4.10 스태킹 앙상블 모델 Basic Stacking Model - Diagram 기반모델들이 예즉한값들을 Stacking 형태로 만들어서 메타모델이 이를 학습하고 예측하는모델 Basic Stacking Model - Example 개별 모델들의 예측 결과값들을 스태킹해서 학습 셋으로 만듦, 이를 최종 메타 모델이 학습. 교자 검증 세트 기반의 스태킹 교차 검증 세트 기반의 스태킹은 이에 대한 개선을 위해 개별 모델들이 각각 교차 검증으로 메타 모델을 위한 학습용 스태킹 데이터 생성과 예측을 위한 테스트용 스태킹 데이터를 생성한 뒤 이를 기반으로 메타 모델이 학습과 예측을 수행합니다. 이는 다음과 같이 2 단계의 스텝으로 구분될 수 있습니다. 스텝 1: 각 모델별로 원본 학습/ 테스트 데이터릅 예측한 결과 값을 기반으로 메타 모델.. 스마트폰 구매 요인 분석(Decision Tree) (실습) 1 모듈 및 데이터 로딩 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # 워닝 무시 import warnings warnings.filterwarnings('ignore') data = pd.read_csv('smartphone.csv') 2 데이터(ebay ecommerce) 특성 확인하기 print(data.shape) data.head(20) 머신러닝 : 지도 학습 -> 예측하고 싶은 것 sold : 판매 여부(1은 판매됨, 0은 판매 안 됨) -> 기존 주어진 데이터 BuyItNow : 경매없이 바로구매 옵션 startprice : 시작 가격 carrier : 미국 통신사 co.. ch4.09 분류 실습-신용카드_사기검출 목표 : 우선 기본적인 모델 학습을 해보고 데이터 전처리(피처 엔지니어링)를 통해서 모델 성능이 향상되는지 확인해보자. 1 1. 데이터 로드 및 확인 import pandas as pd import numpy as np import matplotlib.pyplot as plt import warnings warnings.filterwarnings("ignore") %matplotlib inline card_df = pd.read_csv('./creditcard.csv') print(card_df.shape) card_df.head(3) >>> (284807, 31) 원본 DataFrame은 유지하고 데이터 가공을 위한 DataFrame을 복사하여 반환 from sklearn.model_selection .. ch.4.09 분류 실습 2 : 신용카드 사기 예측 실습 Credit Card Fraud Detection 데이터 세트 소개 데이터 셋은 2013 년 European Card 사용 트랜잭션을 가공하여 생성 불균형 (imbalanced) 되어 있는 데이터 셋. 284,807 건의 데이터 중 492 건이 Fraud 임. 전제의 0.172% Credit Card Fault Detection ML 모델 구축 다양한 Feature Engineering 방식을 자례로 Logistic Regression 과 LightGBM 을 이용하여 적용 후 비교 Log 변환 Log 변환은 왜곡된 분포도를 가진 데이터 세트를 비교적 정규분포에 가깝게 변환해주는 홀륭한 Feature Engineering 방식 IQR(Inter Quantile Range) 를 이용한 Outlier Remo.. 이전 1 2 3 4 5 6 7 ··· 9 다음