ch6.1 차원 축소 개요
차원의 저주
차원이 커질 수록
데이터 포인트들 간 거리가 크게 늘어남
데이터가 희소화{Sparse)됨
수백~수전개 이상의 피처로 구성된 포인트들간 거리에 기반한 ML 알고리즘이 무력화됨.
또한 피처가 많을 경우 개별 피처 간에 상관관계가 높아 선형 회귀와 같은 모델에서는
다중 공선성 문제로 모델의 예측 성능이 저하될 가능성이 높음
차원 축소의 장점
• 학습 데이터 크기를 줄여서 학습시간 절약
• 불필요한 피처들을 줄여서 모델 성능향상에 기여(주로 이미지 관련 데이터)
• 다차원의 데이터를 3 차원 이하의 차원 축소를 통해서 시각적으로 보다 쉽게 데이터 패턴 인지
어떻게 하면 원본 데이터의 정보를 최대한으로 유지한 재로 차원 축소를 수행할 것인가?
피처 선택과 피처 추출
일반적으로 자원 축소는 피처 선택 (feature selection) 과 피처 추출 (feature extraction)로 나눌 수 있습니다.
피저 추줄 (Feature Extraction)
피처 주출은 기존 피처를 단순 압축이 아닌, 피처를 함축적으로 더 잘 설명할 수 있는 또 다른 공간으로 매핑해 추출하는 것 입니다.
자원 축소의 의미
차원 축소는 단순히 데이터의 압축을 의미하는 것이 아닙니다. 더 중요한 의미는 차원 죽소를 통해 좀 더 데이터
를 잘 설명할 수 있는 잠재적(Latent)인 요소를 추출하는 데에 있습니다
• 추천 엔진
• 이미지 분류 및 변환
• 문서 토픽 모델링
'Machine Learning > 머신러닝 완벽가이드 for Python' 카테고리의 다른 글
ch6.4 SVD(Singular Value Decomposition) (0) | 2022.10.20 |
---|---|
ch6.2 PCA (0) | 2022.10.20 |
예제 1-2. bike-sharing-demand_랜덤포레스트회귀 (0) | 2022.10.13 |
예제 1-1. bike-sharing-demand_EDA (0) | 2022.10.13 |
ch 5.7_로지스틱 회귀_ 5.8_회귀 트리 (실습) (0) | 2022.10.13 |