728x90
반응형
1. 차원의 저주 (Curse of dimensionality)
- 데이터 학습을 위해 차원이 증가하면서 학습데이터 수가 차원의 수보다 적어져 성능이 저하되는 현상
- 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고, 희소(sparse)한 구조를 가지게 된다.
- 피처가 많을 경우, 개별 피처간에 상관관계가 높을 가능성이 높고 다중 공선성 문제를 야기한다.
다중 공선성 문제
독립변수들 간에 강한 상관관계가 나타나는 문제
2. 차원 축소
차원의 저주를 해결하는 방법 중 하나이다. 일반적으로 피처 선택(feature selection)과 피처 추출(feature extraction)으로 나뉜다.
- 피처 선택: 종속성이 강한 불필요한 피처는 제거하고, 데이터의 특징을 잘 나타내는 주요 피처만 선택하는 것
- 피처 추출: 기존 피처를 저차원의 중요 피처로 압축해서 추출하는 것
피처 추출 이해를 돕기 위한 예시
학생을 평가하는 다양한 요소로 모의고사 성적, 종합 내신성적, 수능성적, 봉사활동, 대외활동, 학교 내외 수상경력 등과 관련된 여러가지 피처로 되어 있는 데이터 세트라면 이를 학업 성취도, 커뮤니케이션 능력, 문제 해결력과 같은 더 함축적인 요약 특성으로 추출하는 것.
이와 같이 피처 추출은 기존 피처가 전혀 인지하기 어려웠던 잠재적인 요소(Latent Factor)를 추출하는 것을 의미한다. (출처: 파이썬 머신러닝 완벽 가이드)
2-1. 특징
- 대표적으로 PCA, SVD, NMF 등이 있다.
- SVD와 NMF 등은 Semantic Topic 모델링을 위한 기반 알고리즘으로 사용된다.
- 단순히 데이터의 압축만을 의미하는 것이 아니고 차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는 잠재적인 요소를 추출하는 데에 있다.
- 차원이 줄어들면 오버피팅을 방지할 수 있어 성능을 끌어올릴 수 있다.
3. Reference
728x90
반응형
'머신러닝' 카테고리의 다른 글
[머신러닝] PCA (주성분 분석) (0) | 2022.07.28 |
---|