전체 글

전체 글

    [머신러닝] PCA (주성분 분석)

    0. 들어가기전에 [머신러닝] 차원의 저주와 차원 축소에서 이어집니다. 1. PCA (Principal Component Analysis) PCA는 가장 대표적인 차원 축소 기법으로 여러 변수 간에 존재하는 상관관계를 이용해 이를 대표하는 주성분(Principal Component)을 추출해 차원을 축소하는 기법이다. 목적 1. 고차원의 데이터를 저차원으로 줄인다. 2. 공통된 (상관관계가 높은) 변수들을 줄여서 주성분을 찾는다. 1-1. 방법 1. 기존 데이터의 정보 유실을 최소화하기 위하여 가장 높은 분산을 가지는 데이터의 축을 찾아 해당 축으로 차원을 축소한다. (분산이 데이터의 특성을 가장 잘 나타내는 것으로 간주) 2. 첫 번째 축에서 직교하는 축을 선정하여 해당 축으로 차원을 축소한다. (직교..

    [머신러닝] 차원의 저주와 차원 축소

    1. 차원의 저주 (Curse of dimensionality) 데이터 학습을 위해 차원이 증가하면서 학습데이터 수가 차원의 수보다 적어져 성능이 저하되는 현상 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고, 희소(sparse)한 구조를 가지게 된다. 피처가 많을 경우, 개별 피처간에 상관관계가 높을 가능성이 높고 다중 공선성 문제를 야기한다. 다중 공선성 문제 독립변수들 간에 강한 상관관계가 나타나는 문제 2. 차원 축소 차원의 저주를 해결하는 방법 중 하나이다. 일반적으로 피처 선택(feature selection)과 피처 추출(feature extraction)으로 나뉜다. 피처 선택: 종속성이 강한 불필요한 피처는 제거하고, 데이터의 특징을 잘 나타내는 주요 ..

    [통계] 1종 오류와 2종 오류 & 오차행렬(confusion matrix)

    [통계] 1종 오류와 2종 오류 & 오차행렬(confusion matrix)

    1. 정의 위키피디아에 따르면 다음과 같이 정의된다. 1종 오류: 귀무가설이 실제로 참이지만, 이에 불구하고 귀무가설을 기각하는 오류 2종 오류: 귀무가설이 실제로 거짓이지만, 이에 불구하고 귀무가설을 기각하지 못하는 오류 2. 설명 귀무가설은 아무일도 일어나지 않았음을 의미한다. 따라서 다음과 같이 생각할 수 있다. 1종 오류: 실제로는 아무 일도 일어나지 않았지만, 어떤일이 발생했을 것이라고 예측하는 오류 2종 오류: 실제로는 어떤 일이 발생했지만, 아무 일도 일어나지 않았을 것이라고 예측하는 오류 2-1. 예시 몇가지 예시를 들어본다. 화재 경보 - 귀무 가설: 아파트에 불이 나지 않았다. - 1종 오류: 실제로는 아파트에 불이 나지 않았지만, 화재 경보가 울린 경우 - 2종 오류: 실제로는 아파트..