머신러닝/전처리

    [전처리] 데이터 스케일링

    1. 스케일링 하는 이유 데이터별로 값들의 범위가 다양하게 존재할 수가 있다. 예를 들어, 값이 대체로 큰 데이터와 값이 대체로 작은 데이터가 존재한다. (ex. 키와 몸무게) 이러한 경우에는 같은 값이라도 서로 다른 영향을 미치게 될 것이고 이는 학습에 악영향을 줄 수 있다. 따라서, 스케일링을 통해 각 칼럼이 비슷한 범위를 가지도록 하여 문제를 해결할 수 있다. 2. 스케일링 종류 및 특징 스케일링은 보통 표준화(Standard Scaler) · 최소-최대 스케일링(Min-Max Scaling) · 로버스트 정규화(Robust Scaler) 이렇게 3가지가 있다. 2-1. 표준화(Standard Scaler) $$Z = \frac{X_i - mean(X)}{sd(X)}$$ 데이터를 표준화된 정규분포꼴..