전체 글
[전처리] 데이터 스케일링
1. 스케일링 하는 이유 데이터별로 값들의 범위가 다양하게 존재할 수가 있다. 예를 들어, 값이 대체로 큰 데이터와 값이 대체로 작은 데이터가 존재한다. (ex. 키와 몸무게) 이러한 경우에는 같은 값이라도 서로 다른 영향을 미치게 될 것이고 이는 학습에 악영향을 줄 수 있다. 따라서, 스케일링을 통해 각 칼럼이 비슷한 범위를 가지도록 하여 문제를 해결할 수 있다. 2. 스케일링 종류 및 특징 스케일링은 보통 표준화(Standard Scaler) · 최소-최대 스케일링(Min-Max Scaling) · 로버스트 정규화(Robust Scaler) 이렇게 3가지가 있다. 2-1. 표준화(Standard Scaler) $$Z = \frac{X_i - mean(X)}{sd(X)}$$ 데이터를 표준화된 정규분포꼴..
[통계] 공분산과 상관계수
1. 들어가기 전에 머신러닝을 공부하다가, 판다스에서 상관계수를 계산해주는 코드를 작성하였다. import pandas as pd url = "" data = pd.read_csv(url) data.corr() 피어슨, 스피어만과 같은 상관계수는 많이 들어봤는데 판다스에서 default로 어떤 상관계수를 쓰고 어떤 상관계수들을 받고 각각 특징이 궁금해졌다. 우선, 공식 홈페이지를 살펴본 결과, 피어슨 상관계수를 default로 사용한다. 그리고 피어슨, 켄달, 스피어만 상관계수를 사용할 수 있다. 상관계수를 이해하기전 공분산을 이해하는 것이 필수이므로 공분산을 알아본 뒤, 상관계수의 정의를 살펴보고 각각 특징을 알아보자. 2. 공분산 정의 2개의 확률변수의 선형 관계를 나타내는 값이다. (출처: 위키피디..
20220628_TIL
멘탈 관리 천인우님 영상보면서 참 배울게 많은 사람이라고 느꼈다. 두려움이 많아지는 요즘인데, 멘탈관리잘하면서 열심히 노력해야겠다. 아래는 기억할만한 내용들이다. 1. 아침에 최대 3가지 목표 세우기 -> 너무 많은 걸 하려하지마라. 우린 인간이다. 2. 나보다 일잘하는 사람의 시간을 훔쳐라 -> 경쟁이라 생각하지 말것. 상생이다. 이기겠다보다 배우겠다는 마인드로 접근. 3. 미국에서는 못알아듣게하면 본인 책임 / 한국은 보통 왜 못알아듣냐고 함 4. 단기적으로는 비관론자, 장기적으로는 낙관론자 p.s. 컨텍스트 스위칭 얘기나오는데, 역시 천상 개발자... 작년 초 취준시작할때를 생각하자. bfs/dfs에 대한 개념도 없을 시절말이다. 처음엔 힘들었지만 수많은 노력끝에 온전히 내것으로 만들었다. 그렇게 ..