머신러닝/통계

    [통계] 1종 오류와 2종 오류 & 오차행렬(confusion matrix)

    [통계] 1종 오류와 2종 오류 & 오차행렬(confusion matrix)

    1. 정의 위키피디아에 따르면 다음과 같이 정의된다. 1종 오류: 귀무가설이 실제로 참이지만, 이에 불구하고 귀무가설을 기각하는 오류 2종 오류: 귀무가설이 실제로 거짓이지만, 이에 불구하고 귀무가설을 기각하지 못하는 오류 2. 설명 귀무가설은 아무일도 일어나지 않았음을 의미한다. 따라서 다음과 같이 생각할 수 있다. 1종 오류: 실제로는 아무 일도 일어나지 않았지만, 어떤일이 발생했을 것이라고 예측하는 오류 2종 오류: 실제로는 어떤 일이 발생했지만, 아무 일도 일어나지 않았을 것이라고 예측하는 오류 2-1. 예시 몇가지 예시를 들어본다. 화재 경보 - 귀무 가설: 아파트에 불이 나지 않았다. - 1종 오류: 실제로는 아파트에 불이 나지 않았지만, 화재 경보가 울린 경우 - 2종 오류: 실제로는 아파트..

    [통계] 귀무가설과 대립가설

    1. 들어가기전에 통계를 공부하다보면 p-value, 검정력, 1종 오류, 2종 오류 등등 어려운 단어가 너무 많이 나온다. 이들을 알아보기전에, 기본이 되는 귀무가설과 대립가설을 알 필요가 있다. 2. 정의 2-1. 귀무가설 귀무 가설은 영어로 null hypothesis라고 하는데, 처음부터 버릴 것을 예상하는 가설이다. 따라서 새로울 게 없다는 뜻으로 기존에 존재하는 가설이다. 2-2. 대립가설 귀무 가설에 대립되는 가설로 연구자가 입증되기를 주장하는 가설이다. 3. 의미 일반적으로 참이 아님을 증명하는 것이 참임을 증명하는 것보다 쉽다. 그렇기 때문에 귀무가설이 아님을 증명하는 방식으로 진행한다고 생각하면 되겠다. 따라서 정리하면, 연구자는 대립 가설을 세우고 실험을 통해 대립 가설을 입증하고자 ..

    [통계] 공분산과 상관계수

    1. 들어가기 전에 머신러닝을 공부하다가, 판다스에서 상관계수를 계산해주는 코드를 작성하였다. import pandas as pd url = "" data = pd.read_csv(url) data.corr() 피어슨, 스피어만과 같은 상관계수는 많이 들어봤는데 판다스에서 default로 어떤 상관계수를 쓰고 어떤 상관계수들을 받고 각각 특징이 궁금해졌다. 우선, 공식 홈페이지를 살펴본 결과, 피어슨 상관계수를 default로 사용한다. 그리고 피어슨, 켄달, 스피어만 상관계수를 사용할 수 있다. 상관계수를 이해하기전 공분산을 이해하는 것이 필수이므로 공분산을 알아본 뒤, 상관계수의 정의를 살펴보고 각각 특징을 알아보자. 2. 공분산 정의 2개의 확률변수의 선형 관계를 나타내는 값이다. (출처: 위키피디..