[빅분기] 평균, 편차, 분산, 표준편차, 공분산, 상관계수
데이터
. 아래와 같이 키가 175, 165, 180, 160인 4명의 사람이 있다고 하자.
키 (cm) | 175 | 165 | 180 | 160 |
평균 (mean)
- 정의 : 평균값, 전체를 더해서 그 개수로 나눠 줌.
- 수식
- 예시
평균 값 : (175 + 165 + 180 + 160) / 4 = 170
편차 (deviation)
- 정의 : 실제 값과 평균 값의 차이 (실제 데이터 값 - 평균 값)
. 합계가 0임 : 평균값을 기준으로 차이를 계산했기 때문 - 수식
- 예시
키 (cm) | 175 | 165 | 180 | 160 |
평균 | 170 | 170 | 170 | 170 |
편차 | +5 | -5 | +10 | -10 |
분산 (variance)
- 정의 : 흩어진 정도를 파악하기 위해 사용 됨.
. 편차는 다 더하면 0이라, 평균을 구할 수가 없다.
그래서 편차에서 부호를 없애고 사용하기 위해 제곱을 하고 다시 평균을 냄. - 기호
- 예시
편차 | +5 | -5 | +10 | -10 |
편차의 제곱(부호제거) | 25 | 25 | 100 | 100 |
분산 : 편차의 제곱(부호제거) 의 합 / 개수
(25 + 25 + 100 + 100) / 4 = 62.5
표준편차 (standard deviation)
- 정의 : 분산(variance)에 루트(√)를 씌운 값.
. 편차들이 대충 이 정도에서 분포하겠구나 확인을 할 수 있다.
. 표준편차가 크면, 표준에서 멀리 떨어졌다고 보면 된다.
- 수식
- 예시
공분산 (convariance)
- 정의 : 공분산은 서로 다른 두 변수 사이의 관계를 보기 위함.
- 두 변수가 서로 다른 단위를 사용하더라도 상관없음
- 원래 서로 다른 데이터간 관계를 표현하는 지표를 사용했기 때문
. 공분산의 절대 값 크기는 아무런 의미가 없음.
- 수식
- X의 평균
- Y의 평균
Cov(X, Y) > 0 : 양의 관계에 있다고 표현 ▷ 어느 하나가 증가하면 다른 하나도 증가함
Cov(X, Y) < 0 : 음의 관계에 있다고 표현 ▷ 어느 하나가 증가하면 다른 하나는 감소함
Cov(X, Y) = 0 : 선형관계 없음
- 예시
기존에 예를 들었던 키가 각 각 175, 165, 180, 160 cm 인 4명의 사람에 대해서,
아래와 같이 몸무게가 75, 70, 95, 72 kg이라고 가정을 해보자.
■ 키의 편차
키 (cm) | 175 | 165 | 180 | 160 |
평균 | 170 | |||
편차 | +5 | -5 | +10 | -10 |
■ 몸무게의 편차
몸무게 (kg) | 75 | 70 | 95 | 72 |
평균 | 78 | |||
편차 | -3 | -8 | +17 | -6 |
■ 키의 편차 x 몸무게의 편차
키의 편차 | +5 | -5 | +10 | -10 |
몸무게의 편차 | -3 | -8 | +17 | -6 |
키의편차 x 몸무게의 편차 | -15 | +40 | +170 | +60 |
■ 공분산
(키의 편차 x 몸무게의 편차)의 합계 / 개수
ㄴ (-15 + 40 + 170 + 60) / 4 = 63.75
상관계수
- 정의
두 변수가 무슨 관계가 있는지를 보여준다.
공분산을 보기 좋게 줄여 놓은 것으로 -1 과 1사이의 값을 가지며,
1에 가까 울수록 비슷하고, -1에 가까울수록 반대되는 경향이 있다고 본다. - 수식
- 예시
공분산 : 63.75
키의 표준편차 : 7.91
몸무게의 표준편차 : 9.97
상관계수 = 공분산 / (키의 표준편차 * 몸무게의 표준편차)
= 63.75 / (7.91 * 9.97) = 0.808
[참고사이트] : https://brunch.co.kr/@data/13#:~:text=편차는%20관측값과,만큼%20떨어져%20있다는%20의미이다.