일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 예제소스
- Kaggle
- pytorch
- 공간시각화
- DASH
- GPU
- dl
- qgis
- ㅂ
- K최근접이웃
- 공간분석
- ml 웹서빙
- 머신러닝
- 1유형
- CUDA
- 성능
- webserving
- 3유형
- 빅데이터분석기사
- Ai
- QGIS설치
- gradio
- 딥러닝
- 실기
- 인공지능
- 2유형
- streamlit
- fastapi
- KNN
- 캐글
- Today
- Total
에코프로.AI
[빅분기] 평균, 편차, 분산, 표준편차, 공분산, 상관계수 본문
데이터
. 아래와 같이 키가 175, 165, 180, 160인 4명의 사람이 있다고 하자.
키 (cm) | 175 | 165 | 180 | 160 |
평균 (mean)
- 정의 : 평균값, 전체를 더해서 그 개수로 나눠 줌.
- 수식
- 예시
평균 값 : (175 + 165 + 180 + 160) / 4 = 170
편차 (deviation)
- 정의 : 실제 값과 평균 값의 차이 (실제 데이터 값 - 평균 값)
. 합계가 0임 : 평균값을 기준으로 차이를 계산했기 때문 - 수식
- 예시
키 (cm) | 175 | 165 | 180 | 160 |
평균 | 170 | 170 | 170 | 170 |
편차 | +5 | -5 | +10 | -10 |
분산 (variance)
- 정의 : 흩어진 정도를 파악하기 위해 사용 됨.
. 편차는 다 더하면 0이라, 평균을 구할 수가 없다.
그래서 편차에서 부호를 없애고 사용하기 위해 제곱을 하고 다시 평균을 냄. - 기호
- 예시
편차 | +5 | -5 | +10 | -10 |
편차의 제곱(부호제거) | 25 | 25 | 100 | 100 |
분산 : 편차의 제곱(부호제거) 의 합 / 개수
(25 + 25 + 100 + 100) / 4 = 62.5
표준편차 (standard deviation)
- 정의 : 분산(variance)에 루트(√)를 씌운 값.
. 편차들이 대충 이 정도에서 분포하겠구나 확인을 할 수 있다.
. 표준편차가 크면, 표준에서 멀리 떨어졌다고 보면 된다.
- 수식
- 예시
공분산 (convariance)
- 정의 : 공분산은 서로 다른 두 변수 사이의 관계를 보기 위함.
- 두 변수가 서로 다른 단위를 사용하더라도 상관없음
- 원래 서로 다른 데이터간 관계를 표현하는 지표를 사용했기 때문
. 공분산의 절대 값 크기는 아무런 의미가 없음.
- 수식
- X의 평균
- Y의 평균
Cov(X, Y) > 0 : 양의 관계에 있다고 표현 ▷ 어느 하나가 증가하면 다른 하나도 증가함
Cov(X, Y) < 0 : 음의 관계에 있다고 표현 ▷ 어느 하나가 증가하면 다른 하나는 감소함
Cov(X, Y) = 0 : 선형관계 없음
- 예시
기존에 예를 들었던 키가 각 각 175, 165, 180, 160 cm 인 4명의 사람에 대해서,
아래와 같이 몸무게가 75, 70, 95, 72 kg이라고 가정을 해보자.
■ 키의 편차
키 (cm) | 175 | 165 | 180 | 160 |
평균 | 170 | |||
편차 | +5 | -5 | +10 | -10 |
■ 몸무게의 편차
몸무게 (kg) | 75 | 70 | 95 | 72 |
평균 | 78 | |||
편차 | -3 | -8 | +17 | -6 |
■ 키의 편차 x 몸무게의 편차
키의 편차 | +5 | -5 | +10 | -10 |
몸무게의 편차 | -3 | -8 | +17 | -6 |
키의편차 x 몸무게의 편차 | -15 | +40 | +170 | +60 |
■ 공분산
(키의 편차 x 몸무게의 편차)의 합계 / 개수
ㄴ (-15 + 40 + 170 + 60) / 4 = 63.75
상관계수
- 정의
두 변수가 무슨 관계가 있는지를 보여준다.
공분산을 보기 좋게 줄여 놓은 것으로 -1 과 1사이의 값을 가지며,
1에 가까 울수록 비슷하고, -1에 가까울수록 반대되는 경향이 있다고 본다. - 수식
- 예시
공분산 : 63.75
키의 표준편차 : 7.91
몸무게의 표준편차 : 9.97
상관계수 = 공분산 / (키의 표준편차 * 몸무게의 표준편차)
= 63.75 / (7.91 * 9.97) = 0.808
[참고사이트] : https://brunch.co.kr/@data/13#:~:text=편차는%20관측값과,만큼%20떨어져%20있다는%20의미이다.
'AI Miscellany' 카테고리의 다른 글
[Python] JSON 데이터 처리관련 (0) | 2024.08.14 |
---|---|
[GitHub] GitHub 가입 및 기본사용법 (0) | 2024.08.14 |
[관련도서] 원인과 결과의 경제학 (0) | 2024.05.21 |
[빅분기] 스터디모임 발표준비 (2024.03.09) - 서포트벡터머신(SVM) (0) | 2024.03.07 |
[빅분기] 스터디모임 발표준비 (2024.03.02) - 척도, 가설검정, 주성분분석 (0) | 2024.02.26 |