일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 3유형
- 머신러닝
- 빅데이터분석기사
- qgis
- webserving
- pytorch
- 예제소스
- 실기
- fastapi
- GPU
- K최근접이웃
- 캐글
- gradio
- ml 웹서빙
- 공간시각화
- 성능
- 딥러닝
- Ai
- DASH
- dl
- streamlit
- CUDA
- 인공지능
- Kaggle
- QGIS설치
- KNN
- 공간분석
- ㅂ
- 1유형
- 2유형
- Today
- Total
에코프로.AI
[빅분기] 스터디모임 발표준비 (2024.03.02) - 척도, 가설검정, 주성분분석 본문
1. 척도
원활한 데이터 분석을 하기 위해서는 데이터를 통계적 분석이 가능하도록 객관적 척도로 변환하는 작업이
우선되어야 합니다. 척도는 측정하고자 하는 대상을 수치화하는 것에 사용되는 일종의 측정 도구입니다.
자료구분 | 척도구분 | 등호연산 (=, !=) | 비교연산 (<, >, =, !=) | 가감연산 (+, -) | 승제연산 (×, ÷) |
질적자료 (범주형) | 명도척도 | 범주 | |||
서열/순서척도 | 범주 | 순서 | |||
양적자료 (연속형) | 등간/구간 척도 | 범주 | 순서 | 상대적 크기 | |
비율 척도 | 범주 | 순서 | 상대적 크기 | 절대적 크기 |
명목척도 (Nominal Scale)
- 정의 : 관측대상의 범주를 오로지 구분하기 위해 기호나 숫자를 부여하는 척도입니다.
- 양적인 의미가 없으며, 상대적인 비교가 어렵다.
. 남 : 0, 여자 : 1 이라고 가정했을때, 여자가 1이라고 남자보다 더 크다고 할수 없는 것처럼 말이다. - 예시 : 성별, 종교, 직업 등
예1 ) 자동차의 색상을 조사한 뒤, 아래와 같이 분류하는 방법
- 레드 : R, 블랙 : B, 화이트 : W
예2) 남녀를 성별로 분류할 때, 아래와 같이 분류하는 방법
- 남자 : 0, 여자 : 1
서열척도 (Ordinal Scale)
- 정의 : 관측 대상을 상대적으로 비교하여 대상 간의 순서관계(순위)를 매겨 관측하는 방법
- 서열을 매길수는 있어도 간격까지 고려하지는 못한다.
가령, 선호도 1위인 소주가 3위인 소주보다 3배 더 인기 있다고 해석할 수 없다. - 예시 : 수능등급, 사회계층 등
예1) 시중에 판매되고 있는 소주 브랜드별 선호도를 조사할 때,
소비자들에게 각 소주 브랜드에 대해 1,2,3,4,5위 의 순위를 매기도록 하는 것과 같은 방법
등간(구간) 척도 (Interval Scale)
- 정의 : 서열척도가 가지고 있는 정보와 함께
조사대상이 가지고 있는 속성의 "상대적 크기"의 차이를 비교할 수 있는 정보도 가지고 있는 척도
- "절대적인 영점" 이 없다.
온도계가 0°C를 가르킨다고 했을 때, 이는 온도가 없는 상태라고 할 수 없기 때문이다. 0°C를 나타낼 때의
0은 어떠한 상대적 기준을 표시하는 것일 뿐 없다는 의미를 나타내는 것이 아니기 때문이다.
비슷한 예로, 0시가 되었다고 가정해 보자. 0시면 다음날로 넘어가는 기준점을 표현하기 위해
편의상 '0시'라고 하지만 0시가 아무것도 없다는 뜻은 아니다. 이럴 때 사용하는 0을 '상대적 0'이라고 한다.
따라서, 상대적 0이기 때문에 +,- 의 연산은 가능하지만 곱셈, 나눗셈은 불가하다.
※ "온도30도는 10도의 3배입니다" 라고 할 수 없습니다. - 예시 : 온도, 지능지수 등
비율척도 (Ratio Scale)
- 정의 : 금액, 길이, 거리, 무게, 시간 등 우리가 통계에서 자주 다루는 많은 계량적 변수 데이터들이
비율 척도에 속하는 것들이다.
비율척도에는 "절대적인 영점"이 존재하며, 두 측정 값의 비율이 의미를 가진다.
※ "몸무게120KG 은 60KG의 2배입니다" 라고 할 수 있음. - 예시 : 몸무게, 매출액, 나이, 길이, 거리, 시간 등
[참고사이트] https://aftertalktalk.tistory.com/443
https://m.blog.naver.com/angryking/222366897282
2. (통계적)가설검정 (이하. 가설검정)
예시 및 정의
- 가설 : "까마귀는 검다"
. "까마귀는 검다"는 말은 "모든 까마귀는 검다"고 주장하는 것과 마찬가지입니다.
. 이것은 "검은 까마귀 한 마리를 보았다"는 사실만으로는 증명되지 않습니다.
. 예를 들어 어떤 까마귀는 빨갛고, 또 다른 까마귀는 파랗다면 "까마귀는 검다"를 사실로 확정할 수 없습니다.
이 처럼 "모든 00은 000이다"라는 표현은 "모든 것에 대해서 칭한다"는 의미로 "전칭성이 있다"고 표현합니다.
- 가설 반증
. 단 한 마리의 검지 않은 까마귀를 가져오기만 하면 "모든 까마귀는 검지 않다"는 것을 증명할 수 있습니다.
- 가설 증명
. 반대로 "모든 까마귀는 검다"는 것을 증명해야 하는 쪽은 난감해집니다.
. 검은 까마귀를 아무리 많이 보여 주더라도 누군가가
"그것이 모든 까마귀라 할 수는 없다", "검지 않은 까마귀가 없다는 증거가 되지 않는다"
반론을 계속 할 수 있기 때문입니다.
- 가설검정
. 가설검정으로도 "전칭성("모든 00은 000이다")"을 증명할 순 없지만,
확률을 도입해 "모든" 대신에 "거의 모든"을 생각하도록 만들 수 있습니다.
. 가설검정은 "모든 까마귀는 검다"는 것을 증명하기보다는
"우리가 흔히 보는 까마귀는 모두 검다고 생각하는 것이 타당하다"는 것을 증명하는 방식입니다.
. 정리하면, 가설검정은 모집단으로부터 수집된 표본의 정보를 사용해서,
실제 모집단의 값에 대한 주장이 타당한지, 확률에 근거하여 검증하는 것을 의미합니다.
※ 모집단 : 집단 전체
표본 : 모집단을 대표하는 집합
가설검정 필요성
- 정확한 결정을 내리기 위해 필요한 과정
- 우리가 가지고 있는 주장이나 가설이 진실에 근접한지, 혹은 틀린 것인지를 판단할 수 있음
- 불필요한 논란을 줄이고 조직에서도 빠른 의사결정을 하는데 도움을 준다.
귀무가설 (H0)
- 원래 내가 주장하고자 하는 내용과 반대되는, 즉 원래 주장을 무로 돌려버리는 가설
- "검정하려는 주장이 틀렸다"는 것을 입증하기 위해 세우는 가설
- 어떠한 인과 관계나 차이가 존재하지 않는 다는 가정을 말함.
- 귀무가설은 연구자가 반드시 입증해야 할 가설로 이를 기각하는 것이 주요 목표
대립가설 (H1)
- 귀무가설을 반박할 수 있는 가설, 적절한 수용 조건
가설검정 절차
1. 귀무가설 설정하기
- 원래 내가 주장하고자 하는 내용과 반대되는, 즉 원래 주장을 무로 돌려버리는 가설을 세운다.
Ex) "그래 일단 네 말이 맞다고 해볼게"
2. 대립가설과 유의수준 설정하기
- 귀무가설을 반박할 수 있는, 적절한 수용 조건을 정한다.
Ex) "그런데 만약 내 말이 맞다는 증거가 00% 이상이면, 네 말을 맞다고 보긴 어렵지 않을까?"
3. 임계값과 기각영역 설정 이후, 귀무가설 기각 여부 확인
- 데이터를 수집한 후, 수집된 데이터가 임계값(수용조건의 기준이 되는 지점)과 비교하여, 어떤 위치에 있는지
확인하고, 귀무가설을 채택할지, 기각할지를 결정한다.
Ex) "실제로 데이터를 확인해 보니 내말이 맞다는 증거가 97%나 되네, 그러니까 내 말이 타당하다고 보는게 맞아"
가설검정의 오류
검정 지표
- p-value
- t-value
[참고사이트] https://roytravel.tistory.com/352
https://drhongdatanote.tistory.com/59
https://huidea.tistory.com/233
https://hweejin.tistory.com/entry/통계적-가설검정이-유용한-이유
3. 주성분분석 (Principal Component Analysis)
정의
PCA는 대표적인 dimensionality reduction (차원 축소)에 쓰이는 기법으로, 머신러닝, 데이터마이닝, 통계 분석, 노이즈 제거 등 다양한 분야에서 널리 쓰이는 녀석이다.
쉽게 말해 PCA를 이용하면 고차원의 데이터를 낮은 차원의 데이터로 바꿔줄 수 있다는 것인데, 중요한 것은 "어떻게 차원을 잘 낮추느냐" 이다.
[참고사이트] https://ddongwon.tistory.com/114
'AI Miscellany' 카테고리의 다른 글
[Python] JSON 데이터 처리관련 (0) | 2024.08.14 |
---|---|
[GitHub] GitHub 가입 및 기본사용법 (0) | 2024.08.14 |
[관련도서] 원인과 결과의 경제학 (0) | 2024.05.21 |
[빅분기] 스터디모임 발표준비 (2024.03.09) - 서포트벡터머신(SVM) (0) | 2024.03.07 |
[빅분기] 평균, 편차, 분산, 표준편차, 공분산, 상관계수 (0) | 2024.02.26 |