- 모집단의 표본을 가지고 모집단의 특성을 추론하고 그 결과의 신뢰성을 검정하는 통계적 방법으로, 표본의 개수가 많을수록 표본오차는 감소한다.
- 점 추정 : 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법으로 신뢰도를 나타낼 수 없는 단점이 있어 구간 추정을 주로 사용한다.
- 점 추정 조건
- 불편성/불편의성 : 추정량의 기댓값이 모집단의 모수와 차이가 없다는 특성으로 불편 추정량은 모수를 중심으로 분포
- 효율성 : 추정량의 분산이 작을수록 좋다는 특성으로 추정량의 효율은 항상 1 이하이고, 효율이 1인 추정량을 최대효율 추정량이라고 함
- 일치성 : 표본의 크기가 아주 많이 커지면, 추정량이 모수와 거의 같이진다는 특성으로 일치성을 가지는 추정량을 일치 추정량을 통해 확인
- 충족성/춘분성 : 추정량은 모수에 대하여 많으 정보를 제공할수록 좋다는 특성으로 충분성을 추정하기 위해 충족 추정량을 사용
- 표준오차 : 추정량은 추출된 표본의 값에 따라서 달라질수 있으며, 정확도를 측정하기 위해 측정량의 표준편차를 계산한다.
- 구간 추정 : 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법으로 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기가 주어져야 한다.
- 모평균 추정 : 단일 모평균에 대한 추정과 두개의 모평균의 차이에 대한 추정으로 구분할수 있다
- 단일 모평균 추정
- 두 모평균 차이의 추정
- 대응 표본일 경우 두 모평균 차이의 추정
- 모비율의 추정 : 크기가 n인 표본에서 어떤 사건이 발생할 횟수를 확률변수 X라고 할때, 표본비율은 X / n이다
- 단일 모비율 추정
- 두 모비율 차이의 추정
- 비모수 통계 : 평균이나 분산 같은 모집단의 분포에 대한 모수성을 가정하지 않고 분석하는 통계적 방법으로 데이터가 모수적 분석 방법이 가정한 특성을 만족하지 못할 때는 비모수 통계분석 방법을 사용하여야 한다. 특징으로는 빈도, 부호, 순위 등의 통계량을 사용하고, 순위와 부호에 기초한 방법 위주로 이상값으로 인한 영향이 적다.
- 장점 : 모집단의 분포에 대한 가정의 불만족으로 인한 오류의 가능성이 작고, 모수적 방법에 비해 통계량의 계싼이 간편하고 직관적으로 이해하기 쉬우며, 모집단의 분포에 무관하게 사용할 수 있다. 이상값으로 인한 영향이 적다.
- 단점 : 모수 통계로 검정이 가능한 데이터를 비모수통계를 이용하면 효율성이 떨어진다. 검정 통계량의 신뢰성이 부족하며, 자료의 수가 많은 경우 모수적 통계에 비해 오히려 계산 절차가 복잡하다
- 검정방법
- 단일 표본 부호검정 : 차이의 크기는 무시하고 차이의 부호만을 이용한, 중위수의 위치에 대한 검정 방법으로, 자료를 중위수와 차이의 부호인 +와 -의 부호로 전환한 다음 부호들의 수를 근거로 검정한다.
- 단일 표본 부호 순위 검정 : 단일 표본에서 중위수에 대한 검정에 사용되며, 또한 대응되는 두 표본의 중위수의 차이 검정에도 사용된다. 차이의 부호뿐만 아니라 차이의 상대적인 크기도 고려한 검정 방법이다.
- 두 표본 검정 : 두 표본의 혼합 표본에서 순위 합을 이용한 검정 방법으로 자료의 분포가 연속적이고 독립적인 분포에서 나온 것이라는 기본 가정 외에 자료의 분포에 대한 대칭성 가정이 필요하다.
- 대응 표본 검정 : 하나의 모집단에서 두 가지 처리를 적용하여 관찰 값을 얻은 후 각 쌍의 차이를 이용하여 두 중위수의 차이를 검정하는 방법으로 부호 검정과 워ㅣㄹ콕슨 부호 순위 검정 방법을 이용한다.
- 분산 분석 : 세 집단 이상의 분포를 비교하는 검정 방법으로 모수적 방법에서는 one-way-ANOVA와 같은 목적으로 쓰인다. 그룹별 평균이 아닌 중위수가 같은지를 검정한다.
- 런 검정 : 두 개의 값을 가지는 연속적인 측정값들이 어떤 패턴이나 경향이 없이 임의적으로 나타난 것인지를 검ㅈ정하는 방법으로 런은 동일한 측정값들이 시작하여 끝날 때까지의 덩어리를 말한다.
- 가설 : 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적인 결론으로 가설을 검정하기 위해 알고 싶은 내용을 기술한 가설의 종류에는 귀무가설과 대립가설이 있다.
- 귀무가설 : 현재까지 주장되어 온 것이거나 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설
- 대립가설 : 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설
- 가설검정 : 모집단에 대한 통계적 가설을 세우고 표본을 추출한 다음, 그 표본을 통해 얻은 정보를 이용하여 통계적 가설의 진위를 판단하는 과정으로 표본을 활용하여 모집단에 대입해보았을 때 새롭게 제시된 대립가설이 옳다고 판단할 수 있는지를 평가하는 과정
- 절차 : 가설 설정 -> 유의수준 설정 -> 검정통계량 계산 p-값산출 -> 검정통계량>임계값p-값<유의수준 -> 의사결정
- 방법
- 양측 검정 : 모수에 대해 표본자료를 바탕으로 모수가 특정 값과 통계적으로 같은지 여부를 판단
- 단측 검정 : 모수에 대해 표본자료를 바탕으로 모수가 특정 값과 통계적으로 큰지 작은지 여부를 판단
- 가설검정의 오류 : 통계적인 방법에 근거하여 주어진 가설을 검증하는 데 있어 모집단 전체를 통해 검증하는 것이 아닌 모집단으로부터 추출된 표본을 기반으로 모집단에 대한 결론을 내리는 것이기 때문에 다음과 같은 통계적 오류가 발생할 가능성이 항상 존대한다
- 제1종 오류 : 귀무가설이 참인데 잘못하여 이를 기각하게 되는 오류
- 제2종 오류 : 귀무가설이 거짓인데 잘못하여 이를 채택하게 되는 오류
- 검정통계량 : 가설검정의 대상이 되는 모수를 추론하기 위해 사용되는 표본 통계량으로 귀무가설이 참이라는 전제하에서 모집단으로부터 추출된 확률표본의 정보를 이용하여 계산된다.
- p-값 : 귀무가설이 참이라는 전제하에 실제 표본에서 구한 표본 통계량의 값보다 더 극단적인 값이 나올 확률
- 임곗값 : 주어진 유의수준을 검정통계량의 값으로 확산한 값으로서 귀무가설을 채택 또는 기각하는 기준
반응형
'빅데이터 이론' 카테고리의 다른 글
[빅분기] 분석 기법-1 (0) | 2022.08.30 |
---|---|
[빅분기] 분석 절차 수립 (0) | 2022.08.30 |
[빅분기] 통계기법 이해 (0) | 2022.08.30 |
[빅분기] 고급 데이터 탐색 (0) | 2022.08.29 |
[빅분기] 데이터 탐색 (0) | 2022.08.29 |
댓글