본문 바로가기
빅데이터 이론

[빅분기] 통계기법 이해

by BoomBear 2022. 8. 30.
  • 데이터 요약
    • 대푯값 : 주어진 자료 전체에서 중심 위치를 나타내는 값
      • 평균
        • 산술 평균 : 자료를 모두 더한 후 자료 개수로 나눈 값으로 전부 같은 가중치를 두며 이상값에 민감하다. 모평균, 표본평균이 있다.
        • 기하 평균 : 숫자들을 모두 곱한 후 거듭제곱근을 취해서 얻은 평균으로 성장률, 백분율과 같이 자료가 비율이나 배수와 같이 곱의 관계일 때 사용한다.
        • 조화 평균 : 자료들의 역수에 대해 산술 평균을 구한 후 그것을 역수로 취한 평균이며, 속도의 편균, 여러 곳의 평균 성장률과 같은곳에서 사용한다.
      • 중위수 : 모든 데이터 값을 오름차순으로 순서대로 배열하였을 때 중앙에 위치한 데이터값으로, 이상치에 영향을 받지 않는다. 데이터값의 수가 홀수일 경우에는 중위수가 하나가 되지만, 데이터 수가 짝수일 경우에는 중앙에 있는 두 개의 값을 평균으로 하여 정한다.
      • 최빈수 : 데이터 값 중에서 빈도수가 가장 높은 데이터 값으로 관측된 데이터 값 중에서 가장 여러 번 나타난 값이다.
      • 사분위수 : 모든 데이터값을 순서대로 배열하였을 때 4등분한 지점에 있는 값이다.
    • 산포도 : 주어진 자료가 흩어진 정도를 나타내는 값
      • 분산 : 평균으로부터 얼마나 떨어져 있는지를 나타내는 값으로 양의 편차와 음의 편차를 더할 경우 0이 될 수 있으므로 각 데이터값을 제곱 후 모두 더한다. 모분산, 표본분산이 있다.
      • 표준편차 : 분산에 양의 제곱근을 취한 값으로 모 표준편차, 표본 표준편차가 있다.
      • 범위 : 자료 중에서 최댓값과 최솟값의 차이
      • IQR : 제3 사분위수와 제1 사분위수의 차이
      • 사분편차 : 제3 사분위수와 제1 사분위수 차이인 IQR의 절반 값
      • 변동계수 : 표준편차를 평균으로 나는값으로 측정 단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교할 때 사용한다.
    • 데이터 분포 : 데이터 분포의 형태와 대칭성을 설명할 수 있는 통계량에는 첨도와 왜도가 있다.
      • 첨도 : 데이터 분포의 뾰족한 정도를 설명하는 통계량
      • 왜도 : 데이터 분포의 기울어진 정도를 설명하는 통계량으로 비대칭성을 나타내는 통계량
    • 공분산 : 2개의 변수 사이의 관련성을 나타내는 통계량. 종류로는 모공분산, 표본공분산이 있다. 특징으로는 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있고, 공분산 값의 크기는 측정 단위에 따라 달라지므로 선형관계의 강도를 나타내지 못한다.
    • 상관관계 : 두 변수 사이에 어떤 선형적 또는 비선형적 관계가 있는지를 분석하는 방법으로 상관 분석으로 인과관계는 알 수 없다.
      • 변수 개수에 따른 분류
        • 단순 상관 분석 : 두 개의 변수 사이의 상관성 분석
        • 다중 상관 분석 : 세 개 이상의 변수 사이의 상관성 분석
      • 변수 속성에 따른 분류
        • 수치적 데이터 : 등간 척도, 비율 척도에 해당하며, 수치로 표현을 할 수 있는 측정 가능한 데이터 변수이다.
        • 순서적 데이터 : 범주형 데이터 중에서 순서적 데이터에 해당하며, 데이터의 순서에 의미를 부여한 데이터 변수이다.
        • 명목적 데이터 : 범주형 데이터 중에서 명목척도에 해당하며, 데이터의 특성을 구분하기 위하여 숫자나 기호를 할당한 데이터 변수이다.
    • 상관계수 : 두 변수 사이의 연관성을 수치상으로 객환화하여 두 변수 사이의 방향성과 강도를 표현하는 방법으로 모집단을 대성으로 계산된 상관계수를 모상관계수라 하고, 표본 집단을 대상으로 계산된 상관계수를 표본상관계수라고 한다.
      • 수치적 데이터 상관계수 : 수치적 데이터의 상관 분석에서 피어슨 상관계수 방법을 일반적으로 사용한다. 예를 들어 두변수가 키와 몸무게, 수입과 지출 등과 같은 수치적 데이터일 경우에 두 변수 사이의 연관성을 계량적으로 산출하여 분석하는 방법이다. 종류로는 모집단 피어슨 상관계수와 표본집단 피어슨 상관계수가 있다.
      • 순서적 데이터의 상관계수 : 순서적 데이터 변수의 상관 분석은 스피어만 순위상관계수를 통해서 분석을 수행한다. 예를 들어 한 변수를 단조 증가함수로 변환하여 다른 변수를 나타낼 수 있는 정도를 나타내며, 두 변수 간의 비선형적인 관계도 나타낼 수 있다. 종류로는 모집단 스피어만 상관계수, 표본집단 스피어만 사오간계수가 있다.
      • 명목적 데이터 상관 분석 : 두 변수가 명목적 데이터일 경우에 두 변수 사이의 연관성은 카이제곱 검정을 통하여 분석하고, 데이터에 대한 분류의 의미를 지닌 명목적 데이터 변수 사이의 상관계수를 계산하는 것은 큰 의미가 없다.
  • 표본 추출 : 모집단 일부를 일정한 방법에 따라 표본으로 선택하는 과정
    • 단순 무작위 추출 : 모집단에서 정해진 규칙 없이 표본을 추출하는 방식으로 표본의 크기가 커질수록 정확도가 높아지며, 추정값이 모수에 근접하므로 추정값의 분선이 줄어든다.
    • 계통 추출 : 모집단을 일정한 간격으로 추출하는 방식
    • 층화 추출 : 모집단을 여러 계층으로 나누고, 계층별로 무작위 추출을 수행하는 방식으로, 층내는 동직적이고, 층간은 이질적이다.
    • 군집 추출 : 모집단을 여러 군집으로 나누고, 일부 군집의 전체를 추출하는 방식으로 집단 내부는 이질적이고, 집단 외부는 동직적이다.
  • 확률 분포
    • 확률 : 비슷한 현상이 반복해서 일어날 경우에 어떤 사건이 발생할 가능성을 0과 1 사이의 숫자로 표현하는 방법
    • 조건부 확률 : 어떤 사건이 일어난다는 조건에서 다른 사건이 일어날 확률로 두 개의 사건 A와 B에 대하여 사건 A가 일어난다는 선행조건 아래에 사건 B가 일어날 확률
    • 전 확률의 정리 : 나중에 주어지는 사건 A의 확률을 구할 때 그 사건의 원인을 여러 가지로 나누어서, 각 원인에 대한 조건부 확률와 그 원이 되는 확률의 곱에 의한 가중합으로 구할 수 있다는 법칙
    • 베이즈 정리 : 어떤 사건에 대해 관측 전 원인에 대한 가능성과 관측후의 원인 가능성 사이의 관계를 설명하는 확률이론
    • 확률분포 : 확률변수가 특정한 값을 가질 확률을 나타내는 분포
      • 이산확률분포 :이산확률변수 x가 가지는 확률분포
        • 포아송 분포 : 이상형 확률분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률분포
        • 베르누이 분포 : 특정 실험의 결과가 성공 또는 실패로 두 가지의 결과 중 하나를 얻는 확률분포
        • 이항분포 : n번 시행 중에 각 시행의 확률이 p일 때, k번 성공할 확률분포
      • 연속확률분포 : 확률변수 X가 실수와 같이 연속적인 값을 취할 때는 이를 연속확률변수라 하고 이러한 연속확률변수루 X가 가지는 확률분포
        • 정규분포 : 종 모양의 분포
        • 표준정규분포 : 표본 통계량이 표본평균일 때 이를 표준화 시킨 표본분포 
        • T-분포 : 모집단이 정규분포라는 정도만 알고, 모표준편차는 모를 때 모집단의 평균을 추정하기 위하여 사용
        • 지수분포 : 지정된 시점으로부터 어떤 사건이 일어날 때까지 걸리는 시간을 측정하는 확률 분포
        • 카이제곱 분포 : 표본 통계량이 표본분산일 때의 표본분포
        • F-분포 : 모집단 분산이 서로 동일하다고 가정되는 두 모집단으로부터 표본 크기가 각각 독립적인 2개의 표본을 추출하였을 때 2개의 표본분산의 비율
    • 확률변수 : 특정 확률로 발생하는 결과를 수치적 값으로 표현하는 변수로 확률에 의해 그 값이 결정되는 변수이다.
      • 이산확률변수 : 셀수 있는 확률변수
      • 연속확률변수 : 연속적인 구간 내의 실숫값을 가진 확률변수
      • 기댓값 : 확률변수의 값에 해당하는 확률을 곱하여 모두 더한 값으로, 확률 변수의 평균과 같으며, E(X)로 표시한다. 해당 확률분포에서 평균적으로 기대할 수 있는 값이며, 해당 확률분포의 중심 ㅊ위치를 설명해주는 값이다. 
      • 분산 : 평균으로부터 얼마나 떨어져 있는지를 나타내는 값이다.
    • 체비셰프 정리 : 임의의 양수에 대하여 확률변수가 평균으로부터 k배의 표준 편차 범위 내에 있을 확률에 대한 예측값을 보수적으로 제공하는 정리이며, 관측값들의 분포에 상관 없이 성립하지만, 확률에 대한 하한값만을 제공할 뿐이다.
    • 확률 질량 함수 : 이산확률변수에서 특정 값에 대한 확률을 나타내는 함수
    • 누적 질량 함수 : 이산확률변수가 특정 값보다 작거나 같을 확률을 나타내는 함수
    • 확률 밀도 함수 : 연속확률변수의 분포를 나타내는 함수
    • 누적 밀도 함수 : 연속확률변수가 특정 값보다 작거나 같을 확률을 나타내는 함수
    • 최대우도법 : 어떤 화귤ㄹ변수에서 표집한 값들을 토대로 그 확률변수의 모수를 구하는 방법
  • 표본분포 : 모집단에서 추출한 일정한 개수의 표본에 대한 분포 상태
    • 모집단 : 정보를 얻고자 하는 대상이 되는 집단 전체
    • 모수 : 모집단의 특성을 나타내는 대푯값
    • 표본집단 : 모집단에서 선택된 구성 단위의 일부
    • 통계량 : 표본에서 얻은 평균이나 표준오차와 같은 값으로 이 값을 통해 모수를 추정하며, 무작위로 추출할 경우 각 표본에 따라 달라지는 확률변수
    • 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못하기 때문에 발생하는 오차
    • 비표본오차 : 표본오차를 제외한 모든 오차로서 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하며 조사대상이 증가하면 오차가 커짐
    • 표본편의 : 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차로 확률화에 의해 최소화할 수 있음
    • 큰 수의 법칙 : 데이터를 많이 뽑을수록 표본평균의 분산은 0에 가까워진다는 법칙
    • 중신 극한 정리 : 데이터의 크기가 커지면 그 데이터가 어떠한 형태이든 그 데이터 표본의 분포는 최종적으로 정규분포를 따른다는 법칙

 

반응형

'빅데이터 이론' 카테고리의 다른 글

[빅분기] 분석 절차 수립  (0) 2022.08.30
[빅분기] 추론통계  (0) 2022.08.30
[빅분기] 고급 데이터 탐색  (0) 2022.08.29
[빅분기] 데이터 탐색  (0) 2022.08.29
[빅분기] 변수  (0) 2022.08.29

댓글