본문 바로가기
빅데이터 이론

[빅분기] 데이터 탐색

by BoomBear 2022. 8. 29.
  • 수집한 데이터를 분석하기 전에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법으로 데이터가 가지고 잇는 특성을 파악하기 위해 해당 변수의 분포등을 시각화하여 분석하는 분석 방식이다.
  • 탐색적 데이터 분석
    • 저항성 : 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미하고, 저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음
    • 전차 해석 : 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색하고 주 경향에서 벗어난 값이 왜 존재하는지에 대해 탐색하는 작업
    • 지료 재표현 : 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것으로 자료의 재표현을 통하여 분포의 대칭성, 분포의 선형성, 분산의 안정성 등 데이터 구조파악과 해석에 도움을 얻는 경우가 많다.
    • 현시성 : 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 의미하며, 자료 안에 숨어있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 파악이 가능하다.
  • 개별 변수 탐색 방법
    • 범주형 데이터 : 명목 척도와 순위 척도에 대한 데이터 탐색으로 빈도수, 최빈수, 비율, 백분율 등을 이용하여 데이터의 분포 특성을 중심성, 변동성 측면에서 파악한다.
      • 명목형 : 명사형으로 변수나 변수의 크기가 순서와 상관없고, 의미가 없이 이름만 의미를 부여할 수 있는 경우
      • 순서형 : 변수가 어떤 기준에 따라 순서에 의미를 부여할 수 있는 경우
    • 수치형 데이터 : 등간 척도와 비율 척도에 대한 데이터 탐색으로 평균, 분산, 표준편차, 첨도, 왜도 등을 이용하여 데이터의 분포 특성을 중심성, 변동성, 정규성 측면에서 파악한다.
      • 이산형 : 변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우
      • 연속형 : 변수가 구간 안의 모든 값을 가질 수 있는 경우
  • 다차원 데이터 탐색방법
    • 범주형-범주형 : 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성을 분석한다.
    • 수치형-수치형 : 수치형 데이터 간에는 산점도와 기울기를 통하여 변수 간의 상관성을 분석하고, 수치형 변수 간의 상관성과 추세성 여부는 산점도를 이용하여 시각화하며, 공분산을 통하여 방향성을 파악한다. 피어슨 상관계소수를 통하여 방향과 강도도 파악가능하다.
    • 범주형- 수치형 : 범주형 데이터의 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술 통계량 차이를 상호 비교하고, 그룹 간 비교를 위하여 주로 박스 플롯을 이용하여 시각화 한다.
  • 상관관계 분석 : 두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법
    • 변수 사이의 상관관계의 종류
      • 양의 상관관계 : 한 변수의 값이 증가할 때 다른 변수의 값도 증가하는 경향을 보이는 상관관계로 강도에 따라 강한 양의 상관관계, 약한 양의 상관관계가 있다.
      • 음의 상관관계 : 한 변수의 값이 증가할 때 다른 변수의 값은 반대로 감소하는 경향을 보이는 상관관계로 강도에 따라 강한 음의 상관관계, 약한 음의 상관관계가 있다.
      • 상관관계 없음 : 한 변수의 값의 변화에 무관하게 다른 변수의 값이 변하는 상관관계
  • 기초통계량 추출 및 이해 : 통계적인 방법을 통하여 데이터를 여러 각도에서 관찰하므로 기초통계량에 대한 이해가 중요하다.
    • 중심 경향성의 통계량
      • 평균값 : 자료를 모두 더한 후 자료 개수로 나눈 값
      • 중위수 : 모든 데이터값을 순서대로 배열하였을 때 중앙에 위치한 데이터 값
      • 최빈수 : 데이터값 중에서 빈도수가 가장 높은 데이터값
      • 사분위수 : 모든 데이터값을 순서대로 배열하였을 때 4등분한 지점에 있는 값
    • 산포도 통계량
      • 분산 : 평균으로부터 얼마나 떨어져 있는지를 나타내는 값
      • 표준편차 : 분산에 양의 제곱근을 취한 값
      • 범위 : 데이터값 중에서 최댓값과 최솟값의 차
      • IQR : 3사분위수와 1사분위수의 차이 값
      • 사분편차 : 3사분위수와 1사분위수 차이인 IQR의 절반 값
      • 변동계수 : 표준편차를 평균으로 나눈 값
    • 분포 통계량
      • 첨도 : 데이터 분포의 뾰족한 정도를 설명하는 통계량
      • 왜도 : 데이터 분포의 기울어진 정도를 설명하는 통계량
  • 시각적 데이터 탐색
    • 히스토그램 : 자료 분포의 형태를 직사각형 형태로 시각화하여 보여주는 그래프이다.
    • 막대형 그래프 : 여러 가지 항목들에 대한 많고 적음을 비교하기 쉽도록 수량을 막대의 길이로 표현하는 그래프이다.
    • 박스 플롯 : 많은 데이터를 그림을 이용하여 집합의 범위와 중위수를 빠르게 확인할 수 있으며, 또한 통계적으로 이상값이 있는지 빠르게 확인이 가능한 시각화 기법으로, 박스플롯은 상자 수염 그림, 상자 그림 등 다양한 이름으로 불린다.
      • 구성요소
        • 하위 경계 : 제1 사분위에서 1.5IQR을 뺀 위치
        • 최솟값 : 하위 경계 내의 관측치의 최솟값
        • 제1 사분위 : 자료들의 하위 25%의 위치를 의미
        • 제2 사분위 : 자료들의 50%의 위치로 중위수을 의미하며, 두꺼운 막대로 가시성을 높여서 표현
        • 제3 사분위 : 자료들의 하위 75%의 위치를 의미
        • 최댓값 : 상위 경계 내의 관측치의 최댓값
        • 상위 경계 : 제3 사분위에서 IQR의 1.5배 위치
        • 수염 : 제1 사분위,제3 사분위로부터 IQR의 1.5배 내에 있는 가장 멀리 떨어진 데이터까지 이어진 선
        • 이상값 : 수염보다 바깥쪽에 데이터가 존재한다면, 이것은 이상값으로 분류
    • 산점도 : 가로축과 세로축의 좌표평면상에서 각각의 관찰점들을 표시하는 시각화방법으로 2개의 연속형 변수 간의 관계를 보기 위하여 사용된다.
반응형

'빅데이터 이론' 카테고리의 다른 글

[빅분기] 통계기법 이해  (0) 2022.08.30
[빅분기] 고급 데이터 탐색  (0) 2022.08.29
[빅분기] 변수  (0) 2022.08.29
[빅분기] 데이터 정제  (0) 2022.08.28
[빅분기] 데이터 적재, 저장  (0) 2022.08.28

댓글