본문 바로가기
빅데이터 이론

[빅분기] 데이터 정제

by BoomBear 2022. 8. 28.
  • 데이터 정제 : 결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업
    • 절차
      1. 데이터 오류 원인 분석 : 원청 데이터의 오류로 인해서 발생하거나 빅데이터 플로우의 문제로부터 발생
        • 결측값 : 필수적인 데이터가 입력되지 않고 누락된 값으로 중심 경향값 넣기와 분포기간으로 처리해서 해결할 수 있다.
        • 노이즈 : 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값으로 일정 간격으로 이동하면서 주변보다 높거나 낮으면 평균값으로 대체 하거나, 일정 범위 중간값으로 대체하여 해결 할 수 있다.
        • 이상값 : 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값으로, 하한보다 낮으면 하한값 대체또는 상한보다 높으면 상한값 대체를 통해 해결할 수 있다.
      2. 데이터 정제 대상 선정 : 모든 데이터를 대상으로 정제 활동
      3. 데이터 정제 방법 결정 : 오류 데이터값을 정확한 데이터로 수정하거나 삭제하는 과정
        • 삭제 : 오류 데이터에 대해 전체 또는 부분 삭제 또는 무작위적인 사제는 데이터 활용의 문제를 일으킬 수 있다.
        • 대체 : 오류 데이터를 평균값, 최빈수, 중위수로 대체 또는 수집된 다른 데이터와 관계가 있는 경우 유용할 수 있으나 그렇지 않은 경우 데이터 활용 시 왜곡이 발생한다.
        • 예측값 삽입 : 회귀식 등을 이용한 예측값을 생성하여 삽입 또는 정상 데이터 구간에 대해서도 회귀식이 잘 성립되어 있어야 한다.
      4. 데이터 일관성 유지를 위한 정제 기법
        • 변환 : 다양한 형태로 표현된 값을 일관된 형태로 변환하는 작업
        • 파싱 : 데이터를 정제 규칙을 적용하기 위한 유의미한 최소 단위로 분할하는 작업
        • 보강 : 변환, 파싱, 수정, 표준화 등을 통한 추가 정보를 반영하는 작업
  • 데이터 세분화 : 데이터를 기준에 따라 나누고, 선택한 매개변수를 기반으로 유사한 데이터를 그룹화하여 효율적으로 사용할 수 있는 프로세스
    • 방법
      • 계층적 방법 : 사전에 군집 수를 정하지 않고 단계적으로 단계별 군집결과를 산출하는 방법
        • 응집분석법 : 각 객체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성해가는 기법
        • 분할분석법 : 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리해가는 기법
      • 비 계층적 방법 : 군집을 위한 소집단의 개수를 정해놓고 각 객체 중 하나의 소집단으로 배정하는 방법
        • 인공신경망 모델 : 기계 학습에서 생물학의 신경망으로부터 영감을 얻은 통계학적 학습모델
        • K-평균 군집 : K개 소집단의 중심좌표를 이용하여 각 객체와 중심좌표 간의 거리를 산출하고, 가장 근접한 소집단에 배정한 후 해당 소집단의 중심 좌표를 업데이트하는 방식으로 군집화하는 방식
  • 데이터 결측값 처리 : 입력이 누락된 값으로 NA, 999999, Null 등으로 표현
    • 종류
      • 완전 무작위 결측 : 변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우
      • 무작위 결측 : 누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 경우 또는 누락이 전체 정보가 있는 변수로 설명이 될 수 있음을 의미
      • 비 무작위 결측 : 누락된 값이 다른 변수와 연관 있는 경우
    • 처리절차
      1. 결측값 식별 : 원본 데이터에서 다양한 형태로 결측 정보가 표현되어 있으므로 현황 파악을 해야 함
      2. 결측값 부호화 : 파악된 정보(NA, NaN, inf, NULL)를 바탕으로 컴퓨터가 처리 가능한 형태로 부호화
      3. 결측값 대체 : 결측값을 자료형에 맞춰 대체 알고리즘을 통해 결측값을 처리
    • 처리방법
      • 단순 대치법 : 결측값을 그럴듯한 값으로 대체하는 통계적 기법으로, 결측값을 가진 자료 분석에 사용하기가 쉽고, 통계적 추론에 사용된 통계량의 효율성 및 일치성 등의 문제를 부분적으로 보완해준다.
        • 종류
          • 완전 분석법 : 불완전 자료는 모두 무시하고 완전하게 관측된 자료만 사용하여 분석하는 방법으로 분석은 쉽지만 부분적으로 관측된 자료가 무시되어 효율성이 상실되고 통계적 추론의 타당성 문제가 발생한다.
          • 평균 대치법 : 관측 또는 실험되어 얻어진 자료의 평균값으로 결측값을 대치해서 불완전한 자료를 완전한 자료로 만드는 방법으로 비 조건부 평균 대치법과 조건부 평균 대치법이 있다.
          • 단순 확률 대치법 : 평균 대치법에서 관측된 자료를 토대로 추정된 통계량으로 결측값을 대치할 때 어떤 적절한 확률값을 부여한 후 대치하는 방법
            • 핫덱 대체 : 무응답을 현재 진행 중인 연구에서 비슷한 성향을 가진 응답자의 자료로 대체하는 방법으로 표본조사에서 흔히 사용된다.
            • 콜드덱 대체 : 핫덱과 비슷하나 대체할 자료를 현재 진행 중인 연구에서 얻는 것이 아니라 외부 출처 또는 이전의 비슷한 연구에서 가져오는 방법
            • 혼합 방법 : 몇 가지 다른 방법을 혼합하는 방법
      • 다중 대치법 : 단순 대치법을 한번 하지 않고 m번 대치를 통해 m개의 가상적 완전한 자료를 만들어서 분석하는 방법으로 대치->분석->결합으로 3단계로 구성된다.
        • 적용 방식
          • 대치 : 각 대치표본은 결측 자료의 예측 분포 또는 사후분포에서 추출된 값으로 결측값을 대치하는 방법 활용
          • 분석 : 같은 예측 분포로부터 대치 값을 구하여 D개의 대치표본을 구하게 되면 이 D개의 대치표본으로부터 원하는 분석을 각각 수행함
          • 결합 : 모수의 점 추정과 표준오차의 추정치를 D개 구한 후 이들을 결합하여 하나의 결과를 제시
  • 데이터 이상치 처리 : 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값으로 입력 오류, 데이터 처리 오류 등의 이유로 특정 범위에서 벗어난 데이터값을 의미한다.
    • 원인
      • 표본 추출 오류 : 데이터를 샘플링하는 과정에서 나타나는 오류로 샘플링을 잘못한 경우
      • 고의적인 이상값 : 자기 보고식 측정에서 나타나는 오류로 정확하게 기입한 값이 이상값으로 보일 수도 있음
      • 데이터 입력 오류 : 데이터를 수집하는 과정에서 발생할 수 있는 오류로 전체 데이터의 분포를 보면 쉽게 발견 가능
      • 실험 오류 : 실험조건이 동일하지 않은 경우 발생하는 오류
      • 측정 오류 : 데이터를 측정하는 과정에서 발생하는 오류
      • 데이터 처리 오류 : 여러 개의 데이터에서 필요한 데이터를 추철하거나, 조합해서 사용하는 경우에 발생하는 오류
      • 자연 오류 : 인위적이 아닌, 자연스럽게 발생하는 오류
    • 통계 기법을 이용한 데이터 이상값 검출 방법
      • ESD : 평균으로부터 3 표준편차 떨어진 값을 이상값으로 판단
      • 기하평균 활용한 방법 : 기하평균으로부터 2.5 표준편차 떨어진 값을 이상값으로 판단
      • 사분위수를 이용한 방법 : 제1 사분위, 제3 사분위를 기준으로 사분위 간 범위의 1.5배 이상 떨어진 값을 이상값으로 판단
      • Z-점수 : 정규분포를 따르는 관측치들이 자료의 중심에서 얼마나 떨어져 있는지를 나타냄에 따라서 이상값을 검출
      • 딕슨의 Q-검정 : 오름차순으로 정렬된 데이터에서 범위에 대한 관측치 간의 차이의 비율을 활용하여 이상값 여부를 검정하는 방법으로 데이터 수가 30개 미만인 경우에 적절한 방법
      • 그럽스 T-검정 : 정규분포를 만족하는 단변량 자료에서 이상값을 검정하는 방법
      • 카이제곱 검정 : 카이제곱 검정은 데이터가 정규분포를 만족하나, 자료의 수가 적은 경우에 이상값을 검정하는 방법
      • 마할라노비스 거리 : 데이터의 분포를 고려한 거리 측도로, 관측치가 평균으로부터 벗어난 정도를 측정하는 통계량 기법으로 데이터의 분포를 측정할 수 있는 마할라노비스 거리를 이용하여 평균으로부터 벗어난 이상값을 검출할 수 있다.
    • 시각화를 이용한 데이터 이상값 검출 방법
      • 확률 밀도 함수 : 확률변수의 분포를 보여주는 함수
      • 히스토그램 : 주로 x축에 계측값을 y축에 각 계급에 해당하는 자료의 수치를 표시
      • 시계열 차트 : 시간에 따른 자료의 변화나 추세를 보여주는 그래프
    • 데이터 군집/분류를 이용한 데이터 이상값 검출
      • K-평균 군집 : 주어진 데이터를 K개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리차이의 분산을 최소화하는 방식으로 동작한다. 
      • LOF : 관측치 주변의 밀도와 근접한 관측치 주변의 밀도의 상대적인 비교를 통해 이상값을 탐색하는 기법으로 LOF 값이 클수록 이상값 정도가 크다
      • iForest : 관측치 사이의 거리 또는 밀도에 의존하지 않고, 데이터 마이닝 기법인 의사결정나무를 이용하여 이상값을 탐지하는 방법으로 분류 모형을 생성하여 모든 관측치를 고립시켜나가면서 분할 횟수로 이상값을 탐색한다.
    • 데이터 이상값 처리방법
      • 삭제 : 이상값으로 판단되는 관측값을 제외하고 분석하는 방법으로, 추정치의 분산은 작어지지만 실제로 과소(또는 과대) 추정되어 평의가 발생할 수 있다. 이상값을 제외시키기위해 양극단의 값을 절단 하기도 한다.
      • 대체법 : 하한값과 상한값을 결정한 후 하한값보다 작으면 하한값으로 대체하고 상한값보다 크면 상한값으로 대체한다. 이상값을 편균이나 중위수 등으로 대체하는 방법
      • 변환 : 극단적인 값으로 인해 이상값이 발생했다면 자연로그를 취해서 값을 감소시키는 방법으로 실젯값을 변형하는 것으로 상한값과 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용하는 극단값 조정 방법도 활용된다.
반응형

'빅데이터 이론' 카테고리의 다른 글

[빅분기] 데이터 탐색  (0) 2022.08.29
[빅분기] 변수  (0) 2022.08.29
[빅분기] 데이터 적재, 저장  (0) 2022.08.28
[빅분기] 데이터 유형 및 비식별화  (0) 2022.08.28
[빅분기] 빅데이터 수집  (0) 2022.08.28

댓글