본문 바로가기
빅데이터 이론

[빅분기] 분석 기법-1

by BoomBear 2022. 8. 30.
  • 회귀 분석 : 독립변수와 종속변수 간에 선형적인 관계를 도출해서 하나 이상의 독립변수들이 종속변수에 미치는 영향을 분석하고, 독립변수를 통해 종속변수를 예측하는 분석 기법
    • 회귀 모형의 가정
      • 선형성 : 독립변수와 종속변수가 선형적이어야 한다는 특성으로 독립변수의 변화에 따라 종속변수도 일정 크기로 변화한다.
      • 독립성 : 단순선형 회귀 분석에서는 잔차와 독립변수의 값이 서로 독립적이어야 한다는 특성으로, 다중선형 회귀 분석에서는 독립변수 간 상관성이 없이 독립적이어야 하고, 통계량으로는 더빈-왓슨 검정을 통해 확인 가능하다.
      • 등분산성 : 잔차의 분산이 독립변수와 무관하게 일정해야 한다는 특성으로, 잔차가 고르게 분포되어야 한다.
      • 비상관성 : 관측치와 잔차는 서로 상관이 없어야 한다는 특성으로, 잔차끼리 서로 독립이면 비상관성이 있다고 판단한다.
      • 정상성 : 잔차항이 정규분포의 형태를 이뤄야 한다는 특성으로, Q-Q plot에서는 잔차가 대각 방향의 직선의 형태를 띠면 잔차는 정규분포를 따른다고 할 수 있다.
    • 회귀 모형의 유형
      • 단순 선형 회귀 : 독립변수가 1개이며, 종속변수와의 관계가 직선
      • 다중 선형 회귀 : 독립변수가 K개이며 종속변수와의 관계가 선형(1차 함수)
      • 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계(단, 독립변수가 1개일 경우에는 2차 함수 이상)
      • 곡선 회귀 : 독립변수가 1개이며, 종속변수와의 관계가 곡선
      • 로지스틱 회귀 : 종속변수가 범주형(2진 변수)인 경우 적용되며, 단순 로지스틱 회귀 및 다중, 다항 로지스틱 회귀로 확장 가능
      • 비선형 회귀 : 회귀식의 모양이 미지의 모수들의 선형관계로 이뤄져 있지 않은 모형
    • 결정계수 : 결정계수는 전체 데이터를 회귀 모형이 얼마나 잘 설명하고 있는지를 보여주는 지표로 회귀선의 정확도를 평가
    • 다중공선성 : 회귀 분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제
    • 분상팽창 요인(VIF) : 다중 회귀 모델에서 독립변수 간 상관관계가 있는지 측정하는 척도
    • 주성분 회귀 : 독립변수들의 주성분들을 추출한 후 이 주성분들을 이용해서 회귀 모델을 만드는 기법
    • 능형 회귀 : 선형 회귀 분석에서는 최소제곱합을 최소로 하는 회귀계수를 추정한다. 능형 회귀 분석에서는 최소제법합에 패널티 항을 추가하여 추정한다. 이는 축소 방법 중 하나로, 모형에 분산을 줄여주는 효과가 있다.
    • 전진 선택법 : 절편만 있는 상수 모형부터 시작해 중요하다고 생각되는 독립변수를 차례로 모형에 추가하는 방식
    • 후진 소거법 : 독립변수 후보 모두를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 유의하지 않는 변수가 없을 때까지 독립변수들을 제거하고 이때의 모형을 선택하는 방법
    • 단계적 방법 : 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약화되면 해당 변수를 제거하는 단계별 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단하는 방법
    • AIC : 실제 데이터의 분포와 모형이 예측하는 분포 사이의 차이를 나타내는 지표로, 값이 낮을수록 모형의 적합도가 높다.
    • BIC : AIC의 단점은 표본이 커질수록 부정확해지는 점인데, 이를 보완한 지표로 표본의 크기가 커질수록 복잡한 모형을 더 강하게 처벌한다.
  • 로지스틱 회귀 분석 : 독립변수가 수치형이고 반응변수가 범주형인 경우 적용되는 회귀 분석 모형으로, 새로운 설명변수의 값이 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여 추정 확률을 기준치에 따라 분류하는 목적
    • 오즈 : 특정 사건이 발생할 확률과 그 사건이 발생하지 않을 확률의 비
    • 로짓 변환 : 오즈에 로그를 취한 함수로서 입력값의 범위가 0 또는 1일 때 출력값의 범위를 조정한다.
    • 시그모이드 함수 : S자형 곡선을 갖는 수학 함수로, 로짓 함수에 역함수를 취하면 시그모이드 함수가 된다.
  • 의사결정나무 : 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측하는 분석 방법으로 분석의 대상을 분류함수를 활용하여 의사결정 규칙으로 이루어진 나무 모양으로 그리는 기법
    • 구성요소
      • 부모 마디 : 주어진 마디의 상위에 있는 마디
      • 자식 마디 : 하나의 마디로부터 분리되어 나간 2개 이상의 마디들
      • 뿌리 마디 : 시작되는 마디로 전체 자료를 포함
      • 끝마디 : 잎 노드라고도 불리며, 자식마디가 없는 마디
      • 중간 마디 : 부모 마디와 자식 마디가 모두 있는 마디
      • 가지 : 뿌리 마디로부터 끝마디까지 연결된 마디들
      • 깊이 : 뿌리 마디부터 끝마디까지의 중간 마디들의 수
    • 분석 과정
      1. 의사결정 나무 성장 : 목표변수와 관계가 있는 설명변수를 추가하고, 분석의 목적과 자료구조에 따라서 분석의 목적과 자료구조에 따라서 적절한 분리 규칙을 찾아서 나무를 성장시키는 과정으로 적절한 정지 규칙을 만족하면 중단
      2. 가지치기 : 분류 오류를 크게 할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가지 또는 불필요한 가지를 제거하는 단계
      3. 타당성 평가 : 이익 도표, 위험 도표, 평가 데이터를 이용하여 교차 타당성등을 이용한 평가 수행 단계
      4. 해석 및 예측 : 구축된 의사결정나무 모형을 해석하고, 분류 및 예측 모형을 설정하여 데이터의 분류 및 예측에 활용하는 단계
    • 분류나무 분리 기준
      • 카이제곱 통꼐량의 p-값 : p-값이 가장 작은 예측변수와 그 당시의 최적 분리를 통해서 자식 마디 형성
      • 지니 지수 : 불순도를 측정하는 하나의 지수로서 지니 지수를 가장 감소시켜주는 예측변수와 그 당시의 최적 분리를 통해서 자식 마디 선택
      • 엔트로피 지수 : 엔트로피 지수가 가장 작은 예측변수와 그 당시의 최적 분리를 통해서 자식 마디를 형성
    • 회귀나무 분리 기준
      • 분산 분석에서 F-통계량 : p-값이 가장 작은 예측변수와 그 당시의 최적 분리를 통해서 자식 마디 형성
      • 분산의 감소량 : 예측 오차를 최소화하는 것과 같은 기준으로 분산의 감소량을 최대화 하는 기준의 최적 분리를 통해서 자식 마디 형성
    • 알고리즘
      • CART : 각 독립변수를 이분화하는 과정을 반복하여 이진트리 형태를 형성함으로써 분류를 수행하는 알고리즘으로, 가장 성취도가 좋은 변수 및 수준을 찾는 것에 중점을 두었다.
      • C4.5와 C5.0 : 가지치기를 사용할 때 학습자료를 사용하는 알고리즘으로, CART와는 다르게 각 마디에서 다지분리가 가능하며 범주형 독립변수에 대해서는 범주의 수만큼 분리가 일어난다.
      • CHAID : AID를 발전시킨 알고리즘으로, 가지치기하지 않고 나무를 적당한 크기에서 성장을 중지하며 독립변수가 이산형 변수여야한다.
      • QUEST : 변수의 선택에서 범주의 개수가 많은 범주형 변수로의 편향이 심각한 cart의 문제점을 개선한 알고리즘으로 분리 규칙은 분리 변수 선택과 분리점 선택으로 나누어 시행한다.
    • 의사결정나무의 활용
      • 분류 : 여러 예측변수들에 근거해서 관측 개체의 목표변수 범주를 몇 개의 등급으로 분류하고자 하는 경우에 활용
      • 예측 : 자료에서 규칙을 찾아내고 이를 이용해서 미래의 사건을 예측하고자 하는 경우 활용
      • 차원축소 및 변수 선택 : 매우 많은 수의 예측변수 중에서 목표변수에 큰 영향을 미치는 변수들을 구분하고자 하는 경우에 활용
      • 교호작용 효과의 파악 : 여러 개의 예측변수들을 결합해서 목표변수에 작용하는 규칙을 파악하고자 하는 경우 활용. 범주의 병합 또는 연속형 변수의 이산화에 활용
    • 의사결정 나무의 장점
      • 해석의 용이성 : 나무 구조에 의해서 모형이 표현되기 때문에 모형을 사용자가 쉽게 이해 가능
      • 상호작용 효과의 해석 가능 : 두 개 이상의 변수가 결합하여 목표변수에 어떻게 영향을 주는지 쉽게 파악 가능
      • 비모수적 모형 : 선형성이나 정규성 또는 등분산성 등의 가정을 필요로 하지 않는 비모수적인 방법으로 순서형 또는 연속형 변수는 단지 순위만 분석에 영향을 주기 때문에 이상값에 민감하지 않다는 장점이 있음
      • 유연성과 정확도가 높음 : 대용량 데이터에서도 빠르게 만들 수 있음
    • 의사결정 나무의 단점
      • 비연속성 : 연속형 변수를 비연속적인 값으로 취급하기 때문에 분리의 경계점 근방에서는 예측 오류가 클 가능성이 있음
      • 선형성 또는 주 효과의 결여 : 선형모형에서 주 효과는 다른 예측변수와 관련시키지 않고서도 각 변수의 영향력을 해석할 수 있다는 장점을 가지고 있는데 의사 결정나무에서는 선형 또는 주 효과 모형에서와 같은 결과를 얻을 수 없다는  한계점이 있음
      • 비안정성 : 훈련데이터에만 의존하는 의사결정나무는 새로운 자료의 예측에서는 분안정하여 과대 적합이 발생할 가능성이 읶오, 분석용 자료의 크기가 너무 작은 경우와 너무 많은 가지를 가지는 의사결정나무를 얻는 경우에 빈번히 발생한다.
반응형

'빅데이터 이론' 카테고리의 다른 글

[빅분기] 고급 분석 기법  (0) 2022.08.31
[빅분기] 분석 기법-2  (0) 2022.08.30
[빅분기] 분석 절차 수립  (0) 2022.08.30
[빅분기] 추론통계  (0) 2022.08.30
[빅분기] 통계기법 이해  (0) 2022.08.30

댓글