- 회귀 분석 : 독립변수와 종속변수 간에 선형적인 관계를 도출해서 하나 이상의 독립변수들이 종속변수에 미치는 영향을 분석하고, 독립변수를 통해 종속변수를 예측하는 분석 기법
- 회귀 모형의 가정
- 선형성 : 독립변수와 종속변수가 선형적이어야 한다는 특성으로 독립변수의 변화에 따라 종속변수도 일정 크기로 변화한다.
- 독립성 : 단순선형 회귀 분석에서는 잔차와 독립변수의 값이 서로 독립적이어야 한다는 특성으로, 다중선형 회귀 분석에서는 독립변수 간 상관성이 없이 독립적이어야 하고, 통계량으로는 더빈-왓슨 검정을 통해 확인 가능하다.
- 등분산성 : 잔차의 분산이 독립변수와 무관하게 일정해야 한다는 특성으로, 잔차가 고르게 분포되어야 한다.
- 비상관성 : 관측치와 잔차는 서로 상관이 없어야 한다는 특성으로, 잔차끼리 서로 독립이면 비상관성이 있다고 판단한다.
- 정상성 : 잔차항이 정규분포의 형태를 이뤄야 한다는 특성으로, Q-Q plot에서는 잔차가 대각 방향의 직선의 형태를 띠면 잔차는 정규분포를 따른다고 할 수 있다.
- 회귀 모형의 유형
- 단순 선형 회귀 : 독립변수가 1개이며, 종속변수와의 관계가 직선
- 다중 선형 회귀 : 독립변수가 K개이며 종속변수와의 관계가 선형(1차 함수)
- 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계(단, 독립변수가 1개일 경우에는 2차 함수 이상)
- 곡선 회귀 : 독립변수가 1개이며, 종속변수와의 관계가 곡선
- 로지스틱 회귀 : 종속변수가 범주형(2진 변수)인 경우 적용되며, 단순 로지스틱 회귀 및 다중, 다항 로지스틱 회귀로 확장 가능
- 비선형 회귀 : 회귀식의 모양이 미지의 모수들의 선형관계로 이뤄져 있지 않은 모형
- 결정계수 : 결정계수는 전체 데이터를 회귀 모형이 얼마나 잘 설명하고 있는지를 보여주는 지표로 회귀선의 정확도를 평가
- 다중공선성 : 회귀 분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제
- 분상팽창 요인(VIF) : 다중 회귀 모델에서 독립변수 간 상관관계가 있는지 측정하는 척도
- 주성분 회귀 : 독립변수들의 주성분들을 추출한 후 이 주성분들을 이용해서 회귀 모델을 만드는 기법
- 능형 회귀 : 선형 회귀 분석에서는 최소제곱합을 최소로 하는 회귀계수를 추정한다. 능형 회귀 분석에서는 최소제법합에 패널티 항을 추가하여 추정한다. 이는 축소 방법 중 하나로, 모형에 분산을 줄여주는 효과가 있다.
- 전진 선택법 : 절편만 있는 상수 모형부터 시작해 중요하다고 생각되는 독립변수를 차례로 모형에 추가하는 방식
- 후진 소거법 : 독립변수 후보 모두를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 유의하지 않는 변수가 없을 때까지 독립변수들을 제거하고 이때의 모형을 선택하는 방법
- 단계적 방법 : 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약화되면 해당 변수를 제거하는 단계별 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단하는 방법
- AIC : 실제 데이터의 분포와 모형이 예측하는 분포 사이의 차이를 나타내는 지표로, 값이 낮을수록 모형의 적합도가 높다.
- BIC : AIC의 단점은 표본이 커질수록 부정확해지는 점인데, 이를 보완한 지표로 표본의 크기가 커질수록 복잡한 모형을 더 강하게 처벌한다.
- 회귀 모형의 가정
- 로지스틱 회귀 분석 : 독립변수가 수치형이고 반응변수가 범주형인 경우 적용되는 회귀 분석 모형으로, 새로운 설명변수의 값이 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여 추정 확률을 기준치에 따라 분류하는 목적
- 오즈 : 특정 사건이 발생할 확률과 그 사건이 발생하지 않을 확률의 비
- 로짓 변환 : 오즈에 로그를 취한 함수로서 입력값의 범위가 0 또는 1일 때 출력값의 범위를 조정한다.
- 시그모이드 함수 : S자형 곡선을 갖는 수학 함수로, 로짓 함수에 역함수를 취하면 시그모이드 함수가 된다.
- 의사결정나무 : 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측하는 분석 방법으로 분석의 대상을 분류함수를 활용하여 의사결정 규칙으로 이루어진 나무 모양으로 그리는 기법
- 구성요소
- 부모 마디 : 주어진 마디의 상위에 있는 마디
- 자식 마디 : 하나의 마디로부터 분리되어 나간 2개 이상의 마디들
- 뿌리 마디 : 시작되는 마디로 전체 자료를 포함
- 끝마디 : 잎 노드라고도 불리며, 자식마디가 없는 마디
- 중간 마디 : 부모 마디와 자식 마디가 모두 있는 마디
- 가지 : 뿌리 마디로부터 끝마디까지 연결된 마디들
- 깊이 : 뿌리 마디부터 끝마디까지의 중간 마디들의 수
- 분석 과정
- 의사결정 나무 성장 : 목표변수와 관계가 있는 설명변수를 추가하고, 분석의 목적과 자료구조에 따라서 분석의 목적과 자료구조에 따라서 적절한 분리 규칙을 찾아서 나무를 성장시키는 과정으로 적절한 정지 규칙을 만족하면 중단
- 가지치기 : 분류 오류를 크게 할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가지 또는 불필요한 가지를 제거하는 단계
- 타당성 평가 : 이익 도표, 위험 도표, 평가 데이터를 이용하여 교차 타당성등을 이용한 평가 수행 단계
- 해석 및 예측 : 구축된 의사결정나무 모형을 해석하고, 분류 및 예측 모형을 설정하여 데이터의 분류 및 예측에 활용하는 단계
- 분류나무 분리 기준
- 카이제곱 통꼐량의 p-값 : p-값이 가장 작은 예측변수와 그 당시의 최적 분리를 통해서 자식 마디 형성
- 지니 지수 : 불순도를 측정하는 하나의 지수로서 지니 지수를 가장 감소시켜주는 예측변수와 그 당시의 최적 분리를 통해서 자식 마디 선택
- 엔트로피 지수 : 엔트로피 지수가 가장 작은 예측변수와 그 당시의 최적 분리를 통해서 자식 마디를 형성
- 회귀나무 분리 기준
- 분산 분석에서 F-통계량 : p-값이 가장 작은 예측변수와 그 당시의 최적 분리를 통해서 자식 마디 형성
- 분산의 감소량 : 예측 오차를 최소화하는 것과 같은 기준으로 분산의 감소량을 최대화 하는 기준의 최적 분리를 통해서 자식 마디 형성
- 알고리즘
- CART : 각 독립변수를 이분화하는 과정을 반복하여 이진트리 형태를 형성함으로써 분류를 수행하는 알고리즘으로, 가장 성취도가 좋은 변수 및 수준을 찾는 것에 중점을 두었다.
- C4.5와 C5.0 : 가지치기를 사용할 때 학습자료를 사용하는 알고리즘으로, CART와는 다르게 각 마디에서 다지분리가 가능하며 범주형 독립변수에 대해서는 범주의 수만큼 분리가 일어난다.
- CHAID : AID를 발전시킨 알고리즘으로, 가지치기하지 않고 나무를 적당한 크기에서 성장을 중지하며 독립변수가 이산형 변수여야한다.
- QUEST : 변수의 선택에서 범주의 개수가 많은 범주형 변수로의 편향이 심각한 cart의 문제점을 개선한 알고리즘으로 분리 규칙은 분리 변수 선택과 분리점 선택으로 나누어 시행한다.
- 의사결정나무의 활용
- 분류 : 여러 예측변수들에 근거해서 관측 개체의 목표변수 범주를 몇 개의 등급으로 분류하고자 하는 경우에 활용
- 예측 : 자료에서 규칙을 찾아내고 이를 이용해서 미래의 사건을 예측하고자 하는 경우 활용
- 차원축소 및 변수 선택 : 매우 많은 수의 예측변수 중에서 목표변수에 큰 영향을 미치는 변수들을 구분하고자 하는 경우에 활용
- 교호작용 효과의 파악 : 여러 개의 예측변수들을 결합해서 목표변수에 작용하는 규칙을 파악하고자 하는 경우 활용. 범주의 병합 또는 연속형 변수의 이산화에 활용
- 의사결정 나무의 장점
- 해석의 용이성 : 나무 구조에 의해서 모형이 표현되기 때문에 모형을 사용자가 쉽게 이해 가능
- 상호작용 효과의 해석 가능 : 두 개 이상의 변수가 결합하여 목표변수에 어떻게 영향을 주는지 쉽게 파악 가능
- 비모수적 모형 : 선형성이나 정규성 또는 등분산성 등의 가정을 필요로 하지 않는 비모수적인 방법으로 순서형 또는 연속형 변수는 단지 순위만 분석에 영향을 주기 때문에 이상값에 민감하지 않다는 장점이 있음
- 유연성과 정확도가 높음 : 대용량 데이터에서도 빠르게 만들 수 있음
- 의사결정 나무의 단점
- 비연속성 : 연속형 변수를 비연속적인 값으로 취급하기 때문에 분리의 경계점 근방에서는 예측 오류가 클 가능성이 있음
- 선형성 또는 주 효과의 결여 : 선형모형에서 주 효과는 다른 예측변수와 관련시키지 않고서도 각 변수의 영향력을 해석할 수 있다는 장점을 가지고 있는데 의사 결정나무에서는 선형 또는 주 효과 모형에서와 같은 결과를 얻을 수 없다는 한계점이 있음
- 비안정성 : 훈련데이터에만 의존하는 의사결정나무는 새로운 자료의 예측에서는 분안정하여 과대 적합이 발생할 가능성이 읶오, 분석용 자료의 크기가 너무 작은 경우와 너무 많은 가지를 가지는 의사결정나무를 얻는 경우에 빈번히 발생한다.
- 구성요소
반응형
'빅데이터 이론' 카테고리의 다른 글
[빅분기] 고급 분석 기법 (0) | 2022.08.31 |
---|---|
[빅분기] 분석 기법-2 (0) | 2022.08.30 |
[빅분기] 분석 절차 수립 (0) | 2022.08.30 |
[빅분기] 추론통계 (0) | 2022.08.30 |
[빅분기] 통계기법 이해 (0) | 2022.08.30 |
댓글