- 빅데이터 분석 모형은 분류 모형과 회귀 모형에 따라 다른 평가지표를 이용하여 평가한다.
- 분석 모형
- 편향 : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차
- 분산 : 훈련 데이터에 내재된 작은 변동으로 발생하는 오차
- 평가 기준
- 일반화의 가능성 : 데이터를 확장하여 적용할 수 있는지에 대한 평가 기준으로 모집단 내의 다른 데이터에 적용해도 안정적인 결과를 제공하는지를 평가
- 효율성 : 적은 입력 변수가 필요할수록 효율성이 높은 것으로 평가
- 예측과 분류의 정확성 : 정확성 측면에서 평가
- 평가 방법
- 범주형 : 혼동 행렬
- 연속형 : RMSE(평균 제곱근 오차)
- 회귀 모형
- 평가 지표
- SSE : 오차 제곱합. 예측값과 실젯값의 차이 제곱의 합
- SST : 전체 제곱합. 실젯값과 평균값의 차이의 제곱 합
- SSR : 회귀 제곱합. 예측값과 평균값의 차이 제곱의 합
- AE : 평균 오차. 예측한 결괏값의 오류 평균
- MAE : 평균 절대 오차. 평균 오차 절댓값의 평균
- MSE : 평균 제곱 오차. SSE의 평균
- RMSE : 평균 제곱근 오차. SSE 평균의 제곱근
- MPE : 평균백분율 오차. 예측값들이 평균적으로 미달하는지 초과하는지에 대한 백분율
- MAPE : 평균 절대 백분율 오차. 예측이 실젯값에서 평균적으로 벗어나는 정도를 백분율로 표현
- 결정계수 : Coefficient of Determination(상관계수 R의 제곱). 회귀 모형이 실젯값을 얼마나 잘 나타내는지에 대한 비율
- 수정된 결정계수 : Adjusted Coeffcient of Detemination. 적절하지 않은 독립변수를 추가하는 것에 페널티를 부과한 결정계수
- Mallow's : 수정된 결정계수와 마찬가지로 적절하지 않은 독립변수 추가에 대한 페널티를 부과한 통계량
- 평가 지표
- 분류 모형
- 혼동 행렬 : 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차 표 형태로 정리한 행렬
- 정확도 : 실제 분류 범주를 정확하게 예측한 비율
- 오차 비율 : 실제 분류 범주를 잘못 분류한 비율
- 참 긍정률 : 실제로 긍정인 범주 중에서 긍정으로 올바르게 예측한 비율
- 특이도 : 실제로 부정인 범주 중에서 부정으로 올바르게 예측한 비율
- 거짓 긍정률 : 실제로 부정인 범주 중에서 긍정으로 잘못 예측한 비율
- 정밀도 : 긍정으로 예측한 비율 중에서 실제로 긍정인 비율
- F-Measure : 정밀도와 민감도를 하나로 합한 성능평가지표
- 카파 통계량 : 두 관찰자가 측정한 범주 값에 대한 일치도를 측정하는 방법
- ROC 곡선 : 가로축을 혼동 행렬의 거짓 긍정률로 두고 세로축을 참 긍정률로 두어 시각화한 그래프로 그래프가 왼쪽 꼭대기에 가깝게 그려질수록 분류 성능이 우수하다.
- 이익 도표 : 분류 모형의 성능을 평가하기 위해서 사용하는 그래프 분석 방법으로 이익은 목표 범주에 속하는 개체들이 임의로 나눈 등급별로 얼마나 분포하고 있는지를 나타내는 값
- 혼동 행렬 : 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차 표 형태로 정리한 행렬
- 교차 검증 : 모델의 일반화 오차에 대해 신뢰할 만한 추정치를 구하기 위해 훈련, 평가 데이터를 기반으로 하는 검증 기법으로, 종류로는 홀드 아웃 교차 검증, K-Fold Cross Valdation, LOOCV, LpOCV 등이 있다.
- 홀드 아웃 교차 검증 : 전체 데이터를 비복원 추출 방법을 이용하여 랜덤하게 훈련 데이터, 평가 데이터로 나눠 검증하는 기법으로, 훈련데이터로 분석 모형을 구축하고, 평가 데이터를 이용하여 분석 모형을 평가하는 기법이다.
- K-Fold Cross Validation : 데이터 집합을 무작위로 동일 크기를 갖는 K개의 부분 집합으로 나누고, 그중 1개의 집합을 평가 데이터로, 나머지 K-1개 집합을 훈련 데이터로 선정하여 분석 모형을 평가하는 기법으로, 모든 데이터를 훈련과 평가에 사용할 수 있으나, K값이 증가하면 수행 시간과 계산량도 많아진다.
- LOOCV : 전체 데이터 N에서 1개의 샘플만을 평가 데이터에 사용하고 나머지 N-1개는 훈련 데이터로 사용하는 과정을 N번 반복하는 교차 검증 기법
- LpOCV : LOOCV에서 1개의 샘플이 아닌 p개의 샘플을 테스트에 사용하는 교차 검증 기법으로, 계산 시간에 부담이 매우 크다.
- 부트스트랩 : 주어진 자료에서 단순 랜덤 복원 추출 방법을 활용하여 동일한 크기의 표본을 여러 개 생성하는 샘플링 방법
- 모수 유의성 검정 : 검정 대상인 모집단의 평균 및 분산에 따라 가설의 유의성을 검정한다.
- Z-검정 : 귀무가설에서 검정 통계량의 분포를 정규분포로 근사할 수 있는 통계 검정이다.
- T-검정 : 검정하는 통계량이 귀무가설 하에서 T-분포를 따르는 통계 가설검정으로, 두 집단 간의 평균을 비교하는 모수적 통계 방법으로서 표본의 정규성, 등분산성, 독립성 등을 만족할 경우 적용한다.
- 분산 분석 : 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 F-분포를 이용하여 가설검정을 수행하는 방법
- 일원배치 분산 분석 : 독립변수와 종속변수가 1개이고 모집단의 분산, 표준평차를 알지 못할때 평균을 비교하기 위해 사용하는 기법
- 이원배치 분산 분석 : 종속변수가 1개, 독립변수가 2개일 때 각 독립변수의 범주에 대응하는 종속변수 간에 평균의 차이를 검정하는 방법
- 다원배치 분산 분석 : 독립변수가 3개 이상이고 종속변수가 1개일 때 분석하는 기법
- 다변량 분산 분석 : 독립변수가 1개 이상이고 종속변수가 2개 이상일 때 두 집단간 평균 차이를 검증하기 위해 사용하는 분석 기법
- 카이제곱 검정 : 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지를 검정하기 위해 사용되며 카이제곱 분포에 기초한 통계적 검정 방법이다.
- F-검정 : 두 표본으 ㅣ분산에 대한 차이가 통계적으로 유의한가를 판별하는 검정기법
- 적합도 검정 : 표본 집단의 분포가 주어진 특정 이론을 따르고 있는지를 검정하는 기법
- 가정된 확률 검정 : 가정된 확률이 정해져 있을 경우에 사용하는 검정 방법
- 정규성 검정 : 가정된 확률이 정해져 있지 않을 경우에 사용하는 기법
- 샤피로-윌크 검정 : 데이터가 정규분포를 따르는지 확인하기 위한 검정 방법
- 콜모고로프-스미르노프 적합성 검정 : 데이터가 어떤 특정한 분포를 따르는가를 비교하는 검정 기법
- Q-Q Plot : 그래프를 이용하여 정규성 가정을 시각적으로 검정하는 방법
반응형
'빅데이터 이론' 카테고리의 다른 글
[빅분기] 데이터 시각화 (0) | 2022.09.01 |
---|---|
[빅분기] 분석 모형 개선 방안 (0) | 2022.08.31 |
[빅분기] 고급 분석 기법 (0) | 2022.08.31 |
[빅분기] 분석 기법-2 (0) | 2022.08.30 |
[빅분기] 분석 기법-1 (0) | 2022.08.30 |
댓글