전체 글23 [빅분기] 평가 지표 및 검증 빅데이터 분석 모형은 분류 모형과 회귀 모형에 따라 다른 평가지표를 이용하여 평가한다. 분석 모형 편향 : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차 분산 : 훈련 데이터에 내재된 작은 변동으로 발생하는 오차 평가 기준 일반화의 가능성 : 데이터를 확장하여 적용할 수 있는지에 대한 평가 기준으로 모집단 내의 다른 데이터에 적용해도 안정적인 결과를 제공하는지를 평가 효율성 : 적은 입력 변수가 필요할수록 효율성이 높은 것으로 평가 예측과 분류의 정확성 : 정확성 측면에서 평가 평가 방법 범주형 : 혼동 행렬 연속형 : RMSE(평균 제곱근 오차) 회귀 모형 평가 지표 SSE : 오차 제곱합. 예측값과 실젯값의 차이 제곱의 합 SST : 전체 제곱합. 실젯값과 평균값의 차이의 제곱 합 SSR :.. 2022. 8. 31. [빅분기] 고급 분석 기법 다변량 분석 : 여러 현상이나 사건에 대한 측정치를 개별적으로 분석하지 않고 동시에 분석하는 통계적 기법으로, 각 변수를 개별적으로 분석하지 않고 동시에 분석하여 여러 변수 간의 관계성을 고려한다. 다중 회귀분석 : 독립변수가 K개이며 종속변수와의 관계가 선형인 회귀분석 기법으로, 다수의 독립변수의 변화에 따른 종속변수의 변화를 예측하는 데 활용 다변량 분산 분석 : 독립변수가 1개 이상이고 종속변수가 2개 이상일 때 두 집단 간 평균 차이를 검증하는 기법 판별 분석 : 분류된 집단 간의 차이를 설명해 줄 수 있는 독립변수들로 이루어진 최적판별식을 찾기 위한 기법 다차원 척도법 : 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표.. 2022. 8. 31. [빅분기] 분석 기법-2 인공신경망 : 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 기계학습 모델로서 입력값을 받아서 출력값을 만들기 위해 활성화 함수를 사용한다. 인공신경망의 구조 퍼셉트론 : 인간의 신경망에 있는 뉴런의 모델을 모방하여 입력층, 출력층으로 구성한 인공신경망 모델로 구성요소로는 입력값, 가중치, 순 입력함수, 활성화 함수, 예측값으로 되어 있다. 다층 퍼셉트론 : 입력층과 출력층 사이에 하나 이상의 은닉층을 두어 비선형적으로 분리되는 데이터에 대해 학습이 가능한 퍼셉트론으로, 구성요소로는 입력층, 은닉층, 출력층으로 구성하고 역전파 알고리즘을 통해 다층으로 만들어진 퍼셉트론의 학습이 가능하다. 문제점 과대 적합 : 훈련 데이터가 부족하여 훈련 데이터에는 잘 동작하지만, 실제 데이터에는 예측을.. 2022. 8. 30. [빅분기] 분석 기법-1 회귀 분석 : 독립변수와 종속변수 간에 선형적인 관계를 도출해서 하나 이상의 독립변수들이 종속변수에 미치는 영향을 분석하고, 독립변수를 통해 종속변수를 예측하는 분석 기법 회귀 모형의 가정 선형성 : 독립변수와 종속변수가 선형적이어야 한다는 특성으로 독립변수의 변화에 따라 종속변수도 일정 크기로 변화한다. 독립성 : 단순선형 회귀 분석에서는 잔차와 독립변수의 값이 서로 독립적이어야 한다는 특성으로, 다중선형 회귀 분석에서는 독립변수 간 상관성이 없이 독립적이어야 하고, 통계량으로는 더빈-왓슨 검정을 통해 확인 가능하다. 등분산성 : 잔차의 분산이 독립변수와 무관하게 일정해야 한다는 특성으로, 잔차가 고르게 분포되어야 한다. 비상관성 : 관측치와 잔차는 서로 상관이 없어야 한다는 특성으로, 잔차끼리 서로 .. 2022. 8. 30. 이전 1 2 3 4 5 6 다음