빅분기21 [빅분기] 분석 결과 활용 빅데이터 모형 개발 및 운영 프로세스 분석 목적 정의 : 분석을 위해서 문제가 무엇인지, 어떠한 방식으로 분석하고 문제를 해결해야 하는지에 대한 목적이 명확해야한다. 가설 검토 : 분석의 목적을 명확히 한 이후, 빅데이터 모형 개발을 통해 문제 해결에 적합한 가설을 수립한다. 통계적으로 어떤 유의미한 결론을 도출하며 그 결과를 어떻게 활용하여 문제를 해결할 것인지에 대한 구체적인 검토를 수행한다. 데이터 준비 및 처리 : 빅데이터 모형 구축 및 이를 활용한 분석을 위한 데이터를 파악하고 이들을 수집 및 저장을 해야한다. 변수에 대한 정의, 단위 및 수집/측정 기간에 대한 일관성 점검, 데이터 정제 및 결측값 처리 등의 데이터 전처리 과정을 수행한다. 불필요한 변수는 제거하고 변수 변환, 새로운 파생변수를.. 2022. 9. 1. [빅분기] 분석 모형 개선 방안 과대 적합 : 제한된 훈련 데이터 세트가 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상으로, 모델의 매개변수 수가 많거나 훈련데이터 세트의 양이 부족한 경우에 발생한다. 훈련 데이터 : 관측된 데이터를 좌표계로 표현함 일반화 : 테스트 데이터에 대한 높은 성능을 갖춤 과대 적합 : 모델이 훈련 데이터에 너무 잘 맞지만, 일반화가 떨어짐 과서 적합 : 모델이 너무 단순하여 데이터의 내재된 구조를 학습하지 못할 때 발생 과대 적합 발생 원인 훈련 데이터는 실제 데이터의 부분 집합이라서 실제 데이터의 모든 특성을 가지고 있지 않을 수 있다. 과대 적합의 발생 원인은 실제 데이터에서 편향된 부분만을 가지고 있거나 오류가 포함된 값을 가지고 있을 경우 발생할 수 있다. 모델이 과도하게 복잡하거나.. 2022. 8. 31. [빅분기] 평가 지표 및 검증 빅데이터 분석 모형은 분류 모형과 회귀 모형에 따라 다른 평가지표를 이용하여 평가한다. 분석 모형 편향 : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차 분산 : 훈련 데이터에 내재된 작은 변동으로 발생하는 오차 평가 기준 일반화의 가능성 : 데이터를 확장하여 적용할 수 있는지에 대한 평가 기준으로 모집단 내의 다른 데이터에 적용해도 안정적인 결과를 제공하는지를 평가 효율성 : 적은 입력 변수가 필요할수록 효율성이 높은 것으로 평가 예측과 분류의 정확성 : 정확성 측면에서 평가 평가 방법 범주형 : 혼동 행렬 연속형 : RMSE(평균 제곱근 오차) 회귀 모형 평가 지표 SSE : 오차 제곱합. 예측값과 실젯값의 차이 제곱의 합 SST : 전체 제곱합. 실젯값과 평균값의 차이의 제곱 합 SSR :.. 2022. 8. 31. [빅분기] 고급 분석 기법 다변량 분석 : 여러 현상이나 사건에 대한 측정치를 개별적으로 분석하지 않고 동시에 분석하는 통계적 기법으로, 각 변수를 개별적으로 분석하지 않고 동시에 분석하여 여러 변수 간의 관계성을 고려한다. 다중 회귀분석 : 독립변수가 K개이며 종속변수와의 관계가 선형인 회귀분석 기법으로, 다수의 독립변수의 변화에 따른 종속변수의 변화를 예측하는 데 활용 다변량 분산 분석 : 독립변수가 1개 이상이고 종속변수가 2개 이상일 때 두 집단 간 평균 차이를 검증하는 기법 판별 분석 : 분류된 집단 간의 차이를 설명해 줄 수 있는 독립변수들로 이루어진 최적판별식을 찾기 위한 기법 다차원 척도법 : 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표.. 2022. 8. 31. 이전 1 2 3 4 ··· 6 다음