빅데이터 분석기사22 [ADsP] 데이터와 데이터 베이스 데이터 1646년 영국 문헌에 처음 등장하였으며 라틴어인 dare의 과거 분사형으로 '주어진 것'이란 의미로 사용되었다. 1940년대 이후 컴퓨터 시대 시작과 함께 자연과학뿐만 아니라 경영학, 통계학 등 다양한 사회과학이 진일보하며, 데이터의 의미는 과거의 관념적이고 추상적인 개념에서 기술적이고 사실적인 의미로 변화되었다. 추론과 추정의 근거를 이루는 사실이다. 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것으로 설명되고 있다. 데이터의 특성 구분 특성 존재적 특성 객관적 사실 당위적 특성 추론. 예측. 전망. 추정을 위한 근거 데이터의 유형 구분 형태 특징 정성적 데이터 언어, 문자 등 저장. 검색. 분석에 많은 비용이 소모된다. 정량적 데이터 수치, 도형, 기호 등 정.. 2022. 9. 3. [빅분기] 분석 결과 활용 빅데이터 모형 개발 및 운영 프로세스 분석 목적 정의 : 분석을 위해서 문제가 무엇인지, 어떠한 방식으로 분석하고 문제를 해결해야 하는지에 대한 목적이 명확해야한다. 가설 검토 : 분석의 목적을 명확히 한 이후, 빅데이터 모형 개발을 통해 문제 해결에 적합한 가설을 수립한다. 통계적으로 어떤 유의미한 결론을 도출하며 그 결과를 어떻게 활용하여 문제를 해결할 것인지에 대한 구체적인 검토를 수행한다. 데이터 준비 및 처리 : 빅데이터 모형 구축 및 이를 활용한 분석을 위한 데이터를 파악하고 이들을 수집 및 저장을 해야한다. 변수에 대한 정의, 단위 및 수집/측정 기간에 대한 일관성 점검, 데이터 정제 및 결측값 처리 등의 데이터 전처리 과정을 수행한다. 불필요한 변수는 제거하고 변수 변환, 새로운 파생변수를.. 2022. 9. 1. [빅분기] 분석 모형 개선 방안 과대 적합 : 제한된 훈련 데이터 세트가 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상으로, 모델의 매개변수 수가 많거나 훈련데이터 세트의 양이 부족한 경우에 발생한다. 훈련 데이터 : 관측된 데이터를 좌표계로 표현함 일반화 : 테스트 데이터에 대한 높은 성능을 갖춤 과대 적합 : 모델이 훈련 데이터에 너무 잘 맞지만, 일반화가 떨어짐 과서 적합 : 모델이 너무 단순하여 데이터의 내재된 구조를 학습하지 못할 때 발생 과대 적합 발생 원인 훈련 데이터는 실제 데이터의 부분 집합이라서 실제 데이터의 모든 특성을 가지고 있지 않을 수 있다. 과대 적합의 발생 원인은 실제 데이터에서 편향된 부분만을 가지고 있거나 오류가 포함된 값을 가지고 있을 경우 발생할 수 있다. 모델이 과도하게 복잡하거나.. 2022. 8. 31. [빅분기] 평가 지표 및 검증 빅데이터 분석 모형은 분류 모형과 회귀 모형에 따라 다른 평가지표를 이용하여 평가한다. 분석 모형 편향 : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차 분산 : 훈련 데이터에 내재된 작은 변동으로 발생하는 오차 평가 기준 일반화의 가능성 : 데이터를 확장하여 적용할 수 있는지에 대한 평가 기준으로 모집단 내의 다른 데이터에 적용해도 안정적인 결과를 제공하는지를 평가 효율성 : 적은 입력 변수가 필요할수록 효율성이 높은 것으로 평가 예측과 분류의 정확성 : 정확성 측면에서 평가 평가 방법 범주형 : 혼동 행렬 연속형 : RMSE(평균 제곱근 오차) 회귀 모형 평가 지표 SSE : 오차 제곱합. 예측값과 실젯값의 차이 제곱의 합 SST : 전체 제곱합. 실젯값과 평균값의 차이의 제곱 합 SSR :.. 2022. 8. 31. 이전 1 2 3 4 ··· 6 다음