본문 바로가기

분류 전체보기23

[ADsP] 데이터와 데이터 베이스 데이터 1646년 영국 문헌에 처음 등장하였으며 라틴어인 dare의 과거 분사형으로 '주어진 것'이란 의미로 사용되었다. 1940년대 이후 컴퓨터 시대 시작과 함께 자연과학뿐만 아니라 경영학, 통계학 등 다양한 사회과학이 진일보하며, 데이터의 의미는 과거의 관념적이고 추상적인 개념에서 기술적이고 사실적인 의미로 변화되었다. 추론과 추정의 근거를 이루는 사실이다. 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것으로 설명되고 있다. 데이터의 특성 구분 특성 존재적 특성 객관적 사실 당위적 특성 추론. 예측. 전망. 추정을 위한 근거 데이터의 유형 구분 형태 특징 정성적 데이터 언어, 문자 등 저장. 검색. 분석에 많은 비용이 소모된다. 정량적 데이터 수치, 도형, 기호 등 정.. 2022. 9. 3.
[빅분기] 분석 결과 활용 빅데이터 모형 개발 및 운영 프로세스 분석 목적 정의 : 분석을 위해서 문제가 무엇인지, 어떠한 방식으로 분석하고 문제를 해결해야 하는지에 대한 목적이 명확해야한다. 가설 검토 : 분석의 목적을 명확히 한 이후, 빅데이터 모형 개발을 통해 문제 해결에 적합한 가설을 수립한다. 통계적으로 어떤 유의미한 결론을 도출하며 그 결과를 어떻게 활용하여 문제를 해결할 것인지에 대한 구체적인 검토를 수행한다. 데이터 준비 및 처리 : 빅데이터 모형 구축 및 이를 활용한 분석을 위한 데이터를 파악하고 이들을 수집 및 저장을 해야한다. 변수에 대한 정의, 단위 및 수집/측정 기간에 대한 일관성 점검, 데이터 정제 및 결측값 처리 등의 데이터 전처리 과정을 수행한다. 불필요한 변수는 제거하고 변수 변환, 새로운 파생변수를.. 2022. 9. 1.
[빅분기] 데이터 시각화 데이터에 대한 이해를 돕기 위해 그림, 도형 등 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정으로 선, 막대, 원 등의 기하나 도형과 같은 양식을 이용해 데이터의 특징을 설명할 수 있는 모양으로 만들어 내거나, 색상, 레이블 등 특성을 활용하여 데이터를 표현한다. 시각화의 유형 시간 시각화 : 시간 흐름에 따른 변화를 통해 경향(트렌드)을 파악하는 방법 분포 시각화 : 분류에 따른 변화를 최대, 최소, 전체 분포 등으로 구분하는 방법 관계 시각화 : 집단 간의 상관관계를 확인하여 다른 수치의 변화 예측하는 방법 비교 시각화 : 각각의 데이터 간의 차이점과 유사성 관계도 확인하는 방법 공간 시각화 : 지도를 통해 시점에 따른 경향, 차이 등을 확인하는 방법 시각화 도구 태블로 : 차트, 그래프, .. 2022. 9. 1.
[빅분기] 분석 모형 개선 방안 과대 적합 : 제한된 훈련 데이터 세트가 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상으로, 모델의 매개변수 수가 많거나 훈련데이터 세트의 양이 부족한 경우에 발생한다. 훈련 데이터 : 관측된 데이터를 좌표계로 표현함 일반화 : 테스트 데이터에 대한 높은 성능을 갖춤 과대 적합 : 모델이 훈련 데이터에 너무 잘 맞지만, 일반화가 떨어짐 과서 적합 : 모델이 너무 단순하여 데이터의 내재된 구조를 학습하지 못할 때 발생 과대 적합 발생 원인 훈련 데이터는 실제 데이터의 부분 집합이라서 실제 데이터의 모든 특성을 가지고 있지 않을 수 있다. 과대 적합의 발생 원인은 실제 데이터에서 편향된 부분만을 가지고 있거나 오류가 포함된 값을 가지고 있을 경우 발생할 수 있다. 모델이 과도하게 복잡하거나.. 2022. 8. 31.