본문 바로가기

전체 글23

[빅분기] 분석 절차 수립 분석 모형 선정 : 분석 목적에 부합하고 수집된 데이터의 변수들을 고려하여 적합한 빅데이터 분석 모형을 선정한다. 통계기반 분석 모형 선정 : 불확실한 상황에서 객관적인 의사결정을 수행하기 위해 데이터를 수집하고, 처리, 분류, 분석 및 해석하는 일련의 체계를 통계분석이라고 한다. 기술 통계 : 데이터 분석의 목적으로 수집된 데이터를 확률, 통계적으로 정리, 요약하는 기초적인 통계로 평균, 분산, 표준편차, 왜도, 첨도, 빈도 등 데이터에 대한 대략적인 통계적 수치를 계산하고 도출한다. 상관 분석 : 두 개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법으로 변수의 개수 및 데이터 속성에 따라서 세부 모델들로 분류한다. 단순상관 분석 : 두 변수 사이의 연관 관계 분석 다중상관 분.. 2022. 8. 30.
[빅분기] 추론통계 모집단의 표본을 가지고 모집단의 특성을 추론하고 그 결과의 신뢰성을 검정하는 통계적 방법으로, 표본의 개수가 많을수록 표본오차는 감소한다. 점 추정 : 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법으로 신뢰도를 나타낼 수 없는 단점이 있어 구간 추정을 주로 사용한다. 점 추정 조건 불편성/불편의성 : 추정량의 기댓값이 모집단의 모수와 차이가 없다는 특성으로 불편 추정량은 모수를 중심으로 분포 효율성 : 추정량의 분산이 작을수록 좋다는 특성으로 추정량의 효율은 항상 1 이하이고, 효율이 1인 추정량을 최대효율 추정량이라고 함 일치성 : 표본의 크기가 아주 많이 커지면, 추정량이 모수와 거의 같이진다는 특성으로 일치성을 가지는 추정량을 일치 추정량을 통해 확인 충족성/춘분성 : 추정량은 모수.. 2022. 8. 30.
[빅분기] 통계기법 이해 데이터 요약 대푯값 : 주어진 자료 전체에서 중심 위치를 나타내는 값 평균 산술 평균 : 자료를 모두 더한 후 자료 개수로 나눈 값으로 전부 같은 가중치를 두며 이상값에 민감하다. 모평균, 표본평균이 있다. 기하 평균 : 숫자들을 모두 곱한 후 거듭제곱근을 취해서 얻은 평균으로 성장률, 백분율과 같이 자료가 비율이나 배수와 같이 곱의 관계일 때 사용한다. 조화 평균 : 자료들의 역수에 대해 산술 평균을 구한 후 그것을 역수로 취한 평균이며, 속도의 편균, 여러 곳의 평균 성장률과 같은곳에서 사용한다. 중위수 : 모든 데이터 값을 오름차순으로 순서대로 배열하였을 때 중앙에 위치한 데이터값으로, 이상치에 영향을 받지 않는다. 데이터값의 수가 홀수일 경우에는 중위수가 하나가 되지만, 데이터 수가 짝수일 경우에.. 2022. 8. 30.
[빅분기] 고급 데이터 탐색 시공간 데이터탐색 : 공간적 객체에 시간의 개념이 추가되어 시간에 따라 위치나 형상이 변하는 데이터로 데이터를 공간과 시간의 흐름상에 위치시킬 수 있는 거리 속성과 시간 속성을 가지고 있다. 특징 이산적 변화 : 데이터 수집의 주기가 일정하지 않은 데이터를 이용하여 표현하고, 시간의 변화에 따라 데이터가 추가된다. 연속적 변화 : 일정한 주기로 수집되는 데이터를 이용하여 연속적으로 표현하고, 연속적인 변화를 일종의 함수를 이용하여 표현한다. 타입 포인트 타입 : 하나의 노드로 구성되는 공간 데이터 타입 라인 타입 : 서로 다른 두 개의 노드와 두 노드를 잇는 하나의 세그먼트로 구성 폴리곤 타입 : n개의 노트와 n개의 세그먼트로 구성 폴리라인 타입 : n개의 노드와 n-1개의 세그먼트로 구성 탐색 절차 .. 2022. 8. 29.