빅데이터 분석기사22 [빅분기] 추론통계 모집단의 표본을 가지고 모집단의 특성을 추론하고 그 결과의 신뢰성을 검정하는 통계적 방법으로, 표본의 개수가 많을수록 표본오차는 감소한다. 점 추정 : 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법으로 신뢰도를 나타낼 수 없는 단점이 있어 구간 추정을 주로 사용한다. 점 추정 조건 불편성/불편의성 : 추정량의 기댓값이 모집단의 모수와 차이가 없다는 특성으로 불편 추정량은 모수를 중심으로 분포 효율성 : 추정량의 분산이 작을수록 좋다는 특성으로 추정량의 효율은 항상 1 이하이고, 효율이 1인 추정량을 최대효율 추정량이라고 함 일치성 : 표본의 크기가 아주 많이 커지면, 추정량이 모수와 거의 같이진다는 특성으로 일치성을 가지는 추정량을 일치 추정량을 통해 확인 충족성/춘분성 : 추정량은 모수.. 2022. 8. 30. [빅분기] 통계기법 이해 데이터 요약 대푯값 : 주어진 자료 전체에서 중심 위치를 나타내는 값 평균 산술 평균 : 자료를 모두 더한 후 자료 개수로 나눈 값으로 전부 같은 가중치를 두며 이상값에 민감하다. 모평균, 표본평균이 있다. 기하 평균 : 숫자들을 모두 곱한 후 거듭제곱근을 취해서 얻은 평균으로 성장률, 백분율과 같이 자료가 비율이나 배수와 같이 곱의 관계일 때 사용한다. 조화 평균 : 자료들의 역수에 대해 산술 평균을 구한 후 그것을 역수로 취한 평균이며, 속도의 편균, 여러 곳의 평균 성장률과 같은곳에서 사용한다. 중위수 : 모든 데이터 값을 오름차순으로 순서대로 배열하였을 때 중앙에 위치한 데이터값으로, 이상치에 영향을 받지 않는다. 데이터값의 수가 홀수일 경우에는 중위수가 하나가 되지만, 데이터 수가 짝수일 경우에.. 2022. 8. 30. [빅분기] 고급 데이터 탐색 시공간 데이터탐색 : 공간적 객체에 시간의 개념이 추가되어 시간에 따라 위치나 형상이 변하는 데이터로 데이터를 공간과 시간의 흐름상에 위치시킬 수 있는 거리 속성과 시간 속성을 가지고 있다. 특징 이산적 변화 : 데이터 수집의 주기가 일정하지 않은 데이터를 이용하여 표현하고, 시간의 변화에 따라 데이터가 추가된다. 연속적 변화 : 일정한 주기로 수집되는 데이터를 이용하여 연속적으로 표현하고, 연속적인 변화를 일종의 함수를 이용하여 표현한다. 타입 포인트 타입 : 하나의 노드로 구성되는 공간 데이터 타입 라인 타입 : 서로 다른 두 개의 노드와 두 노드를 잇는 하나의 세그먼트로 구성 폴리곤 타입 : n개의 노트와 n개의 세그먼트로 구성 폴리라인 타입 : n개의 노드와 n-1개의 세그먼트로 구성 탐색 절차 .. 2022. 8. 29. [빅분기] 데이터 탐색 수집한 데이터를 분석하기 전에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법으로 데이터가 가지고 잇는 특성을 파악하기 위해 해당 변수의 분포등을 시각화하여 분석하는 분석 방식이다. 탐색적 데이터 분석 저항성 : 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미하고, 저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음 전차 해석 : 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색하고 주 경향에서 벗어난 값이 왜 존재하는지에 대해 탐색하는 작업 지료 재표현 : 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것으로 자료의 재표현을 통하여 분포의 대칭성, .. 2022. 8. 29. 이전 1 2 3 4 5 6 다음