본문 바로가기

빅분기21

[빅분기] 통계기법 이해 데이터 요약 대푯값 : 주어진 자료 전체에서 중심 위치를 나타내는 값 평균 산술 평균 : 자료를 모두 더한 후 자료 개수로 나눈 값으로 전부 같은 가중치를 두며 이상값에 민감하다. 모평균, 표본평균이 있다. 기하 평균 : 숫자들을 모두 곱한 후 거듭제곱근을 취해서 얻은 평균으로 성장률, 백분율과 같이 자료가 비율이나 배수와 같이 곱의 관계일 때 사용한다. 조화 평균 : 자료들의 역수에 대해 산술 평균을 구한 후 그것을 역수로 취한 평균이며, 속도의 편균, 여러 곳의 평균 성장률과 같은곳에서 사용한다. 중위수 : 모든 데이터 값을 오름차순으로 순서대로 배열하였을 때 중앙에 위치한 데이터값으로, 이상치에 영향을 받지 않는다. 데이터값의 수가 홀수일 경우에는 중위수가 하나가 되지만, 데이터 수가 짝수일 경우에.. 2022. 8. 30.
[빅분기] 고급 데이터 탐색 시공간 데이터탐색 : 공간적 객체에 시간의 개념이 추가되어 시간에 따라 위치나 형상이 변하는 데이터로 데이터를 공간과 시간의 흐름상에 위치시킬 수 있는 거리 속성과 시간 속성을 가지고 있다. 특징 이산적 변화 : 데이터 수집의 주기가 일정하지 않은 데이터를 이용하여 표현하고, 시간의 변화에 따라 데이터가 추가된다. 연속적 변화 : 일정한 주기로 수집되는 데이터를 이용하여 연속적으로 표현하고, 연속적인 변화를 일종의 함수를 이용하여 표현한다. 타입 포인트 타입 : 하나의 노드로 구성되는 공간 데이터 타입 라인 타입 : 서로 다른 두 개의 노드와 두 노드를 잇는 하나의 세그먼트로 구성 폴리곤 타입 : n개의 노트와 n개의 세그먼트로 구성 폴리라인 타입 : n개의 노드와 n-1개의 세그먼트로 구성 탐색 절차 .. 2022. 8. 29.
[빅분기] 데이터 탐색 수집한 데이터를 분석하기 전에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법으로 데이터가 가지고 잇는 특성을 파악하기 위해 해당 변수의 분포등을 시각화하여 분석하는 분석 방식이다. 탐색적 데이터 분석 저항성 : 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미하고, 저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음 전차 해석 : 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색하고 주 경향에서 벗어난 값이 왜 존재하는지에 대해 탐색하는 작업 지료 재표현 : 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것으로 자료의 재표현을 통하여 분포의 대칭성, .. 2022. 8. 29.
[빅분기] 변수 데이터 모델에서 사용하는 예측을 수행하는 데 사용되는 입력변수이며, RDBMS에서는 속성이라고 부른다. 유형 독립변수 : 종속변수의 값에 영향을 미쳐 종속변수가 특정한 값을 갖게 되는 원이 된다고 가정한 변수로 연구자가 의도적으로 변화시키는 변수이다. 독립변수로는 예측변수, 회귀자, 통제변수, 조작변수, 노출변수, 리스크 팩터, 설명변수, 입력변수라고 불린다. 종속변수 : 독립변수에 영향을 받아서 변화하는 종속적인 변수로 독립변수의 영향을 받아 그 값이 변할 것이라고 가정한 변수이다. 변수 선택 : 데이터의 독립변수중 종속변수에 가장 관련성이 높은 변수만을 선정하는 방법 특징 : 사용자가 해석하기 쉽게 모델을 단순화해주고 훈련 시간 축소, 차원의 저주 방지, 과적합을 줄여 일반화를 해주는 장법이 있으며,.. 2022. 8. 29.