- 시공간 데이터탐색 : 공간적 객체에 시간의 개념이 추가되어 시간에 따라 위치나 형상이 변하는 데이터로 데이터를 공간과 시간의 흐름상에 위치시킬 수 있는 거리 속성과 시간 속성을 가지고 있다.
- 특징
- 이산적 변화 : 데이터 수집의 주기가 일정하지 않은 데이터를 이용하여 표현하고, 시간의 변화에 따라 데이터가 추가된다.
- 연속적 변화 : 일정한 주기로 수집되는 데이터를 이용하여 연속적으로 표현하고, 연속적인 변화를 일종의 함수를 이용하여 표현한다.
- 타입
- 포인트 타입 : 하나의 노드로 구성되는 공간 데이터 타입
- 라인 타입 : 서로 다른 두 개의 노드와 두 노드를 잇는 하나의 세그먼트로 구성
- 폴리곤 타입 : n개의 노트와 n개의 세그먼트로 구성
- 폴리라인 타입 : n개의 노드와 n-1개의 세그먼트로 구성
- 탐색 절차
- 주소를 행정구역으로 변환 : 엑셀 또는 스프레드시트의 문자열 처리 함수를 이용해 쉽게 변환할 수 있다. 보통은 공백문자를 기준으로 분할할 수 있다.
- 문자열 처리 함수
- split : 문자열을 구분 문자 기준(공백이나 쉼표 등)으로 나눔
- find : 찾는 문자가 문자열에서 가장 왼쪽으로부터 몇번째에 있는지 숫자를 반환
- left : 문자열과 가장 왼쪽부터 정해진 개수만큼의 문자열 반환
- mid : 문자열의 시작 위치에서부터 정해진 개수만큼의 문자열 반환
- 문자열 처리 함수
- 주소를 좌표계로 변환 : 시공간 데이터의 주소를 이용하여 위도와 경도로 변환한다. 지오크딩 서비스를 이용하여 좌표계로 변환한다. * 지오코딩 서비스란 입력 주소에 해당하는 위도와 경도 데이터를 반환하는 서비스
- Geocoder.us : 위도 경도 반환 서비스
- Google Maps Latitude Longitude Popup : 구글 매쉬업 프로젝트
- Geopy : 파이썬용 지오 코딩 도구 모임
- 행정 구역 및 좌표계를 지도에 표시 : 시공간 데이터에 따라 행정구역 데이터를 지도에 표시하거나 좌표계를 지도에 표시한다.
- 코로플레스 지도 : 어떤 데이터 수치에 따라 지정한 색상 스케일로 영역을 색칠해서 표현하는 방법으로 등치지역도라고도한다. 영역별 데이터를 표현하는 가장 보편적인 방법으로 데이터값의 크기에 따라 지역별로 색을 다르게 표시한다. 인구밀도가 매우 높은 지역과 낮은 지역에 동일한 척도를 적용할 경우 표시된 지역의 면적이 실제 데이터값의 크기를 반영할 수 없다는 단점이 있다.
- 키토그램 : 특정한 데이터값의 변화에 따라 지도의 면적이 왜곡되는 지도로 변량비례도라고도한다. 데이터값이 큰 지역의 면적이 시각적으로도 더 크게 표시됨으로써 데이터값의 크기를 직관적으로 인지할 수 있다는 장점이 있다. 지고의 형태를 왜곡시킴으로써 데이터 지각의 왜곡을 방지하도록 보정한다. (예를 들어 지도상으로는 넓은 지역이지만 실제 거주하는 인구가 적은 지역의 경우 선거인단의 규모가 작으므로 이런 경우 선거인단의 규모에 따라 지도의 형태를 왜곡시켜서 전체적인 선거의 판세를 알아보기 쉽게 할 수 있다.)
- 버블 플롯맵 : 버블차트에 위도와 경도 정보를 적용하여 좌표를 원으로 시각화한 지도이다. 원의 크기, 색깔 등을 반영하여 시각화 표현한다.
- 주소를 행정구역으로 변환 : 엑셀 또는 스프레드시트의 문자열 처리 함수를 이용해 쉽게 변환할 수 있다. 보통은 공백문자를 기준으로 분할할 수 있다.
- 특징
- 다변량 데이터 탐색 :조사 대상의 특징, 성질을 숫자 또는 문자로 나타낸 값이다. 유형은 일변량, 이변량, 다변량 구분은 종속변수의 수에 의해 결정된다. * 종속변수는 독립변수에 영향을 받아서 변화하는 종속적인 변수
- 유형
- 일변량 데이터 : 단위에 대해 하나의 속성만 측정하여 얻게 되는 변수에 대한 자료
- 이변량 데이터 : 각 단위에 대해 두 개의 특성을 측정하여 얻어진 두 개의 변수에 대한 자료
- 다변량 데이터 : 하나의 단위에 대해 두 가지 이상의 특성을 측정하는 경우 얻어지는 변수에 대한 자료
- 탐색
- 일변량 데이터 탐색 : 일변량 데이터 탐색 방법에는 기술통계량, 그래프 통계량 두 가지 종류가 있다. * 기술통계량은 평균, 분산, 표준편차 등이 있고, 그래프통계량은 히스토그램, 상자 그림 등이 있다.
- 이변량 데이터 탐색 : 조사 대상의 각 개체로부터 두 개의 특성을 동시에 관측하고, ㄷ일반적으로 두 변수 사이의 관계를 밝히려는 것이 관심의 대상이다.
- 다별량 데이터 탐색 : 데이터 분석을 시행하기 이전에 산점도 행렬, 별 그림, 등고선 그림 등을 통해 시각적으로 자료를 탐색
- 탐색 도구
- 산점도 행렬 : 여러 변수 간의 산점도를 행렬로 나타내 변수 간의 연관성을 표현한 그래프로 그림 행렬과 개별 Y대 개별 X행렬로 2가지 유형이 있다.
- 그림 행렬 : 최대 20개의 변수를 사용할 수 있으며 가능한 모든 조합의 그래프를 만들 수 있다. 변수가 여러 개 있을 경우 변수쌍 간의 관계를 보려면 그림 행렬을 사용하는 것이 효율적이다.
- 개별 Y대 개별 X 산점도 행렬 : 개별 Y대 개별 X산전도 행렬은 y축 및 x축 변수를 사용하여 가능한 각 xy조합의 그래프를 만든다.
- 스타 차트 : 별 모양의 점을 각각의 변수에 대응되도록 한 뒤 각각의 변숫값에 비례하도록 반경을 나타내도록 하여 관찰 값을 그림으로 표시한 그래프이다.
- 산점도 행렬 : 여러 변수 간의 산점도를 행렬로 나타내 변수 간의 연관성을 표현한 그래프로 그림 행렬과 개별 Y대 개별 X행렬로 2가지 유형이 있다.
- 유형
- 비정형 데이터 탐색 : 일정한 규칙이나 형태를 지닌 숫자 데이터와 달리 이미지나 영상, 텍스트처럼 형태와 구조가 다른 구조화 되지 않은 데이터이다.
- 탐색 방법
- 텍스트 탐색 방법 : 소셜 데이터의 텍스트와 같은 스크립트 파일 형태일 경우 데이터를 파싱한 후 탐색
- 동영상, 이미지 탐색 방법 : 이진 파일 형태의 데이터일 때, 데이터의 종류별로 응용소프트웨어를 이용하여 탐색
- XML, JSON, HTML 탐색 방법 : XML, JSON, HTML 각각의 파서를 이용하여 데이터를 파싱 후 탐색
- 탐색 방법
반응형
'빅데이터 이론' 카테고리의 다른 글
[빅분기] 추론통계 (0) | 2022.08.30 |
---|---|
[빅분기] 통계기법 이해 (0) | 2022.08.30 |
[빅분기] 데이터 탐색 (0) | 2022.08.29 |
[빅분기] 변수 (0) | 2022.08.29 |
[빅분기] 데이터 정제 (0) | 2022.08.28 |
댓글