본문 바로가기

빅분기21

[빅분기] 데이터 정제 데이터 정제 : 결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업 절차 데이터 오류 원인 분석 : 원청 데이터의 오류로 인해서 발생하거나 빅데이터 플로우의 문제로부터 발생 결측값 : 필수적인 데이터가 입력되지 않고 누락된 값으로 중심 경향값 넣기와 분포기간으로 처리해서 해결할 수 있다. 노이즈 : 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값으로 일정 간격으로 이동하면서 주변보다 높거나 낮으면 평균값으로 대체 하거나, 일정 범위 중간값으로 대체하여 해결 할 수 있다. 이상값 : 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값으로, 하한보다 낮으면 하한값 대체또는 상한보다 높으면 상한값 대체를 통해 해결할 수 있다. 데이터 정제 대상 선정 : 모든 데이터를 .. 2022. 8. 28.
[빅분기] 데이터 적재, 저장 데이터 적재 여러 데이터 소스에서 데이터를 수집해 오기 위해, 데이터 소스를 처리하고, 분산된 여러 서버에서 데이터를 수집하는 데이터 수집 플랫폼과 저장 방법의 중요성이 점점 더 확대되고 있다. 적재 도구 플루언티드 : 트레저 데이터에서 개발된 크로스 플랫폼 오픈 소스 데이터 수집 소프트웨어로 주로 루비 프로그래밍 언어로 작성 플럼 : 많은 양의 로그 데이터를 효율적으로 수집, 집계 및 이동하기 위해 이벤트와 에이전트를 활용하는 분산형 로그 수집 기술 스크라이브 : 다수의 서버로부터 실시간으로 스트리밍 되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술 로그스태시 : 모든 로그 정보를 수집하여 하나의 저장소에 출력해주는 시스템 데이터 저장 저장기술 데이터 웨어하우스.. 2022. 8. 28.
[빅분기] 데이터 유형 및 비식별화 데이터 유형 구조 관점 정형 데이터 : 정형화된 스키마 구조기반의 형태를 가지고 고정된 필드에 저장되며 값과 형식에서 일관성을 가지는 데이터로 컬럼과 로우 구조를 가지며, 설계된 구조 기반 목적에 맞는 정보들을 의미한다. 반정형 데이터 : 스키마 구조 형태를 가지고 메타데이터를 포함하며, 값과 형식에서 일관성을 가지지 않는 데이터로서 XML, HTML과 같은 웹 데이터가 Node 형태의 구조를 가짐 비정형 데이터 : 스키마 구조 형태를 가지지 않고 고정된 필드에 저장되지 않는 데이터로 텍스트, 이미지, 오디오, 비디오 등이 있다. 시간 관점 실시간 데이터 : 생성된 이후 수 초~수 분 이내에 처리되어야 의미가 있는 현재 데이터 비실시간 데이터 : 생성된 데이터가 수 시간 또는 수 주 이후에 처리되어야 의.. 2022. 8. 28.
[빅분기] 빅데이터 수집 데이터 수집 유형 내부 데이터 : 조직 내부에 데이터가 위치하며, 데이터 담당자와 수집 주기 및 방법 등을 협의하여 데이터를 수집, 내부 조직 간 협의를 통한 데이터 수집을 통해 주로 수집이 용이한 정형 데이터이며, 서비스의 수명 주기 관리가 용이하다. 외부 데이터 : 조직 외부에 데이터가 위치하며, 특정 기관의 담당자 협의 또는 데이터 전문 업체를 통해 데이터를 수집, 공공 데이터의 경우에는 공공 데이터 포털을 통해 API 또는 파일로 수집, 외부 조직과 협의를 통해 데이터를 구매하거나 웹상의 오픈 데이터를 통한 데이터 수집을 통해 주로 수집이 어려운 비정형 데이터이다. 원천 데이터 내부 데이터 : SCM, ERP, CRM, 포털, 원장정보 시스템, 인증 시스템, 거래 시스템, 백본, 방화벽, 스위치,.. 2022. 8. 28.