본문 바로가기

빅데이터 분석기사22

[빅분기] 변수 데이터 모델에서 사용하는 예측을 수행하는 데 사용되는 입력변수이며, RDBMS에서는 속성이라고 부른다. 유형 독립변수 : 종속변수의 값에 영향을 미쳐 종속변수가 특정한 값을 갖게 되는 원이 된다고 가정한 변수로 연구자가 의도적으로 변화시키는 변수이다. 독립변수로는 예측변수, 회귀자, 통제변수, 조작변수, 노출변수, 리스크 팩터, 설명변수, 입력변수라고 불린다. 종속변수 : 독립변수에 영향을 받아서 변화하는 종속적인 변수로 독립변수의 영향을 받아 그 값이 변할 것이라고 가정한 변수이다. 변수 선택 : 데이터의 독립변수중 종속변수에 가장 관련성이 높은 변수만을 선정하는 방법 특징 : 사용자가 해석하기 쉽게 모델을 단순화해주고 훈련 시간 축소, 차원의 저주 방지, 과적합을 줄여 일반화를 해주는 장법이 있으며,.. 2022. 8. 29.
[빅분기] 데이터 정제 데이터 정제 : 결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업 절차 데이터 오류 원인 분석 : 원청 데이터의 오류로 인해서 발생하거나 빅데이터 플로우의 문제로부터 발생 결측값 : 필수적인 데이터가 입력되지 않고 누락된 값으로 중심 경향값 넣기와 분포기간으로 처리해서 해결할 수 있다. 노이즈 : 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값으로 일정 간격으로 이동하면서 주변보다 높거나 낮으면 평균값으로 대체 하거나, 일정 범위 중간값으로 대체하여 해결 할 수 있다. 이상값 : 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값으로, 하한보다 낮으면 하한값 대체또는 상한보다 높으면 상한값 대체를 통해 해결할 수 있다. 데이터 정제 대상 선정 : 모든 데이터를 .. 2022. 8. 28.
[빅분기] 데이터 적재, 저장 데이터 적재 여러 데이터 소스에서 데이터를 수집해 오기 위해, 데이터 소스를 처리하고, 분산된 여러 서버에서 데이터를 수집하는 데이터 수집 플랫폼과 저장 방법의 중요성이 점점 더 확대되고 있다. 적재 도구 플루언티드 : 트레저 데이터에서 개발된 크로스 플랫폼 오픈 소스 데이터 수집 소프트웨어로 주로 루비 프로그래밍 언어로 작성 플럼 : 많은 양의 로그 데이터를 효율적으로 수집, 집계 및 이동하기 위해 이벤트와 에이전트를 활용하는 분산형 로그 수집 기술 스크라이브 : 다수의 서버로부터 실시간으로 스트리밍 되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술 로그스태시 : 모든 로그 정보를 수집하여 하나의 저장소에 출력해주는 시스템 데이터 저장 저장기술 데이터 웨어하우스.. 2022. 8. 28.
[빅분기] 데이터 유형 및 비식별화 데이터 유형 구조 관점 정형 데이터 : 정형화된 스키마 구조기반의 형태를 가지고 고정된 필드에 저장되며 값과 형식에서 일관성을 가지는 데이터로 컬럼과 로우 구조를 가지며, 설계된 구조 기반 목적에 맞는 정보들을 의미한다. 반정형 데이터 : 스키마 구조 형태를 가지고 메타데이터를 포함하며, 값과 형식에서 일관성을 가지지 않는 데이터로서 XML, HTML과 같은 웹 데이터가 Node 형태의 구조를 가짐 비정형 데이터 : 스키마 구조 형태를 가지지 않고 고정된 필드에 저장되지 않는 데이터로 텍스트, 이미지, 오디오, 비디오 등이 있다. 시간 관점 실시간 데이터 : 생성된 이후 수 초~수 분 이내에 처리되어야 의미가 있는 현재 데이터 비실시간 데이터 : 생성된 데이터가 수 시간 또는 수 주 이후에 처리되어야 의.. 2022. 8. 28.