본문 바로가기

분류 전체보기23

[빅분기] 데이터 탐색 수집한 데이터를 분석하기 전에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법으로 데이터가 가지고 잇는 특성을 파악하기 위해 해당 변수의 분포등을 시각화하여 분석하는 분석 방식이다. 탐색적 데이터 분석 저항성 : 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미하고, 저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음 전차 해석 : 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색하고 주 경향에서 벗어난 값이 왜 존재하는지에 대해 탐색하는 작업 지료 재표현 : 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것으로 자료의 재표현을 통하여 분포의 대칭성, .. 2022. 8. 29.
[빅분기] 변수 데이터 모델에서 사용하는 예측을 수행하는 데 사용되는 입력변수이며, RDBMS에서는 속성이라고 부른다. 유형 독립변수 : 종속변수의 값에 영향을 미쳐 종속변수가 특정한 값을 갖게 되는 원이 된다고 가정한 변수로 연구자가 의도적으로 변화시키는 변수이다. 독립변수로는 예측변수, 회귀자, 통제변수, 조작변수, 노출변수, 리스크 팩터, 설명변수, 입력변수라고 불린다. 종속변수 : 독립변수에 영향을 받아서 변화하는 종속적인 변수로 독립변수의 영향을 받아 그 값이 변할 것이라고 가정한 변수이다. 변수 선택 : 데이터의 독립변수중 종속변수에 가장 관련성이 높은 변수만을 선정하는 방법 특징 : 사용자가 해석하기 쉽게 모델을 단순화해주고 훈련 시간 축소, 차원의 저주 방지, 과적합을 줄여 일반화를 해주는 장법이 있으며,.. 2022. 8. 29.
[빅분기] 데이터 정제 데이터 정제 : 결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업 절차 데이터 오류 원인 분석 : 원청 데이터의 오류로 인해서 발생하거나 빅데이터 플로우의 문제로부터 발생 결측값 : 필수적인 데이터가 입력되지 않고 누락된 값으로 중심 경향값 넣기와 분포기간으로 처리해서 해결할 수 있다. 노이즈 : 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값으로 일정 간격으로 이동하면서 주변보다 높거나 낮으면 평균값으로 대체 하거나, 일정 범위 중간값으로 대체하여 해결 할 수 있다. 이상값 : 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값으로, 하한보다 낮으면 하한값 대체또는 상한보다 높으면 상한값 대체를 통해 해결할 수 있다. 데이터 정제 대상 선정 : 모든 데이터를 .. 2022. 8. 28.
[빅분기] 데이터 적재, 저장 데이터 적재 여러 데이터 소스에서 데이터를 수집해 오기 위해, 데이터 소스를 처리하고, 분산된 여러 서버에서 데이터를 수집하는 데이터 수집 플랫폼과 저장 방법의 중요성이 점점 더 확대되고 있다. 적재 도구 플루언티드 : 트레저 데이터에서 개발된 크로스 플랫폼 오픈 소스 데이터 수집 소프트웨어로 주로 루비 프로그래밍 언어로 작성 플럼 : 많은 양의 로그 데이터를 효율적으로 수집, 집계 및 이동하기 위해 이벤트와 에이전트를 활용하는 분산형 로그 수집 기술 스크라이브 : 다수의 서버로부터 실시간으로 스트리밍 되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술 로그스태시 : 모든 로그 정보를 수집하여 하나의 저장소에 출력해주는 시스템 데이터 저장 저장기술 데이터 웨어하우스.. 2022. 8. 28.