- 빅데이터 모형 개발 및 운영 프로세스
- 분석 목적 정의 : 분석을 위해서 문제가 무엇인지, 어떠한 방식으로 분석하고 문제를 해결해야 하는지에 대한 목적이 명확해야한다.
- 가설 검토 : 분석의 목적을 명확히 한 이후, 빅데이터 모형 개발을 통해 문제 해결에 적합한 가설을 수립한다. 통계적으로 어떤 유의미한 결론을 도출하며 그 결과를 어떻게 활용하여 문제를 해결할 것인지에 대한 구체적인 검토를 수행한다.
- 데이터 준비 및 처리 : 빅데이터 모형 구축 및 이를 활용한 분석을 위한 데이터를 파악하고 이들을 수집 및 저장을 해야한다. 변수에 대한 정의, 단위 및 수집/측정 기간에 대한 일관성 점검, 데이터 정제 및 결측값 처리 등의 데이터 전처리 과정을 수행한다. 불필요한 변수는 제거하고 변수 변환, 새로운 파생변수를 생성하는 등의 작업을 통해 변수별로 분석 모형에 포함하는 것이 타당한지를 확인한다. 데이터 마이닝 기반 분석 모형을 개발할 때는 훈련 데이터 세트, 평가 데이터 세트, 검증 데이터 세트로 수집된 데이터를 나누는 작업을 수행한다.
- 모델링 및 분석 : 앞선 단계에서 검토되었던 시안을 구체적인 통계적 질문으로 변환하는 단계이며, 분석 목적에 부합하는 빅데이터 분석 유형 및 적합한 모형을 선택한다.
- 정확도 및 성능 평가 : 도출된 빅데이터 분석 모형에 대하여 검증 데이터 세트를 이용하여 분석 모형의 성능을 평가하는 단계이다.
- 운영 : 분석 모형을 운영 시스템과 통합하고, 분석 목적에 맞게 도출된 빅데이터 분석 모형을 활용한다.
- 빅데이터 모형의 운영 시스템 적용 단계
- 분석 모형 적용 모듈 결정 : 빅데이터 분석 모형을 운영 시스템에 적용할 때, 먼저 운영 시스템의 구성을 이해하고 어떤 모듈에 도출된 분석 모형을 적용할지 판단한다. 통계기반 빅데이터 분석 모형 개발은 분석 목적에 부합되게 개발되어야 한다.
- 분석 모형 통합 결정 및 구현 : 분석 모형 개발언어 혹은 패키지 등을 고려하여 운영 시스템 내 모듈과 어떠한 방식으로 통합할지를 결정하고 구현한다. 분석 모형이 개발되고 성능 평가가 이루어진 이후에는 운영 시스템과의 통합을 위하여 통합 방식을 결정한다.
- 빅데이터 모형의 개선 방안
- 예측 모영에 대한 성능추적 : 예측 모형에 대해 예측 오차를 지속적으로 추적하여 예측 오차가 계속 증가하는지 혹은 감소하는지 확인이 필요하다. 예측 오차의 추적을 통해 예측 모형의 타당성을 지속적으로 확인해야한다. 일반적으로 예측 오차의 추적은 추적 신호 값을 활용하여 지속해서 추적하게 된다.
- 예측 모형에 대한 개선방안 : 예측 오차의 지속적인 추적을 통해 예측 모형의 점검이 필요하게 되면 두 가지 방법을 따른다. 일반적으로 같은 분석 모형을 사용하되 새로운 데이터를 수집하여, 재학습을 위해 해당 분석 모형에 적용하여 수정된 분석 모형을 도출한다.
- 빅데이터 모형 운영 및 개선방안 수립 절차
- 예측 오차 계산 : 예측 모형의 성능을 지속해서 추적하기 위해서 매회 예측 모형 수행 시 그 결괏값과 실젯값과의 차이인 예측 오차를 계산하고 기록한다.
- 예측 모형의 점검 여부 결정 : 새로 계산된 예측 오차를 가지고 추적 신호를 다시 계산하고, 아래와 같은 형식의 관리도를 활용하여 추적 신호 추적한다.
- 예측 모형 개선 방향 결정 : 예측 모형이 추적 신호 상한 혹은 하한을 벗어나서 개선이 필요한 경우 예측 모형 개선방안을 모색해야 한다.
- 분석 모형의 결과를 활용할 수 있는 분야 파악
- 직접 활용 분야 도출 : 빅데이터 분석 모형의 분석 결과를 이용해서 해당 업무의 가치 사슬에서 직접 활용할 수 있는 분양를 파악하고, 일반적으로 빅데이터 서비스를 위해 분석 모형을 구상해서 모형을 개발하는 경우 활용 방안이 정의되어 있다.
- 파생 활용 분야 도출 : 빅데이터 분석 결과를 직접 활용할 수 있는 분야를 토대로 파생 활용이 가능한 분야를 파악하고, 분석 모형 정의서와 명시되어 있는 활용 방안을 확대하거나, 해당 분석 모형과 유사 또는 관련이 잇는 업무의 가치 사실에서 분석 결과를 활용할 수 있는 분야를 파악한다.
- 아이디어 분류
- 마인드맵 방식의 분류 : 마인드맵 방식의 분류는 생각하고 있는것, 기억하고 있는 내용을 마음속에 지도를 그리듯이 줄거리를 이해하며 정리하는 방법
- 친화 도표 방식의 분류 : 친화 도표는 관련성이 있는 아이디어끼리 같이 묶어서 분류하는 방법
- 피라미드 방식의 분류 : 피라미드 방식의 분류는 계층 구조가 중요할 때 적용하면 유용한 방식
- 서비스 품질 관점의 제공 가치
- 반응성 : 고객의 질문, 요구 및 불만 등에 대하여 종업원 반응의 신속성
- 공감성 : 반응의 친절성이나 진정성
- 확신성 : 서비스에 대하여 고객이 느끼는 믿음과 확산, 또는 위험이나 불신또는 의혹으로부터의 자유
- 유형성 : 서비스를 제공하는 건물, 장소, 시설, 인테리어 등과 같은 유형적인 것
- 신뢰성 : 약속한 서비스를 정확하게 수행하는 능력
- 빅데이터 비즈니스의 핵심 성공 요인
- 목적 및 참여 요소 측면 : 빅데이터 분석 목적, 사용자, 활용 목적에 대하여 명확하게 정의하고, 데이터 볼륨보다는 가치 창출 관점에서의 검토가 필요하다.
- 프로세스 측면 : 분석 목적에 따라 분석 모형을 정의한 후 분석 인프라 요건을 검토하고, 분석 모형 개발, 분석 시스템 구축 후 지속적으로 주기적인 모형 유의 변수를 모니터링하고 정제한다.
- 빅데이터 비즈니스 주요 실패 요인
- 빅데이터 분석 목적, 서비스 목적의 불명확 : 빅데이터 분석 목적 및 서비스 목적이 명확하지 않은 상태에서 분석 모형을 개발할 경우, 산출된 분석 결과의 효용성이 낮고 제공할 가치도 불분명해질 수 있다.
- 빅데이터 분석 결과를 이용할 사용자 및 활용 방안의 불명확 : 빅데이터 분석 결과를 이용할 사용자 및 활용 방안이 명확하지 않은 상태에서 분석 모형을 개발할 경우, 실제 비즈니스에 활용하지 않을수 있다.
- 분석 대상 데이터 품질의 저하 : 분석 대상 데이터 저품질로 인해 분석 결과의 신뢰도가 저하되어 효용성이 낮거나 상반된 분석 결과를 제시할 수 있다.
- 분석 모형에 대한 정의 없이 인프라 우선 도입 : 인프라를 먼저 도입하는 경우, 분석 모형에서 활용할 데이터를 분석할 인프라가 없는 경우 발생한다.
- 분석 주기별 모니터링
- 일간 성능 분석 : 측정 항목의 시간대별 성능 추이 및 특성을 기준으로 플랫폼의 안정성과 품질을 판단해야 하는 경우
- 주간 성능 분석 : 측정 항목의 주간 단위 데이터 수집 및 관리를 통해 주간 단위의 성능 변화 추이를 분석해야 하는 경우
- 월간 성능 분석 : 일간, 주간 성능 수집 데이터를 취합하여 월간 성능 추이를 집꼐하여 분석하는 경우에 사용한다.
- 연간 성능 분석 : 연간 업무 계획 및 성능 현황을 토대로 플랫폼의 용량 확장 및 개선 필요 영역을 도출하여 업무에 반영하고자 할 경우
- 분석 모형 리모델링
- 리모델링 주기
- 데이터 마이닝 : 분기별
- 시뮬레이션 : 주요 변경이 이뤄지는 시점
- 최적화 : 1년에 한번
- 리모델링 업무
- 데이터 마이닝 : 동일한 데이터를 이용해 학습을 다시 수행하거나 변수를 추가해 학습을 다시 수행
- 시뮬레이션 : 이벤트 발생 패턴의 변화, 시간지연의 변화, 이벤트를 처리하는 리소스 증가, 큐잉 우선순위, 자원 할당 규칙 변화등을 처리
- 최적화 : 오브젝트 함수의 계수 변경이나 제약조건에 사용되는 제약 값의 변화와 추가
- 리모델링 주기
반응형
'빅데이터 이론' 카테고리의 다른 글
[ADsP] 데이터와 데이터 베이스 (0) | 2022.09.03 |
---|---|
[빅분기] 데이터 시각화 (0) | 2022.09.01 |
[빅분기] 분석 모형 개선 방안 (0) | 2022.08.31 |
[빅분기] 평가 지표 및 검증 (0) | 2022.08.31 |
[빅분기] 고급 분석 기법 (0) | 2022.08.31 |
댓글