본문 바로가기
빅데이터 이론

[빅분기] 빅데이터 분석 방법론

by BoomBear 2022. 8. 28.
  • 빅데이터를 분석하기 위해 문제를 정의하고 답을 도출하기 위한 체계적인 절차와 처리 방법
  • 구성요소 :  절차, 방법, 도구와 기법, 템플릿과 산출물
  • 계층
    • 단계 : 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성, 기준선으로 설정 관리하며, 버전 관리 등을 통한 통제
    • 태스크 : 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목
    • 스텝 : 입력 자료, 처리 및 도구, 출력 자료로 구성된 단위 프로세스
  • 분석절차
    • 분석 기획 
      • 비즈니스 이해 및 범위 설정 : 프로젝트 진행을 위해 비즈니스에 대한 충분한 이해와 도메인 문제점을 파악하고 업무 매뉴얼 및 업무 전문가 도움 필요하며, 구조화된 명세서를 작성한다.
      • 프로젝트 정의 및 계획 수립 : 모델의 운영 이미지를 설계하고 모델 평가 기준을 설정, 프로젝트의 정의를 명확하게 하며, WBS를 만들고 데이터 확보계획, 빅데이터 분석 방법, 일정계획, 예산계획, 품질계획, 인력구성계획, 의사소통계획 등을 포함하는 프로젝트 수행 계획을 작성한다.
      • 프로젝트 위험계획 수립 : 발생 가능한 모든 위험을 발굴하여 사전에 대응 방안을 수립함으로써 프로젝트 진행의 완전성을 높이고, 위험대응 방법으로는 회피, 전가, 완화, 수용이 있다.
    • 데이터 준비
      • 필요 데이터 정의 : 정형, 비정형, 반정형 등의 모든 내,외부 데이터와 데이터 속성, 오너, 담당자 등을 포함하는 데이터 정의서를 작성하고, 구체적인 데이터 획득 방안을 상세하게 수립하여 프로젝트 지연을 방지한다.
      • 데이터 스토어 설계 : 획득 방안이 수립되면 전사 차원의 데이터 스토어 설계
      • 데이터 수집 및 정합성 검증 : 데이터 스토어에 크롤링, 실시간 처리, 배치 처리 등으로 데이터 수집하여, 데이터베이스 간 연동, API를 이용한 개발, ETL 도구의 활용 등 수집 프로세스 진행
    • 데이터 분석
      • 분석용 데이터 준비 : 비즈니스 룰 확인, 분석용 데이터셋 준비
      • 텍스트 분석 : 오피니언 마이닝, 사회 연결망 분석, 텍스트 마이닝, 웹 마이닝
      • 탐색적 분석 : 기초통계량 산출, 데이터 분포와 변수 간의 관계 파악, 데이터 시각화
      • 모델링 : 훌련용 데이터 세트와 테스트용 데이터 세트로 분리하여 과적합 방지하고, 데이터 모델링, 모델에 대한 상세한 알고리즘을 작성한다.
      • 모델 평가 및 검증 : 테스트 데이터 세트를 이용하여 모델 검증 작업을 실시하고 보고서를 작성한다.
      • 모델 적용 및 운영 방안 수립 : 검증된 모델을 적용하고 최적화하여 운영할 수 있는 방안을 수립한다.
    • 시스템 구현
      • 설계 및 구현 : 모델링 태스크에서 작성된 알고리즘 설명서와 데이터 시각화 보고서를 이용하여 시스템 및 데이터 아키텍처 설계, 사용자 인터페이스 설계를 진행하고, 설계서를 바탕으로 패키지를 활용하거나 새롭게 프로그램을 코딩하여 구축한다.
      • 시스템 테스트 및 운영 : 단위 테스트, 통합 테스트, 시스템 실시 및 운영
    • 평가 및 전개
      • 모델 발전 계획 수립 : 모델의 생명주기를 설정, 주기적인 평가를 실시하여 유지보수 하거나 재구축 방안을 마련하여 모델의 특성을 고려해 모델 업데이트를 자동화하는 방안을 수립 적용 한다.
      • 프로젝트 평가 보고 : 기획 단계에서 설정된 기준에 따라 프로젝트의 성과를 정량적, 정성적 평가하고 프로젝트 진행과정에서 지식, 프로세스, 출력자료를 지식 자산화하고 프로젝트 최종 보고서를 작성 후 의사소통계획에 따라 프로젝트를 종료한다.
  • 분석 방법론 유형
    • KDD 분석 방법론
      • 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론
      • 절차
        1. 데이터 세트 : 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트의 목표를 설정하는 단계로 데이터베이스 또는 원시 데이터에서 선택 혹은 추가적으로 생성하여, 데이터 마이닝에 필요한 목표 데이터를 구성한다.
        2. 데이터 전처리 : 데이터에 대한 노이즈, 이상값, 결측값 등을 제거하는 단계로 추가로 요구되는 데이터 세트가 있을 경우 데이트 세트 선택, 프로세스 재실행 한다.
        3. 데이터 변환 : 데이터의 변수를 찾고, 데이터에 대한 차원축소를 수행하는 단계로 데이터 마이닝이 효율적으로 적용될 수 있도록 데이터 세트로 변경한다.
        4. 데이터 마이닝 : 분석 목정에 맞는 데이터 마이닝 기법, 알고리즘 선택, 패턴 찾기, 데이터 분류, 예측작업을 수행하는 단계로 필요에 따라 데이터 전처리, 변환 프로세스와 병행이 가능한다.
        5. 데이터 마이닝 결과 평가 : 분석 결과에 대한 해석, 평가, 발경된 지식을 활용하는 단계로 필요시 선택부터 마이닝까지 프로세스의 반복 수행 한다.
    • CRISP-DM 분석 방법론
      • 비즈니스의 이해를 바탕으로 데이터 분석 목적의 6단계로 진행되는 데이터 마이닝 방법론이다.
      • 구성
        • 단계 : 최상위 레벨
        • 일반화 태스크 : 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위로 각 단계는 일반화 태스크를 포함한다.
        • 세분화 태스크 : 일반화 태스크를 구체적으로 수행하는 레발
        • 프로세스 실행 : 데이터 마이닝을 위한 구체적인 실행
      • 절차
        • 업무 이해 : 각종 참고 자료와 협업 책임자와의 커뮤니케이션을 통해 비즈니스를 이해하는 단계로 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획을 수립한다.
        • 데이터 이해 : 분석을 위한 데이터를 수집 및 속성을 이해하고, 문제점을 식별하며 숨겨져 있는 인사이트를 발견하는 단계로 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질을 확인한다.
        • 데이터 준비 : 데이터 정제, 새로운 데이터 생성 등 자료를 분석 가능한 상태로 만드는 단계로 데이터 준비에 많은 시간이 소요되며, 분석용 데이터 세트 선택, 데이터 정제, 데이터 통합, 학습 및 검증 데이터 분리를 해야한다.
        • 모델링 : 다양한 모델링 기법과 알고리즘을 선택하고 매개변수를 최적화하는 단계로 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가를 수행한다.
        • 평가 : 모형의 해석 결과가 프로젝트 목적에 부합하는지 평가하고 결과의 수용 여부를 판단하는 단계로 평가에 많은 시간이 소요되며, 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가를 수행한다.
        • 전개 : 모델링과 평가 단계를 통해 완성된 모델을 업무에 적용하기 위한 계획을 수립하는 단계로 전재에 많은 시간이 소요되며, 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰를 진행한다.
    • SEMMA 분석 방법론
      • 분석 솔루션 업체 SAS사가 주도한 토계 중심 5단계(샘플링 -> 탐색 -> 수정 -> 모델링 -> 검증) 방법론이다.
      • 절차
        • 샘플링 : 통계적 추출 조건 추출을 통한 분석 데이터 생성하는 단계로 비용 절감 및 모델 평가를 위한 데이터를 준비한다.
        • 탐색 : 기초통계, 그래프 탐색, 요인별 분할표, 클러스터링, 변수 유의성 및 상관분석을 통한 분석 데이터 탐색하는 단계로 데이터 조감을 통한 데이터 오류를 검색하고, 모델의 효율을 증대시키며, 데이터 현황을 통해 비즈니스 이해와 다이디어를 위해 이상현상, 변화 등을 탐색한다.
        • 수정 : 수량화, 표준화, 각종 변환, 그룹화를 통한 분석 데이터 수정 및 변환하는 단계로 데이터가 지닌 정보의 표현을 극대화하고, 최적의 모델을 구축할 수 있도록 다양한 형태로 변수를 생성, 선택, 변형한다.
        • 모델링 : 신경망, 의사결정나무, 로지스틱 회귀 분석, 전통적 통계를 이용한 모델을 구축하는 단계로 데이터의 숨겨진 패턴을 발견하고 하나의 비즈니스 문제 해결을 위해 특수한 모델과 알고리즘 적용한다.
        • 검증 : 모델에 대한 평가 및 검증을 수행하는 단계로 서로 다른 모델을 동시에 비교하고, 추가로 분석을 수행할 지 여부를 결정 한다.
        •  
반응형

댓글