본문 바로가기
빅데이터 이론

[빅분기] 분석 절차 수립

by BoomBear 2022. 8. 30.
  • 분석 모형 선정 : 분석 목적에 부합하고 수집된 데이터의 변수들을 고려하여 적합한 빅데이터 분석 모형을 선정한다. 
    • 통계기반 분석 모형 선정 : 불확실한 상황에서 객관적인 의사결정을 수행하기 위해 데이터를 수집하고, 처리, 분류, 분석 및 해석하는 일련의 체계를 통계분석이라고 한다.
      • 기술 통계 : 데이터 분석의 목적으로 수집된 데이터를 확률, 통계적으로 정리, 요약하는 기초적인 통계로 평균, 분산, 표준편차, 왜도, 첨도, 빈도 등 데이터에  대한 대략적인 통계적 수치를 계산하고 도출한다.
      • 상관 분석 : 두 개  이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법으로 변수의 개수 및 데이터 속성에 따라서 세부 모델들로 분류한다.
        • 단순상관 분석 : 두 변수 사이의 연관 관계 분석
        • 다중상관 분석 : 셋 또는 그 이상의 변수를 사이의 연관 정도를 분석
        • 변수 간의 상관 분석 : 데이터의 속성에 따라서 수치적, 명목적, 순서적 데이터 등을 가지는 변수 간의 분석
      • 회귀 분석 : 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
        • 단순선형 회귀 : 독립변수가 1개이며, 종속변수와의 관계가 직선
        • 다중선형 회귀 : 독립변수가 K개이며, 종속변수와의 관계가 선형
        • 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계
        • 곡선 회귀 : 독립변수가 1개이며 종속변수와의 관계가 곡선
        • 로지스틱 회귀 : 종속변수가 범주형인 경우 적용하며, 단순 로지스틱 회귀 및 다중, 다항 로지스틱 회귀로 확장 가능
        • 비선형 회귀 : 회귀식의 모양이 선형관계로 이뤄져 있지 않은 모형
      • 분산 분석 : 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산의 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법으로 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이를 판정하는 분석 방법
      • 주성분 분석 : 많은 변수의 분산 방식의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결함으로 추출하는 통계기법으로 일부 주성분에 의해 원래 변수의 변동이 충분히 설명되는지 알아보는 분석 방법
      • 판별 분석 : 집단에 대한 정보로부터 집단을 구별할 수 있는 판별규칙 혹은 판별함수를 만들고, 다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지를 탐색하는 통계기법
    • 데이터 마이닝 기반 분석 모형 선정 : 대용량 데이터로부터 데이터 내에 존재하는 패턴, 관계 혹은 규칙 등을 탐색하고 통계적인 기법들을 활용하여 모델화 하며 이를 통해 데이터 분석 및 더 나아가 유용한 정보, 지식 등을 추출하는 과정
      • 분류 모델 : 범주형 변수 혹은 이산형 변수 등의 범주를 예측하는 것으로 다수의 속성 혹은 변수를 가지는 객체들을 사전에 정해진 그룹이나 범주 주의 하나로 분류하는 모델로 통계적 기법, 트리 기반 기법, 최적화 기법, 기계학습 모델이 있다.
      • 예측 모델 : 범주형 및 수치형 등의 과거 데이터로부터 특성을 분석하여 다른 데이터의 결괏값을 예측하는 기법
        • 회귀 분석 : 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법
        • 의사결정나무 : 의사결정 규칙을 트리구조로 도표화하여 분류와 예측을 수행하는 분석방법으로 판별분석, 회귀 분석 등과 같은 변수 모형을 분석하기 위해 사전에 이상값을 검색할 때도 사용 가능
        • 시계열 분석 : 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석 기법
        • 인공신경망 : 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 예측 모델
      • 군집화 모델 : 이질적인 집단을 몇 개의 동직적인 소집단으로 세분화하는 작업으로 각 개체에 대해 관측된 여러 개의 변숫값에서 유사한 성격을 갖는 몇 개의 군집으로 집단화하여 군집들 사이의 관계를 분석하는 다변량 분석 기법이다.
        • 계층적 방법 : 사전에 군집 수를 정하지 않고 단계적으로 단계별 군집결과를 산출하는 방법
          • 병합적 방법 : 각 객체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성하는 방법
          • 분할적 방법 : 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리하는 방법
        • 비 계층적 방법 : 군집을 위한 소집단의 개수를 정해놓고 각 객체 중 하나의 소집단으로 배정하는 방법
      • 연관규칙 모델 : 데이터에 숨어 있으면서 동시에 발생하는 사건 혹은 항목 간의 규칙을 수치화 하는 기법
    • 머신러닝 기반 분석 모형 선정 : 목적변수 존재여부 등에 따라 지도 학습, 강화학습, 준지도 학습으로 구분된다.
      • 지도 학습 : 정답인 레이블이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법으로 설명변수와 목적변수 간의 관계성을 표현해내거나 미래 관측을 예측해내는 것에 초점이 있으며 주로 인식, 분류, 진단, 예측 등의 문제 해결에 적합하다
        • 로지스틱 회귀 : 반응변수가 범주형인 경우 적용되는 회귀 분석 모형
        • 인공신경망 분석 : 인간의 뉴런 구조를 모방하여 만든 기계학습 모델
        • 의사결정나무 : 데이터들이 가진 속성들로부터 분할 기준 속성을 판변하고 분할 기준 속성에 따라 트리 형태로 모델린 하는 분류 및 예측 모델
        • 서포트 벡터 머신 : 데이터를 분리하는 초평면 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도 학습 기반의 이진 선형 분류 모델
        • 랜덤 포레스트 : 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
        • 감성 분석 : 어떤 주제에 대한 주관적인 인산, 감정, 태도, 개인의 의견들을 텍스트로부터 뽑아내는 분석
      • 비지도 학습 : 입력 데이터에 대한 정답인 레이블이 없는 상태에서 훈련데이터를 통해 학습시킨 방법으로 목적변수에 대한 정보없이 학습이 이루어지는 방법
      • 강화 학습 : 선택 가능한 행동 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 학습 방법
      • 준지도 학습 : 정답인 레이블이 포함되어 잇는 훈련 데이터와 레이블이 없는 훈련 데이터를 모두 사용하는 학습 방법
    • 변수에 따른 분석 기법 선정 : 변수의 유형 및 개수를 확인하는 단계로 이에 따른 모델을 검토한다.
      • 변수개수에 따른 분석 기법
        • 단일변수 분석 : 변수 하나에 대해 기술 통계 확인을 하는 기법으로 연속형 변수는 히스토그램이나 박스 플롯을 사용해서 평균, 최빈수, 중위수 등과 함께 각 변수의 분포를 확인
        • 이변수 분석 : 변수 2개 간의 관계를 분석하는 기법으로 변수의 유형에 따라 적절한 시각화 및 분석 방법 선택
        • 다변수 분석 : 세 개 이상의 변수 간의 관계를 시각화, 분석하는 기법으로 범주형 변수가 하나 이상 포함된 경우 변수를 범주에 따라 쪼갠 후, 단변수나 이변수 분석 방법에 따라 분석
      • 독립변수와 종속변수의 데이터 유형에 따른 분석 기법 
        • 연속형변수-연속형변수 :  회귀 분석, 인공신경망 모델, K-최근접 이웃기법, 의사결정나무
        • 연속형변수-이산형/범주형 변수 : 로지스틱 회귀 분석, 판별 분석, K-최근접 이웃기법, 의사결정나무
        • 이산형/범주형 변수-연속형변수 : 회귀 분석, 인공신경망 모델, 의사결정나무
        • 이산형/범주형 변수-이산형/범주형 변수 : 인공신경망 모델, 의사결정나무, 로지스틱 회귀 분석
    • 분석 모형 활용 사례
      • 연관규칙학습 : 변인 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
      • 분류 분석 : 문서를 분류하거나 조직을 구룹으로 나눌 때, 또는 온라인 수강생들을 특성에따라 분류할 때 사용
      • 유전자 알고리즘 : 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법
      • 기계학습 : 알려진 특성을 활용하여 훈련 데이터를 학습시키고 예측하는 기법
      • 회귀 분석 : 독립변수의 조작에 따른 종속변수의 변화를 확인하여 두 변수 간의 관계를 파악할 때 사용
      • 감성 분석 : 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
      • 소셜 네트워크 분석 : 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력 있는 사람을 찾아낼 때 사용
    • 분석 모형 정의 : 분석 모형을 선정하고 모형에 적합한 변수를 선택하여 모형의 사양을 작성하는 기법
      • 매개변수 : 모델 내부에서 확인이 가능한 변수로 데이터를 통해서 산출이 가능한 값, 모델에 의해 요구되어지는 값들, 모델의 성능을 결정
      • 초매개변수 : 모델에서 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해주는 값
    • 분석 모형 구축 절차
      1. 요건 정의 : 기획단계의 분석과제 정의를 통해 도출된 내용을 요건 정의로 구체화하는 과정
        • 분석요건 도출 : 기획단계보다 상세하게 분석요건을 추출, 분석, 명세화하고 종합적으로 적합성을 검토하고, 데이터 분석 업무의 배경, 주요 이슈, 기대효과, 제약 사항을 사전에 정의하고 이해관계자들과 협의하여 확정
        • 수행방안 설계 : 간단한 탐색적 분석을 수행하여 가설을 수립해 분석 가능성을 검토하고 권한 및 계정을 확보하여 데이터베이스 접근 환경을 구축하고, 분석 대상 데이터의 존재 여부를 확인하는 등 간단한 기초분석을 수행
        • 요건 확정 : 요건도웇ㄹ과 분석계획으로 수립된 기획안을 이해관계자와 공유하여 최종 요건을 확정
      2. 모델링 : 요건 정의에 따라 상세 분석 기법을 적용해 모델을 개발하는 과정
        • 모델링 마트 설계 및 구축 : 다양한 원천 데이터로부터 분석 대상 데이터를 획득하여 분석 대상 데이터의 탐색, 정제, 요약 등의 전처리를 통해 변수를 식별하고, 구조화하여 모델 마트를 설계
        • 탐색적 분석와 유의 변수 도출 : 유의미한 변수를 파악하기 위해 목푯값별로 해당 변수의 분포된 값을 보고 해당 변수의 구간에서 차이가 큰지를 파악하고 시뮬레이션을 통해 사전에 수립된 분석 모형의 타당성과 적합성을 판단해 반복적으로 보정
        • 모델링 : 다양한 모델링 기법 중에서 업무 특성에 적합한 기법을 선택하거나 여러 모델링 기법을 결합해 적용해보고 프로세스 및 자원에 대한 제약이 있고 입력값이 확률 분포이면 시뮬레이션 기법을, 프로세스 및 자원에 대한 제약이 있고 상숫값을 가질때는 최적화 기법을 사용
        • 모델링 성능 평가 : 정확도, 정밀도, 재현율, 향상도 등의 값으로 판단하며, 시뮬레이션에서는 처리량, 평균대기시간등의 지표를 사용
      3. 검증 및 평가 : 분석 데이터를 훈련과 평가 데이터로 분리한 다음, 분석 데이터를 이용해 자체 검증 후 실제 평가에서는 신규 데이터 모델을 적용해 결과를 도출하는 단계
        • 운영 상황에서 실제 테스트 : 운영 상황에서 실제 테스트는 분석결과를 업무 프로세스에 가상으로 적용해 검증하는 실무 적용 직전의 활동
        • 비즈니스 영향도 평가 : ROI를 산출해 해당 분석에 투자한 비용 대비 재무 효과가 200%~300% 이상임을 증명하고, 투자 대비 효과 정량화 기법으로 비즈니스 영향도를 평가
      4. 적용 : 분석결과를 업무 프로세스에 완전히 통합해 실제 일, 주, 월 단위로 운영하는 단계
        • 운영 시스템에 적용과 자동화 : 선정된 기법으로 분석 모형을 실제 운영환경에 적용하는 활동
        • 주기적 리모델링 : 데이터 마이닝, 최적화 모델링 결과를 정기적으로 재평가해 결과에 따라 필요시 분석 모형을 재조정
반응형

'빅데이터 이론' 카테고리의 다른 글

[빅분기] 분석 기법-2  (0) 2022.08.30
[빅분기] 분석 기법-1  (0) 2022.08.30
[빅분기] 추론통계  (0) 2022.08.30
[빅분기] 통계기법 이해  (0) 2022.08.30
[빅분기] 고급 데이터 탐색  (0) 2022.08.29

댓글