본문 바로가기
빅데이터 이론

[빅분기] 고급 분석 기법

by BoomBear 2022. 8. 31.
  • 다변량 분석 : 여러 현상이나 사건에 대한 측정치를 개별적으로 분석하지 않고 동시에 분석하는 통계적 기법으로, 각 변수를 개별적으로 분석하지 않고 동시에 분석하여 여러 변수 간의 관계성을 고려한다.
    • 다중 회귀분석 : 독립변수가 K개이며 종속변수와의 관계가 선형인 회귀분석 기법으로, 다수의 독립변수의 변화에 따른 종속변수의 변화를 예측하는 데 활용
    • 다변량 분산 분석 : 독립변수가 1개 이상이고 종속변수가 2개 이상일 때 두 집단 간 평균 차이를 검증하는 기법
    • 판별 분석 : 분류된 집단 간의 차이를 설명해 줄 수 있는 독립변수들로 이루어진 최적판별식을 찾기 위한 기법
    • 다차원 척도법 : 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 방법
    • 군집 분석 : 관측된 여러 개의 변숫값들로부터 유사성에만 기초하여 n개의 군집으로 집단화하여 집단의 특성을 분석하는 기법
    • 요인 분석 : 데이터 안에 관찰할 수 없는 잠재적인 변수가 존재한다고 가정하였을때 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법
    • 주성분 분석 : 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법
  • 다차원 척도법 종류
    • 계량적 다차원 척도법 : 데이터가 연속형 변수인 경우로 구간 척도나 비율 척도에 사용하고, 유클리드 거리 행렬을 이용하여 개체들 간의 실제거리를 계산하고 개체들 간의 비유사성을 공간상에 표현한다.
    • ㅁ비 계량적 다차원 척도법 : 데이터가 순서 척도인 경우에 사용하고, 개체들 간 거리가 순서로 주어진 경우에는 개체들 간 절대적 거리는 무시하고 순서척도를 거리의 속성과 같도록 변환하여 거리를 생성한다.
  • 주성분 분석 절차
    1. 축 생성 : 데이터 변동성이 가장 큰 방향으로 축 생성한다.
    2. 축에 데이터 투영 : 새로운 축으로 데이터 투영한다.
    3. 차원 축소 : 새로운 축을 기준으로 데이터 표현한다. 만약 2차원에서 1차원으로 축소하는 경우이다.
  • 주성분 개수 선택 방법
    • 누적 기여율 : 표준편차를 제곱하면 해당 주성분의 분산 값을 구할 수 있다. 분산 기여율이 1에 가까울수록 원래 데이터에 대한 설명력이 크다. 누적 기여율이 85% 이상인 지점까지를 주성분의 수로 결정
    • 스크리 산점도 : x축에 주성분, y축에 각 주성분의 분산을 표현한 그래프로, 기울기가 완만해지는 직전까지를 주성분 수로 결정한다.
  • 시계열 분석 : 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석 기법
    • 정상성 : 시점에 상관없이 시계열의 특성이 일정하다는 의미이며, 시계열 분석을 위해서는 정상성을 만족해야 한다. 조건으로는 평균이 일정하며, 분산이 시점에 의존하지 않고, 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다.
    • 자기 회귀 모형 : 현시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명 될 수 있는 모형
    • 이동 평균 모형 : 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 시계열 모형으로 MA 모형이라고 하며, 주기나 불규칙성을 가지고 있는 시계열 데이터의 특성을 토대로 과거의 몇 개 관측치를 평균하여 전반적인 추세를 파악할 수 있는 방법으로 예측치를 구한다.
    • 자기 회귀 누적 이동평균 모형 : 분기/반기/연간 단위로 다음지표를 예측하거나 주간/월간 단위로 지표를 리뷰하여 트렌드를 분석하는 기법으로, 기본적으로 비정상 시계열 모형이기 때문에 차분이나 변환을 통해 AR 모형이나 MA 모형, ARMA 모형으로 정상화 할수 잇다.
    • 차수 
      • p : AR 모형과 관련이 있는 차수
      • q : MA 모형과 관련이 있는 차수
      • d : ARIMA에서 ARMA로 정상화할 때 차분 횟수
    • 시계열 분해 : 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
      • 구성요소
        • 추세 요인 : 자료가 어떤 특정한 형태를 취함
        • 계절 요인 : 고정된 주기에 따라 자료가 변화할 경우
        • 순환 요인 : 알려지지 않은 주기를 가지고 자료가 변화
        • 불규칙 요인 : 추세, 계절, 순환 요인으로 설명할 수 없는 회귀 분석에서 잔차에 해당하는 요인
  • 딥러닝 분석 : 여러 비선형 변환 기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계 학습 알고리즘
    • DNN 알고리즘 : 은닉층을 심층 구성한 신경망으로 학습하는 알고리즘으로, 입력층, 다수의 은닉층, 출력층으로 구성되고, 입력층에서 가중치가 곱해져 은닉층으로 이동시키고, 은닉층에서도 가중치가 곱해지면서 다음 계층으로 이동한다. 
    • CNN 알고리즘 : 시각적 이미지를 분석하는 데 사용되는 심층신경망으로 합성곱 신경망이라고도 한다. 
    • RNN 알고리즘 : 입력층, 은닉층, 출력층으로 구성되며 은닉층에서 재귀적인 신경망을 갖는 알고리즘으로, 음성신호, 연속적 시계열 데이터 분석에 적합하다
  • 비정형 데이터 분석 : 비정형 데이터 안에서 체계적인 통계적 규칙이나 패턴을 탐색하고 이를 의미 있는 정보로 변환함으로써 기업의 의사결정에 적용하는 분석 기법
    • 텍스트 마이닝 : 텍스트 형태로 이루어진 비정형 데이터들을 자연어 처리 방식을 이용해 정보를 추출하는 기법으로, 비정형화된 문서에서 정보를 습득 가능하다.
    • 오피니언 마이닝 : 주관적인 의견이 포함된 데이터에서 사용자가 게재한 의견과 감정을 나타내는 패턴을 분석하는 기법으로, 긍정, 부정, 중립으로 선호도를 판별한다.
    • 웹 마이닝 : 웹에서 발생하는 고객의 행위 분석과 특성 데이터를 추출, 정제하여 의사결정에 활용하기 위한 기법
    • 사회 연결망 분석 : 그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석 기법
  • 앙상블 분석 : 여러 가지 동일한 종류 또는 서로 상이한 모형들의 예측/분류 결과를 종합하여 최종적인 의사결정에 활용하는 기법
    • 배깅 : 훈련 데이터에서 다수의 부트스트랩 자료를 생성하고, 각 자료를 모델링한 후 결합하여 최종 예측 모형을 만드는 알고리즘
    • 부스팅 : 잘못 분류된 개체들에 가중치를 적용, 새로운 분류 규칙을 만들고, 이 과정을 반복해 최종 모형을 만드는 알고리즘
    • 랜덤 포레스트 : 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
  • K-NN : 새로운 데이터 클래스를 해당 데이터와 가장 가까운 k개의 데이터를 클래스로 분류하는 알고리즘

 

반응형

'빅데이터 이론' 카테고리의 다른 글

[빅분기] 분석 모형 개선 방안  (0) 2022.08.31
[빅분기] 평가 지표 및 검증  (0) 2022.08.31
[빅분기] 분석 기법-2  (0) 2022.08.30
[빅분기] 분석 기법-1  (0) 2022.08.30
[빅분기] 분석 절차 수립  (0) 2022.08.30

댓글