본문 바로가기

빅분기21

[빅분기] 분석 기법-2 인공신경망 : 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 기계학습 모델로서 입력값을 받아서 출력값을 만들기 위해 활성화 함수를 사용한다. 인공신경망의 구조 퍼셉트론 : 인간의 신경망에 있는 뉴런의 모델을 모방하여 입력층, 출력층으로 구성한 인공신경망 모델로 구성요소로는 입력값, 가중치, 순 입력함수, 활성화 함수, 예측값으로 되어 있다. 다층 퍼셉트론 : 입력층과 출력층 사이에 하나 이상의 은닉층을 두어 비선형적으로 분리되는 데이터에 대해 학습이 가능한 퍼셉트론으로, 구성요소로는 입력층, 은닉층, 출력층으로 구성하고 역전파 알고리즘을 통해 다층으로 만들어진 퍼셉트론의 학습이 가능하다. 문제점 과대 적합 : 훈련 데이터가 부족하여 훈련 데이터에는 잘 동작하지만, 실제 데이터에는 예측을.. 2022. 8. 30.
[빅분기] 분석 기법-1 회귀 분석 : 독립변수와 종속변수 간에 선형적인 관계를 도출해서 하나 이상의 독립변수들이 종속변수에 미치는 영향을 분석하고, 독립변수를 통해 종속변수를 예측하는 분석 기법 회귀 모형의 가정 선형성 : 독립변수와 종속변수가 선형적이어야 한다는 특성으로 독립변수의 변화에 따라 종속변수도 일정 크기로 변화한다. 독립성 : 단순선형 회귀 분석에서는 잔차와 독립변수의 값이 서로 독립적이어야 한다는 특성으로, 다중선형 회귀 분석에서는 독립변수 간 상관성이 없이 독립적이어야 하고, 통계량으로는 더빈-왓슨 검정을 통해 확인 가능하다. 등분산성 : 잔차의 분산이 독립변수와 무관하게 일정해야 한다는 특성으로, 잔차가 고르게 분포되어야 한다. 비상관성 : 관측치와 잔차는 서로 상관이 없어야 한다는 특성으로, 잔차끼리 서로 .. 2022. 8. 30.
[빅분기] 분석 절차 수립 분석 모형 선정 : 분석 목적에 부합하고 수집된 데이터의 변수들을 고려하여 적합한 빅데이터 분석 모형을 선정한다. 통계기반 분석 모형 선정 : 불확실한 상황에서 객관적인 의사결정을 수행하기 위해 데이터를 수집하고, 처리, 분류, 분석 및 해석하는 일련의 체계를 통계분석이라고 한다. 기술 통계 : 데이터 분석의 목적으로 수집된 데이터를 확률, 통계적으로 정리, 요약하는 기초적인 통계로 평균, 분산, 표준편차, 왜도, 첨도, 빈도 등 데이터에 대한 대략적인 통계적 수치를 계산하고 도출한다. 상관 분석 : 두 개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법으로 변수의 개수 및 데이터 속성에 따라서 세부 모델들로 분류한다. 단순상관 분석 : 두 변수 사이의 연관 관계 분석 다중상관 분.. 2022. 8. 30.
[빅분기] 추론통계 모집단의 표본을 가지고 모집단의 특성을 추론하고 그 결과의 신뢰성을 검정하는 통계적 방법으로, 표본의 개수가 많을수록 표본오차는 감소한다. 점 추정 : 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법으로 신뢰도를 나타낼 수 없는 단점이 있어 구간 추정을 주로 사용한다. 점 추정 조건 불편성/불편의성 : 추정량의 기댓값이 모집단의 모수와 차이가 없다는 특성으로 불편 추정량은 모수를 중심으로 분포 효율성 : 추정량의 분산이 작을수록 좋다는 특성으로 추정량의 효율은 항상 1 이하이고, 효율이 1인 추정량을 최대효율 추정량이라고 함 일치성 : 표본의 크기가 아주 많이 커지면, 추정량이 모수와 거의 같이진다는 특성으로 일치성을 가지는 추정량을 일치 추정량을 통해 확인 충족성/춘분성 : 추정량은 모수.. 2022. 8. 30.