- 인공신경망 : 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 기계학습 모델로서 입력값을 받아서 출력값을 만들기 위해 활성화 함수를 사용한다.
- 인공신경망의 구조
- 퍼셉트론 : 인간의 신경망에 있는 뉴런의 모델을 모방하여 입력층, 출력층으로 구성한 인공신경망 모델로 구성요소로는 입력값, 가중치, 순 입력함수, 활성화 함수, 예측값으로 되어 있다.
- 다층 퍼셉트론 : 입력층과 출력층 사이에 하나 이상의 은닉층을 두어 비선형적으로 분리되는 데이터에 대해 학습이 가능한 퍼셉트론으로, 구성요소로는 입력층, 은닉층, 출력층으로 구성하고 역전파 알고리즘을 통해 다층으로 만들어진 퍼셉트론의 학습이 가능하다.
- 문제점
- 과대 적합 : 훈련 데이터가 부족하여 훈련 데이터에는 잘 동작하지만, 실제 데이터에는 예측을 못하는 문제점이 존재함
- 기울기 소실 : 역전파 알고리즘은 학습하는 과정에서 출력층 -> 은닉층 -> 입력층 방향으로 편미분을 진행하는데, 다층 퍼셉트론의 활성화 함수인 시그모이드 함수는 편미분을 진행할수록 0으로 근접해져 경사가 소실되는 문제점이 있다.
- 문제점
- 뉴런의 활성화 함수 : 순 입력함수로부터 전달받은 값을 출력값으로 변환해 주는 함수
- 종류
- 계단함수 : 임곗값을 기준으로 활성화 또는 비활성화가 됨
- 부호함수 : 임곗값을 기준으로 양의 부호 또는 음의 부호를 출력
- 시그모이드 함수 : 인공 뉴런의 활성화 함수인 실함수로서 유한한 영역을 가지는 집합이고 미분 가능하며, 모든 점에서 음이 아닌 미분 값을 가지고 단 하나의 변곡점을 가지는 함수
- tanh 함수 : 하이퍼볼릭 탄젠트 함수라고 하며, 시그모이드 함수와 유사한 활성화 함수이다.
- ReLU : X값이 0보다 큰 경우 Y값도 지속적으로 증가하며, 시그모이드의 기울기 소실 문제를 해결했다.
- Leaky ReLU : ReLU 함수의 뉴런이 죽는 현상을 해결
- 소프트맥스 함수 : 출력층에서 다중 클래스 분류 모델을 만들기 위해 사용하고, 출력은 0~1 사이의 실수로 출력을 확률로 해석할수 있다.
- 종류
- 학습방법
- 순전파 : 입력층에서 출력층까지 정보가 전달되는 과정으로, 입력층에서 은닉층 방향으로 이동하면서 각 입력값의 가중치를 곱한다.
- 손실 함수 : 실젯값과 예측값의 차이를 비교하는 지표로, 값이 낮을수록 학습이 잘 된 것이라고 볼 수 있고, 정답과 알고리즘출력을 비교할 때 사용한다.
- 경사 하강법 : 기울기를 낮은 쪽으로 계속 이동시켜서 최적의 매개변수를 찾는 기법으로, 함수의 기울기를 구하고 경사의 절댓값이 낮은 쪽으로 계속 이동시켜 극값에 이를 때까지 반복시키는 기법
- 오차역전파 : 계산 결과와 정답의 오차를 구하고 오차와 관련된 값들의 가중치를 수정하여 오차가 작아지는 방향으로 일정 횟수를 반복해서 수정하는 방법
- 순전파 : 입력층에서 출력층까지 정보가 전달되는 과정으로, 입력층에서 은닉층 방향으로 이동하면서 각 입력값의 가중치를 곱한다.
- 학습절차
- 미니배치학습 : 훈련 데이터 중 일부를 무작위로 추출하는 과정으로, 추출한 데이터 묶음을 미니 배치 라고 한다.
- 기울기 산출 : 미니배치의 손실 함숫값을 줄이기 위해 각 가중치 매개변수의 기울기를 구하는 과정으로, 손실함수의 값을 가장 작게 하는 방향 제시
- 가중치 매개변수를 기울기 방향으로 조금씩 갱신하는 과정으로 경사하강법 적용
- 반복 : 최적값을 찾을 때까지 1~3 과정 반복
- 인공신경망의 구조
- 서포트 벡터 머신 : 벡터 공간에서 훈련 데이터가 속한 2개의 그룹을 분류하는 선형 분리자를 찾는 기하학적 모델로, 데이터를 분리하는 초평면 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도 학습 기반의 이진 선형 분류 모델이다.
- 서포트 벡터 머신의 구성요소
- 결정 경계 : 데이터 분류의 기준이 되는 경계
- 초평면 : n 차원의공간의 (n-1) 차원 평면
- 마진 : 결정 경계에서 서포트 벡터까지의 거리. 최적의 결정 경계는 마진을 최대화
- 서포트 벡터 : 훈련 데이터 중에서 결정 경계와 가장 가까이에 있는 데이터들의 집합
- 슬랙 변수 : 완벽한 분리가 불가능할 때 선형적으로 분류를 위해 허용된 오차를 위한 변수
- 서포트 벡터 머신 종류
- 하드 마진 SVM : 마진의 안쪽이나 바깥쪽에 절대로 잘못 분류된 오 분류를 허용하지 않는 SVM. 노이즈로 인하여 최적의 결정 경계를 잘못 구할 수도 있고, 못 찾을 경우도 발생할 수가 있음
- 소프트 마진 SVM : 마진의 안쪽이나 바깥쪽에 절대로 잘못 분류된 오 분류를 허용하는 SVM. 하드 마진 SVM은 적용하기가 어려우므로 어느 정도의 오류를 허용하는 소프트 마진 SVM을 주로 이용
- 장점 : 서포트 벡터만을 이용해서 결정 경계를 생성하므로 데이터가 적을 때 효과정이고, 새로운 데이터가 입력된면 전체 데이터 포인트와의 거리를 계산하지 않고 서포트 벡터와의 거리만 계산하면 되기 때문에 연산량 최소화. 정확성이 뛰어나며, 커널 트릭을 활용하여 비선형 모델 분류 가능. 다른 모형보다 과대 적합의 가능성이 낮고, 노이즈의 영향이 적음
- 단점 : 데이터 전처리 과정이 중요. 데이터 세트의 크기가 클 경우 모델링에 많은 시간이 소요됨. 데이터가 많아질수록 최적화된 테스트를 위한 테스트 과정이 많아져서 다른 모형에 비해 속도가 느림. 커널과 모델의 매개변수를 조절하기 위해 많은 테스트가 필요
- 서포트 벡터 머신의 구성요소
- 연관성 분석 : 데이터 내부에 존재하는 항목 간의 상호 관계 혹은 종속 관계를 찾아내는 분석기법으로, 데이터 간의 관계에서 조건과 반응을 연결하는 분석으로 장바구니 분석, 서열 분석이라고 한다.
- 연관성 분석 측정지표
- 지지도 : 전체 거래 중 항목 A와 B를 동시에 포함하는 거래의 비율
- 신뢰도 : A 상품을 샀을 때 B 상품을 살 조건부 확률에 대한 척도
- 향상도 : 규칙이 우연에 의해 발생한 것인지를 판단하기 위해 연관성의 정도를 측정하는 척도
- 연관성 분석 알고리즘
- 아프리오리 알고리즘 : 가능한 모든 경우의 수를 탐색하는 방식을 개선하기 위하여 데이터들으 ㅣ발생빈도가 높은 것을 찾는 알고리즘으로, 분석 대상이 되는 항목의 대상을 최소화하여 연관성 도출을 효율화한 연관분석 알고리즘으로 최소 지지도보다 큰 지지도 값을 갖는 빈발항목 집합에 대해서만 연관규칙을 계산하는 알고리즘이다.
- FP-Growth 알고리즘 : 아프리오리 알고리즘을 개선한 알고리즘으로 FP-Tree라는 구조를 통해 최소 지지도를 만족하는 빈발 아이템 집합을 추출하는 알고리즘으로, 데이터 세트가 큰 경우 모든 후보 아이템 세트들에 대하여 반복적으로 계산하는 단점이 있는 아프리오리 알고리즘을 개선한 알고리즘이다.
- 연관성 분석 측정지표
- 군집 분석 : 관측된 여러 개의 변숫값들로부터 유사성에만 기초하여 n개의 군집으로 집단화하여 집단의 특성을 분석하는 다변량 분석 기법으로, 레이블이 없는 데이터 세트의 요약 정보를 추출하고, 요약 정보를 통해 전체 데이터 세트가 가지고 있는 특징을 발견하는 것이다.
- 분류 : 사전 정의된 범주가 있는 데이터로부터 예측 모델을 학습하는 문제로, 기법으로는 K-최근접 이웃, 의사결정나무, 베이지안정리, 인공신경망, 서포트 벡터 머신이 있다.
- 군집 : 사전 정의된 범주가 없는 데이터에서 최적의 그룹을 찾아가는 문제로, 기법으로는 계층적 군집, k-평균 군집, 자기 조직화 지도이 있다.
- 연속형 변수 거리
- 유클리드 거리 : 두 점 간 차를 제곱하여 모두 더한 값의 양의 제곱근
- 맨하탄 거리 : 시가 거리라고 불리며, 두 점 간 차의 절댓값을 합한 값
- 민코프스키 거리 : m차원 민코프스키공간에서의 거리
- 표준화 거리 : 변수의 측정단위를 표준화한 거리
- 마할라노비스 거리 : 변수의 표준화와 함께 변수 간의 상관성을 동시에 고려한 통계적 거리
- 명목형 변수 거리
- 단순 일치 계수 : 전체 속성 중에서 일치하는 속성의 비율
- 자카드 계수 : 두 집합 사이의 유사도를 측정하는 방법으로, 0과 1사이의 값을 가지며 두 집합이 동일하면 1의 값, 공통의 원소가 하나도 없으면 0의 값을 가짐
- 순서형 변수 거리
- 순위상관계수 : 값에 순위를 매겨 그 순위에 대해 상관계수를 구하는 방법
- 계층적 군집 분석 : 유사한 개체를 군집화하는 과정을 반복하여 군집을 형성하는 방법
- 최단연결법 : 두 군집 사이의 거리를 각 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최솟값으로 측정해서 가장 유사성이 큰 군집으로 병합해 나가는 방법으로, 대부분의 관측치가 멀리 떨어져 있어도 하나의 관측치만 다른 군집과 가까이 있으면 병합 가능하므로 길게 늘어진 사슬 형태의 군집이 형성된다.
- 최장연결법 : 두 군집 사이의 거리를 각 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최댓값으로 측정하여 가장 유사성이 큰 군집으로 병합해 나가는 방법으로, 내부 응집성에 중점을 둔 방법으로 둥근 형태의 군집이 형성
- 중심연결법 : 두 군집의 중심 간의 거리를 측정하여 가장 유사성이 큰 군집으로 병향해 나가는 방법으로, 두 군집이 결합될 때 새로운 군집의 평균은 가중 평균을 통해 구하고, 군집 내 편차들의 제곱합을 고려하여 군집 간 정보의 손실을 최소화하는 방향으로 군집을 형성한다.
- 평균 연결법 : 모든 항목에 대한 거리 평균을 구하면서 가장 유사성이 큰 군집을 병합해 나가는 방법으로, 계산량이 불필요하게 많아질 수 있다.
- 와드연결법 : 군집 간의 거리에 기반하는 다른 연결법과는 다른 군집 내의 오차제곱합에 기초하여 군집을 수행하는 방법으로, 군집의 병합으로 인한 오차제곱합의 증가량이 최소가 되는 방향으로 군집을 형성한다.
- k-평균 군집 : 주어진 데이터를 k개의 군집으로 묶는 알고리즘으로 k개만큼 군집수를 초깃값으로 지정하고, 각 개체를 가까운 초깃값에 할당하여 군집을 형성하고 각 군집의 평균을 재계산하여 초깃값을 갱신하는 과정을 반복하여 k개의 최종 군집을 형성하는 방법
- k값 선정 기법
- 엘보우 기법 : x축에 클러스터의 개수를 y축에 SSE값을 두었을때 기울기가 완만한 부분에 해당하는 클러스터를 선택하는 기법
- 실루엣 기법 : 각 군집 간의 거리가 얼마나 분리되어 있는지를 나타내는 기법으로, 실루엣 계수는 1에 가까울수록 군집 간 거리가 멀어서 최적화가 잘 되어 있다고 할 수 있고, 0에 가까울수록 군집 간 거리가 가까워서 최적화가 잘 안 되어 있다고 할 수 있다.
- 덴드로그램 : 계측적 군집 분석의 덴드로그램 시각화를 이용하여 군집의 개수 결정
- k값 선정 기법
- 혼합 분포 군집 : 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 자료로부터 모수와 가중치를 추정하는 방법으로, 확률 분포를 도입하여 군집을 수행하고, 이상값에 민감하므로 이상값 제거 등의 사전 조치가 피룡하다.
- 가우시안 혼합 모델 : 전체 데이터의 확률분포가 k개의 가우시안 분포의 선형 결합으로 이뤄졌음을 가정하고 각 분포에 속할 확률이 높은 데이터 간으 ㅣ군집을 형성하는 방법
- EM 알고리즘 : 관측되지 않은 잠재변수에 의존하는 확률모델에서 최대 가능도나 최대 사후 확률을 갖는 모수의 추정값을 찾는 반복적인 알고리즘
- DBSCAN 알고리즘 : 개체들의 밀도 계산을 기반으로 밀접하게 분포된 개체들끼리 그룹핑하는 알고리즘으로, 클러스터의 개수를 미리 지정할 필요가 없고, 군집 밀도에 따라서 군집을 서로 연결하기 때문에 기하학적인 모양의 군집 분석이 가능하다.
- 구성요소
- 중심점 : 주변 반경내에 최소 데이터 개수 이상의 다른 데이터를 가지고 있는 데이터로서, 반경 내에 존재해야 하는 최소 데이터 개수는 일종의 초매개변수로 설정해주어야 한다.
- 이웃점 : 특정 데이터 주변 반경 내에 존재하는 다른 데이터
- 경계점 : 중심점은 아니지만, 중심점이 주변 반경 내에 존재하는 데이터로, 중심점을 중심으로 하는 군집에는 포함되며, 주로 군집의 외곽을 이룬다.
- 잡음점 : 중심점도 아니고 경계점 조건도 만족하지 못하는 이웃점
- 구성요소
- SOM 알고리즘 : 대뇌피질과 시각피질의 학습 과정을 기반으로 모델화한 인공신경망으로 자율 학습 방법에 의한 클러스터링 방법을 적용한 알고리즘으로, 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화한 비지도 신경망이다.
- 구성요소
- 입력층 : 입력 벡터를 받는 층으로 입력변수의 개수와 동일하게 뉴런 수가 존재한다. 입력층의 자료는 학습을 통하여 경쟁층에 정렬되는데 이를 지도라고 부른다.
- 경쟁층 : 2차원 격자로 구성된 층으로 입력 벡터의 특성에 따라 벡터의 한 점으로 클러터링되는 층
- 구성요소
반응형
'빅데이터 이론' 카테고리의 다른 글
[빅분기] 평가 지표 및 검증 (0) | 2022.08.31 |
---|---|
[빅분기] 고급 분석 기법 (0) | 2022.08.31 |
[빅분기] 분석 기법-1 (0) | 2022.08.30 |
[빅분기] 분석 절차 수립 (0) | 2022.08.30 |
[빅분기] 추론통계 (0) | 2022.08.30 |
댓글