[빅분기] 분석 모형 개선 방안

과대 적합 : 제한된 훈련 데이터 세트가 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상으로, 모델의 매개변수 수가 많거나 훈련데이터 세트의 양이 부족한 경우에 발생한다.
- 훈련 데이터 : 관측된 데이터를 좌표계로 표현함
- 일반화 : 테스트 데이터에 대한 높은 성능을 갖춤
- 과대 적합 : 모델이 훈련 데이터에 너무 잘 맞지만, 일반화가 떨어짐
- 과서 적합 : 모델이 너무 단순하여 데이터의 내재된 구조를 학습하지 못할 때 발생
과대 적합 발생 원인
- 훈련 데이터는 실제 데이터의 부분 집합이라서 실제 데이터의 모든 특성을 가지고 있지 않을 수 있다.
- 과대 적합의 발생 원인은 실제 데이터에서 편향된 부분만을 가지고 있거나 오류가 포함된 값을 가지고 있을 경우 발생할 수 있다.
- 모델이 과도하게 복잡하거나, 변수가 지나치게 많을 때도 과대 적합이 발생할 수 있다.
과대 적합 방지방법
- 데이터 증강 : 모델은 훈련 데이터 세트의 양이 적을 경우, 해당 데이터의 특정 패턴이나 노이즈까지 분석되어 과대 적합 현상이 발생할 확률이 높으므로 충분한 데이터 세트를 확보해야 한다. 데이터의 양이 적을 경우, 데이터를 변형해서 늘릴 수 있다.
- 모델의 복잡도 감소 : 인공신경망의 복잡도는 은닉층의 수나 모델의 수용력 등으로 결정된다. 관대 적합 현상이 발생할 때 인공신경망의 은닉층의 수를 감소하거나 모델의 수용력을 낮추어 복잡도를 줄일 수 있다.
- 가중치 규제 적용 : 개별 가중치 값을 제한하여 복잡한 모델을 좀 더 간단하게 하는 방법으로, 복잡한 모델은 많은 수의 매개변수를 가진 모델로 과대 적합될 가능성이 크다.
  - L1 노름 규제(라쏘) : 기존 비용 함수에 모든 가중치 w들의 절댓값 합계를 추가하여 값이 최소가 되도록 함
  - L2 노름 규제(릿지) : 기존 비용 함수에 모든 가중치 w들의 제곱합을 추가함
  - Elastic Net : 기존 비용 함수에 L1 노름 규제, L2 노름 규제를 추가함. 알파와 베타의 조합에 따라 노름을 조절하여 정규화를 할 수 있다.
- 드롭아웃 : 학습 과정에서 신경망 일부를 사용하지 않는 방법
  - 초기 드롭아웃 : 학습 과정에서 노드들을 p의 확률로 학습 횟수마다 임의로 생략하고, 남은 노드들과 연결 선들만을 이용하여 추론 및 학습을 수행하는 기법
  - 공간적 드롭아웃 : 합성곱 계층에서의 드롭아웃으로, 특징 맵 내의 노드 전체에 대해 드롭아웃의 적용 여부를 결정하는 기법
  - 시간적 드롭아웃 : 노드들을 생략하는 방식이 아니라 연결선 일부를 생략하는 방식으로 Drop Connection 방식의 개선 기법
매개변수 : 주어진 데이터로부터 학습을 통해 모델 내부에서 결정되는 변수
- 가중치 : 각 입력값에 각기 다르게 곱해지는 수치
- 편향 : 하나의 뉴런에 입력된 모든 값을 다 더한 값에 더해주는 상수
매개변수 최적화 : 학습 모델과 실제 레이블과 차이는 손실 함수로 표현되며, 학습의 목적은 오차, 손실 함수의 값을 최대한 작게 하도록 하는 매개변수를 찾는 것이다.
- 확률적 경사 하강법 : 손실 함수의 기울기를 구하여, 그 기울기를 따라 조금씩 아래로 내려가 최종적으로 손실 함수가 가장 작은 지점에 도달하도록 하는 알고리즘으로, 기울기를 구하는데 학습 1회에 필요한 한 개의 데이터가 무작위로 선택이 되어 확률적이라고 한다. 특징으로는 기울기가 줄어드는 최적점 근처에서 느리게 진행하고, 탐색 경로가 지그재그로 크게 변한다.
- 모멘텀 : 기울기 방향으로 힘을 받으면 물체가 가속된다는 물리 법칙을 적용한 알고리즘으로, 확률적 경사 하강법에 속도라는 개념을 적용한다. 특징으로는 빠르게 최적점으로 수렴하고, 확률적 경사 하강법과 비교하면 지그재그 정도가 덜하다.
- 네스테로프 모멘텀 : 모멘텀 방향과 현재 위치에서의 기울기를 반영한 모멘텀 최적화 알고리즘과는 다르게 모멘텀 방향을 미리 적용한 위치에서 기울기를 계산하는 방법이다. 특징으로는 속도를 개선한 것으로 불필요한 계산량을 줄이고 정확도를 향상하고, 이동할 방향에서 기울기를 다시 계산하기 때문에 진동을 감소시키고 수렴을 빠르게 만들어 준다.
- AdaGrad : 손실 함수의 기울기가 큰 첫 부분에서는 크게 학습하다가, 최적점에 가까워질수록 학습률을 줄여 조금씩 적게 학습하는 방식으로 학습을 진행하면서 학습률을 점차 줄여나가는 학습률 감소 기법을 적용한 최적화 알고리즘이다. 매개 변수 전체의 학습률 값을 일괄적으로 낮추는 것이 아니라 각각의 매개변수에 맞는 학습률 값을 만들어주는 방식이다. 특징으로는 처음에는 큰 폭으로 움직이지만, 그 큰 움직임에 비례하여 갱신 정도도 큰 폭으로 작어지며, 갱신 강도가 빠르게 약하지고, 지그재그 움직임이 눈에 띄게 줄어들어 빠르게 최적점으로 수렴한다.
- Adam : 모멘텀 방식과 AdaGrad 방식의 장점을 합친 알고리즘으로 최적점 탐색 경로 또한 이 두 방식을 합친 것과 비슷한 양상으로 나타난다. 특징으로는 탐색 경로의 전체적인 경향은 모멘텀 방식처럼 공이 굴러가는 듯하고, AdaGrad로 인해 갱신 강도가 조정되므로 모멘텀 방식보다 좌우 흔들림이 덜 한 것을 볼 수 있다.
- RMSProp : 기울기를 단순 누적하지 않고 지수 이동 평균을 사용하여 가장 최근의 기울기들이 더 크게 반영되도록 하는 기법으로, AdaGrad가 가지고 있는 이전 기울기의 누적값이 같은 특성으로 인해 학습률이 점점 낮아지는 문제를 개선한 기법이다. 특징으로는 과거의 모든 기울기를 균일하게 더하지 않고 새로운 기울기의 정보만 반영하여 학습률이 크게 떨어져 0에 가까워지는 것을 방지한다.

'빅데이터 이론' 카테고리의 다른 글

[빅분기] 분석 결과 활용 (0)	2022.09.01
[빅분기] 데이터 시각화 (0)	2022.09.01
[빅분기] 평가 지표 및 검증 (0)	2022.08.31
[빅분기] 고급 분석 기법 (0)	2022.08.31
[빅분기] 분석 기법-2 (0)	2022.08.30