- 데이터 모델에서 사용하는 예측을 수행하는 데 사용되는 입력변수이며, RDBMS에서는 속성이라고 부른다.
- 유형
- 독립변수 : 종속변수의 값에 영향을 미쳐 종속변수가 특정한 값을 갖게 되는 원이 된다고 가정한 변수로 연구자가 의도적으로 변화시키는 변수이다. 독립변수로는 예측변수, 회귀자, 통제변수, 조작변수, 노출변수, 리스크 팩터, 설명변수, 입력변수라고 불린다.
- 종속변수 : 독립변수에 영향을 받아서 변화하는 종속적인 변수로 독립변수의 영향을 받아 그 값이 변할 것이라고 가정한 변수이다.
- 변수 선택 : 데이터의 독립변수중 종속변수에 가장 관련성이 높은 변수만을 선정하는 방법
- 특징 : 사용자가 해석하기 쉽게 모델을 단순화해주고 훈련 시간 축소, 차원의 저주 방지, 과적합을 줄여 일반화를 해주는 장법이 있으며, 변수 선택을 통하여 모델의 정확도 향상 및 성능 향상을 기다할 수 있다.
- 기법
- 필터 기법 : 데이터의 통계적 측정 방법을 사용하여 변수들의 상관관계를 알아낸 뒤에 높은 상관관계를 가지는 변수를 사용하는 방법으로 계산속도가 빠르고 변수 간 상관관계를 알아내는 데 적합하여 래퍼 기법을 사용하기 전에 전처리하는데 사용한다.
- 정보 이득 : 전체 엔트로피에서 분류 후 엔트로피를 뺀 값으로 불순도가 낮으면 정보 획득량이 높고, 정보 획득량이 높은 속성을 선택
- 카이제곱 검정 : 관찰된 빈도가 기대되는 빈도와 의미있게 다른지 여부를 검증하기 위해 사용되는 검증 방법으로 카이제곱 분포에 기초한 통계적 방법
- 피셔 스코어 : 변수의 분포에 대해 유추할 수 있는 수치로 뉴턴의 방법을 사용한다.
- 상관계수 : 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상관관계의 정보를 수치적으로 나타낸 계수
- 래퍼 기법 : 예측 정확도 측면에서 가장 좋은 성능을 보이는 하위 집합을 선택하는 기법으로 검색 가능한 방법으로는 하위집합을 반복해서 선택하여 테스트하는 것이므로 그리드 알고리즘에 속한다. 반복 선택으로 시간이 오래 걸리고 부분집합의 수가 늘어 과적합의 위험이 발생할 수 있다.
- 전진 선택법 : 모형을 가장 많이 향상시키는 변수를 하나씩 점진적으로 추가하는 방법으로 비어 있는 상태에서 시작하며 변수 추가 시 선택기준이 향상되지 않으면 변수 추가를 중단한다.
- 후진 소거법 : 모두 포함된 상태에서 시작하며 가장 적은 영향을 주는 변수부터 하나씩 제거하고, 더 이상 제거할 변수가 없다고 판단될 때 변수의 제거를 중단
- 단계적 방법 : 전진 선택과 후진 소거를 함께 사용하는 방법
- 임베디드 기법 : 모델의 정확도에 기여 하는 변수를 학습하고, 좀 더 적은 계수를 가지는 회귀식을 찾는 방향으로 제약조건을 주어 이를 제어한다.
- 라쏘 : 가중치의 절댓값의 합을 최소화하는 것을 추가적인 제약조건으로 하는 방법으로 L1-norm을 통해 제약을 주는 방법이다.
- 릿지 : 가중치들의 제곱 합을 최소화하는 것을 추가적인 제약조건으로 하는 방법으로 L2-norm을 통해 제약을 주는 방법이다.
- 엘라스틱 넷 : 가중치 절댓값의 합과 제곱 합을 동시에 추가적인 제약조건으로 하는 방법으로, 라쏘와 릿지 두 개를 선형 결합한 방법이다.
- SelectFromModel : 의사결정나무 기반 알고리즘에서 변수를 선택하는 방법이다.
- 필터 기법 : 데이터의 통계적 측정 방법을 사용하여 변수들의 상관관계를 알아낸 뒤에 높은 상관관계를 가지는 변수를 사용하는 방법으로 계산속도가 빠르고 변수 간 상관관계를 알아내는 데 적합하여 래퍼 기법을 사용하기 전에 전처리하는데 사용한다.
- 차원축소 : 분석 대상이 되는 여러 변수의 정보를 최대한 유지하면서 데이터 세트 변수의 개수를 줄이는 탐색적 분석기법으로 원래의 데이터를 최대한 효과적으로 축약하기 위해 목표변수는 사용하지 않고 특성 변수만 사용하기 때문에 비지도 학습 머신러닝 기법이다.
- 특징
- 정보 유지 : 차원축소를 수행할 때, 축약되는 변수 세트는 원래의 전체 데이터의 변수들의 정보를 최대한 유지하고, 변수들 사이에 내재한 특성이나 관계를 분석하여 이들을 잘 표현할 수 있는 새로운 선형 혹은 비선형 결합을 만들어내서 해당 결합변수만으로도 전체변수를 적절히 설명할 수 있어야 한다.
- 모델 학습의 용이 : 고차원 변수보다 변환된 저차원으로 학습할 경우, 회귀나 분류, 클러스터링 등의 머신러닝 알고리즘이 더 잘 작동한다.
- 결과 해석의 용이 : 새로운 저차원 변수 공간에서 시각화하기도 쉽다.
- 방법
- 변수 선택 : 가지고 있는 변수들 중에 중요한 변수만 몇 개 고르고 나머지는 버리는 방법으로 상관계수가 높거나 VIF가 높은 변수중 하나를 선택한다.
- 변수 추출 : 모든 변수를 조합하여 이 데이터를 잘 표현할 수 있는 중요 성분을 가진 새로운 변수를 추출하고, 기존 변수를 조합해 새로운 변수를 만드는 기법이다.
- 기법
- 주성분 분석 : 변수들의 공분산 행렬이나 상관행렬을 이용하여, 원래 데이터 특징을 잘 설명해주는 성분을 추출하기 위하여 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법
- 특이값 분해 : 차원의 행렬데이터에서 특이값을 추출하고 이를 통해 주어진 데이터 세트를 효과적으로 축약할 수 있는 기법
- 요인분석 : 데이터 안에 관찰할 수 없는 잠재적인 변수가 존재한다고 가정할때 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재요인을 도출하고 데이터 안의 구조를 해석하는 기법
- 독립성분분석 : 주성분 분석과는 달리, 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분리하여 차원을 축하는 기법으로 독립 성분의 분포는 비정규분포를 따르게 되는 차원축소 기법
- 다차원 척도법 : 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법
- 특징
- 파생변수 : 기존 변수에 특정 조건 혹은 함수 등을 사용하여 새롭게 재정의한 변수이며, 데이터에 들어 있는 변수만 이용해서 분석할 수도 있지만, 변수를 조합하거나 함수를 적용해서 새 변수를 만들어 분석한다.
- 생성방법
- 단위 변환 : 주어진 변수의 단위 혹은 척도를 변환하여 새로운 단위로 표현하는 방법
- 표현형식 변환 : 단순한 표현 방법으로 변환하는 방법
- 요약 통계량 변환 : 요약 통계량 등을 활용하여 생성하는 방법
- 정보 추출 : 하나의 변수에서 정보를 추출해서 새로운 변수를 생성하는 방법
- 변수 결합 : 다양한 함수 등 수학적 결합을 통해 새로운 변수를 정의하는 방법으로 한 레코드의 값을 결합하여 파생변수 생성
- 조건문 이용 : 조건문을 이용해서 파생변수를 생성하는 방법
- 생성방법
- 변수 변환 : 분석을 위해 불필요한 변수를 제거하고, 변수를 반환하며, 새로운 변수를 생성시키는 작업으로 변수들이 선형관계가 아닌 로그, 제곱, 지수 등의 모습을 보일 때 변수 변환을 통해 선형관계로 만들면 분석이 쉽다.
- 박스-콕스 변환 : 데이터를 정규 분포에 가깝게 만들기 위한 목적으로 사용하는 변환 방법으로, 선형회귀모형에서 정규성 가정이 성립한다고 보기 어려울 경우에 종속 변수를 정규 분포에 가깝게 변환시키기 위하여 사용하는 기법
- 비닝 : 데이터값을 몇 개의 Bin으로 분할하여 계산하는 방법으로 데이터 평활화에서도 사용되는 기술이며, 기존 데이터를 범주화하기 위해서도 사용한다.
- 정규화 : 데이터를 특정구간으로 바꾸는 척도법
- 최소-최대 정규화 : 모든 변수에 대해 최솟값은 0, 최댓값은 1로, 최솟값 및 최댓값을 제외한 다른 값들은 0과 1 사이의 값으로 변환하는 방법으로 모든 변수의 스케일이 같지만 이상값에 영향을 많이 받는 단점이 있다
- Z-점수 정규화 : 변수의 값이 평균과 일치하면 0으로 정규화되고, 평균보다 작으면 음수, 평균보다 크면 양수로 변환하는 방법으로 이상값은 잘 처리하지만, 정확히 같은 척도로 정규화된 데이터를 생성하지는 못한다는 단점이 있다.
- 불균형 데이터 처리 : 탐색 하는 타깃 데이터의 수가 매우 극소수인 경우에 불균형 데이터 처리를 하고, 클래스가 불균형한 훈련 데이터를 그대로 이용할 경우 과대 적합 문제가 발생할 수 있다.
- 기법
- 과소 표집 : 다수 클래스의 데이터를 일부만 선택하여 데이터의 비율을 맞추는 방법으로, 데이터의 소실이 매우 크고, 때로는 중요한 정상 데이터를 잃을 수 있다.
- 랜덤 과소 표집 : 무작위로 다수 클래스 데이터의 일부만 선택하는 방법
- ENN : 소수 클래스 주위에 인접한 다수 클래스 데이터를 제거하여 데이터의 비율을 맞추는 방법
- 토멧 링크 방법 : 토멕링크는 클래스를 구분하는 경계선 가까이에 존재하는 데이터로 다수 클래스에 속한 토멕 링크를 제거하는 방법
- CNN : 다수 클래스에 밀집된 데이터가 없을 때까지 데이터를 제거하여 데이터 분포에서 대표적인 데이터만 남도록 하는 방법
- OSS : 토멕 링크 방법과 CNN기법의 장점을 섞은 방법으로 다수 클래스의 데이터를 토멕 링크 방법으로 제거한 수 CNN를 이용하여 밀집된 데이터 제거
- 과대 표집 : 소수 클래스의 데이터를 복제 또는 생성하여 데이터의 비율을 맞추는 방법으로 정보가 손실되지 않는다는 장점이 있으나 과적합을 초래할 수 있고, 알고리즘의 성능은 높으나 검증의 성능은 나빠질 수 있다
- 랜덤 과대 표집 : 무작위로 소수 클래스 데이터를 복제하여 데이터의 비율을 맞추는 방법
- SMOTE : 소수 클래스에서 중심이 되는 데이터와 주변 데이터 사이에 가상의 직선을 만든 후, 그 위에 데이터를 추가하는 방법
- Borderline-SMOTE : 다수 클래스와 소수 클래스의 경계선에서 SMOTE를 적용하는 방법
- ADASYN : 모든 소수 클래스에서 다수 클래스의 관측비율을 계산하여 SMOTE를 적용하는 방법
- 임곗값 이동 : 임곗값을 데이터가 많은 쪽으로 이동시키는 방법으로 학습 단계에서는 변화 없이 학습하고 테스트 단계에서 임곗값을 이동한다.
- 앙상블 기법 : 같으나 서로 다른 여러 가지 모형들의 예측/분류 결과를 종합하여 최종적인 의사 결정에 활용하는 기법으로 여러개의 학습 모델을 훈련하고 투표 및 평균을 통해 최적화된 예측을 수행하고 결정한다. 주어진 자료로부터 여러 개의 예측 모형을 만든 후 예측 모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법으로 다중 모델 조합, 분류기 조합이 있다.
- 과소 표집 : 다수 클래스의 데이터를 일부만 선택하여 데이터의 비율을 맞추는 방법으로, 데이터의 소실이 매우 크고, 때로는 중요한 정상 데이터를 잃을 수 있다.
- 기법
반응형
'빅데이터 이론' 카테고리의 다른 글
[빅분기] 고급 데이터 탐색 (0) | 2022.08.29 |
---|---|
[빅분기] 데이터 탐색 (0) | 2022.08.29 |
[빅분기] 데이터 정제 (0) | 2022.08.28 |
[빅분기] 데이터 적재, 저장 (0) | 2022.08.28 |
[빅분기] 데이터 유형 및 비식별화 (0) | 2022.08.28 |
댓글