중요도 : ★★☆☆☆
키워드 : 변수 변환, 정규화, 최소-최대 정규화, Z-Score 정규화, 로그변환, 역수변환, 지수변환, 제곱근변환, 언더 샘플링, 오버 샘플링,
한 줄 평 : 키워드 개념 정확히 외우기
07 변수 변환
1) 변수 변환의 개념
데이터를 분석하기 좋은 형태로 바꾸는 작업
2) 변수 변환의 방법
모집단의 분포형태별로 사용가능한 변수 변환 방법이 상이하다. 최종적으로 정규 분포화 형태를 지향하며, 샤피로 테스트 또는 Q-Q Plot을 통해 그래프의 치우침 정도를 확인하고 결과에 따라 적당한 변수 변환식을 사용한다.
- 범주형 변환 : 연속형 데이터를 범주형 데이터로 변환하여 분석결과의 명료성 및 정확성을 증가
- 정규화 : 데이터의 스케일이 심하게 차이나는 경우 상대적 특성이 반영된 데이터로 변환
- 일반 정규화 : 범위가 다를 경우 같은 범위로 변환. ex) A 과목은 8점/10점, B과목은 20점/50점일 경우, 일반 정규화를 통해 8/10 = 0.8점, 20/50 = 0.4점 으로 정규화, 평균은 0.6점
- 최소-최대 정규화 (Min-MAx Normaliztion) : 데이터를 정규화하는 가장 일반적인 방법으로 모든 특징에 대해 최소 =0, 최대 = 1로 표기하며 다른 모든 값들을 0과 1사이에 위치 시킨다. 그러나 이상치의 영향을 많이 받는다는 단점이 있다.
- Z-점수 정규화 (Z-Score Normalization) : 이상치 문제를 피하는 데이터 정규화 전략이다.
- 로그변환 : 로그를 취하면 그 분포가 정규 분포에 가깝게 분포하는 경우 로그 변환을 사용한다. (우측 치우침)
- 역수 변환 : 어떤 변수를 그대로 사용하지 않고, 역수를 사용하면 오히려 선형에 가까워 의미해석이 쉬워지는 경우를 말한다. (극단적인 우측 치우침)
- 지수변환 : 지수를 사용하면 오히려 선형에 가까워 의미해석이 쉬워지는 경우를 말한다. (좌측 치우침)
- 제곱근변환 : 제곱근을 사용하면 오히려 선형에 가까워 의미해석이 쉬워지는 경우를 말한다. (우로 약간 치우침)
07 불균형 데이터 처리
현실 데이터의 경우 각 클래스가 갖고 있는 데이터의 양 차이가 큰 경우 '클래스 불균형'이 있다고 말한다.
예를들어, 병원에서 질병이 있는 사람과 없는 사람의 데이터를 수집했다면, 질병이 없는 사람이 있는 사람에 비해 적다.
1) 불균형 데이터의 문제점
데이터 클래스의 비율이 너무 차이가 나면 우세한 클래스를 택하는 모형의 정확도가 높아진다. 따라서, 정확도가 높아도 데이터 개수가 적은 클래스의 재현율이 급격히 낮아지는 현상이 발생한다.
2) 불균형 데이터의 처리방법
- 가중치 균형 방법 : 데이터 클래스의 균형이 필요한 경우 각 클래스 별 특정 비율로 가중치를 주어 분석하는 방법이다.
- 고정 비율 이용 : 클래스의 비율에 따라 고정된 가중치를 준다.
- 최적 비율 이용 : 분야의 최종 성능을 고려해 가중치 비율의 최적 세팅을 찾으면서 가중치를 찾아간다.
- 언더샘플링 : 대표 클래스의 일부만을 선택하고 소수 클래스의 최대한 많은 데이터를 사용하는 방법.
- 오버샘플링 : 소수클래스의 복사본을 만들어, 대표클래스 수만큼 데이터를 만들어 사용하는 방법.
'빅데이터 분석기사' 카테고리의 다른 글
[필답형] 데이터 전처리 (1) (0) | 2022.06.28 |
---|---|
[필답형] 데이터 수집 (0) | 2022.06.23 |
비전공자의 빅데이터 분석기사 도전기 (1) | 2022.06.22 |