중요도 : ★★☆☆☆
키워드 : 명목·서열·구간·비율자료, 데이터 정제, 결측치, 대치, 이상치, 전진 선택법, 후진 소거법, 단계적 선택법, 차원의 저주, 과적합, 요인 분석, 주성분 분석, SVD, NMF, 요약변수, 파생변수
한 줄 평 : 키워드 개념 정확히 외우기
01 데이터에 내재된 변수의 이해
1) 데이터 관련 용어
데이터, 단위, 관측값, 변수, 원자료
2) 데이터의 종류
구분 | 설명 |
단변량 자료 | 자료의 특성을 대표하는 특성 변수가 1개 |
다변량 자료 | 특성 변수가 2개 이상 |
질적자료(범주형) | 명목자료 : 측정 대상이 범주나 종류에 구분 되어지는 것을 수치 또는 기호로 분류 ex)지역번호 02 |
서열자료 : 수치나 기호가 서열을 나타내는 자료 ex) 마라톤 1등 | |
수치자료(연속형) | 구간자료 : 명목,서열 자료의 의미를 포함하며 숫자로 표현된 변수에 대해 산술적 의미를 가짐 ex) 온도 |
비율자료 : 명목, 서열, 수치 자료의 의미를 포함, 사칙 연산이 가능한 자료 ex) 무게 | |
시계열자료 | 일정한 시간간격 동안 수집된 자료 ex) 일별 주식 가격 |
횡적자료 | 특정 단일 시점에 여러 대상으로 부터 수집된 자료 ex) 06.22 각 지역 온도 |
종적자료 | 여러 개체를 여러 시점에서 수집한 자료 ex) 6월 한 달 간 각 지역의 온도 |
3) 데이터 정제
수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합 하는 과정
데이터 수집 - 변환 - 교정 - 통합
02 데이터 결측값 처리
결측치 : 데이터 없음
1) 결측 데이터의 종류
완전 무작위 결측 (MCAR : Missing Completely At Random) : 데이터 누락 등 다른 변수와 아무런 연관이 없음.
무작위 결측 (MAR : Missing At Random) : 다른 변수와 연관은 있지만, 비 관측값과는 연관 없음.
비 무작위 결측 (NMAR : Not Missing At Random) : 결측값이 결측 이유와 연관이 있음.
나이대별(X) 성별(Y) 체중(Z) 분석에 대한 모델링 예시
- 단순 데이터 누락 > MCAR
- 여성은(Y) 체중(Z) 공개를 꺼려하는 경향 > MAR
- 젊은 사람(X)은 체중(Z) 공개를 꺼려하는 경향 > MAR
- 체중(Z)이 무거운 사람은 체중(Z) 공개를 꺼려하는 경향 > NMAR
2) 결측값 유형의 분석 및 대치
- 완전 분석 : 불완전 자료 무시, 용이성을 보장하지만 효율성 상실 및 통계적 추론의 타당성 문제
- 평균 대치법(비 조건부 평균 대치법) : 데이터의 평균으로 대치, 통계량의 표준오차 과소 추정 문제
- 회귀 대치법(조건부 평균 대치법) : 회귀 분석에 의한 대치
- 단순 확률 대치법 (Hot-deck방법) : 확률 추출에 의한 무작위 대치 (cf. 콜드덱 대치 : 외부 자료로 대치)
- 최근접 대치법 : 전체 표본을 몇 개로 분류하여 결측값을 바로 이전 응답치로 대치
- 다중 대치법 : 단순 대치를 복수로 시행 (대치-분석-결합)
03 데이터 이상값 처리
이상치 (Outlier) : 정상의 범주에서 벗어난 값
1) 발생원인
- 입력오류
- 측정오류
- 실험오류
- 의도적 이상치
- 자료처리 오류
- 표본오류
- 자연적 이상치
2) 문제점
- 기초 분석 결과의 신뢰도 저하
- 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하
3) 이상치의 탐지
- 시각화를 통한 방법 : Box-Plot, 줄기- 잎 그림
- Z-Score 통한 방법 : 정규화를 통해 통상 범위에 벗어난 경우 이상치 판단
- 밀도기반 클러스터링 방법 (DBSCAN) : 군집 간의 밀도를 이용하여 정의된 군집에서 먼 거리에 떨어지면 이상치 판단
- 고립 의사결정 나무 방법 : 의사결정나무 기반으로 정상치의 단말 노드보다 더 길면 이상치 판단
04 변수 선택
회귀 분석의 예를 들면, 최종 결과를 도출하기 위해 사용된 독립 변수가 m개이고, 이를 통해 얻은 (설명력) R² = 89%가 나올 때, m개 보다 더 적은 n개 사용 시 동일한 설명력이 나온다면 변수의 효율적 선택의 필요성이 증가된다.
1) 변수의 선택 방법
- 전진 선택법 : (영모형) 가장 단순한 회귀모형에서 출발하여 가장 중요한 변수를 고르며 차례대로 모형에 포함.
- 후진 소거법 : 전진 선택법과 반대로 모든 변수가 포함되는 모형에서 설명력이 떨어지는 변수를 제거.
- 단계적 선택법 : 전진 선택법과 후진 소거법의 보완 방법으로 전진 선택법을 통해 가장 유의한 변수를 모형에 포함 후, 나머지 변수들에 대해 후진 소거법을 적용하여 유의하지 않은 변수들을 제거.
05 차원 축소
1) 차원 축소의 필요성
- 복잡도의 축소
- 과적합의 방지 : 학습 데이터를 너무 과하게 학습하여 분석 모형의 정확도 저하.
- 해석력의 확보
- 차원의 저주 : 학습을 위해 차원이 증가하며 학습 데이터 수보다 차원의 수가 더 많아져 성능이 저하되는 현상.
2) 차원 축소의 방법
요인분석 (Factor Analysis)
다수의 변수들 간 관계(상관관계)를 분석하여 공통 차원을 축약하는 통계 분석 과정
목적 : 변수 축소, 변수 제거, 변수특성 파악, 파생 변수 생성
- 주성분 분석 (PCA : Principal Component Analysis) : 분포된 데이터들의 특성을 설명하는 하나 또는 복수 개의 특징을 찾는 것.
- 특이값 분해 (SVD : Singular Value Decomposition) : 데이터 공간을 나타내는 mxn 크기의 행렬 M에 대하여 큰 몇 개의 특이값을 가지고 충분히 유용한 정보를 유지할 수 있는 차원을 만들어 내는 것.
- 음수 미포함 행렬분해 (NMF : Non-negative Matrix x Factorization) : 음수를 포함하지 않은 행렬 V를 음수를 포함하지 않은 두 행렬의 곱으로 분해하는 알고리즘.
06 파생 변수의 생성
1) 파생변수
사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수로 매우 주관적일 수 있으므로 논리적 타당성을 갖춰야 한다.
2) 요약변수
수집된 정보를 분석에 맞게 종합한 변수로 데이터 마트에서 가장 기본적인 변수이다.
3) 요약변수 VS 파생변수
요약변수 (단순 종합 개념) | 파생변수 (주관적 변수 개념) |
매장 이용 횟수 | 주 구매매장 변수 |
구매 상품 품목 개수 | 구매상품 다양성 변수 |
기간별 구매 금액 및 횟수 | 주 활동지역 변수 |
요약변수 처리 시 유의점
- 처리 방법에 따라 결측치 및 이상값 처리에 유의.
- 연속형 변수의 구간화 적용과 고정된 구간화를 통한 의미 파악 시 의미 있는 구간을 찾도록 해야 함.
파생변수 생성 및 처리 시 유의점
특정 상황에만 의미성을 부여하는 것이 아니라 보편적이고 전 데이터 구간에서 대표성을 가지는 파생변수 생성 노력.
'빅데이터 분석기사' 카테고리의 다른 글
[필답형] 데이터 전처리 (2) (0) | 2022.07.04 |
---|---|
[필답형] 데이터 수집 (0) | 2022.06.23 |
비전공자의 빅데이터 분석기사 도전기 (1) | 2022.06.22 |