본문 바로가기

빅분기

(3)
[필답형] 데이터 전처리 (2) 중요도 : ★★☆☆☆ 키워드 : 변수 변환, 정규화, 최소-최대 정규화, Z-Score 정규화, 로그변환, 역수변환, 지수변환, 제곱근변환, 언더 샘플링, 오버 샘플링, 한 줄 평 : 키워드 개념 정확히 외우기 07 변수 변환 1) 변수 변환의 개념 데이터를 분석하기 좋은 형태로 바꾸는 작업 2) 변수 변환의 방법 모집단의 분포형태별로 사용가능한 변수 변환 방법이 상이하다. 최종적으로 정규 분포화 형태를 지향하며, 샤피로 테스트 또는 Q-Q Plot을 통해 그래프의 치우침 정도를 확인하고 결과에 따라 적당한 변수 변환식을 사용한다. 범주형 변환 : 연속형 데이터를 범주형 데이터로 변환하여 분석결과의 명료성 및 정확성을 증가 정규화 : 데이터의 스케일이 심하게 차이나는 경우 상대적 특성이 반영된 데이터로 ..
[필답형] 데이터 전처리 (1) 중요도 : ★★☆☆☆ 키워드 : 명목·서열·구간·비율자료, 데이터 정제, 결측치, 대치, 이상치, 전진 선택법, 후진 소거법, 단계적 선택법, 차원의 저주, 과적합, 요인 분석, 주성분 분석, SVD, NMF, 요약변수, 파생변수 한 줄 평 : 키워드 개념 정확히 외우기 01 데이터에 내재된 변수의 이해 1) 데이터 관련 용어 데이터, 단위, 관측값, 변수, 원자료 2) 데이터의 종류 구분 설명 단변량 자료 자료의 특성을 대표하는 특성 변수가 1개 다변량 자료 특성 변수가 2개 이상 질적자료(범주형) 명목자료 : 측정 대상이 범주나 종류에 구분 되어지는 것을 수치 또는 기호로 분류 ex)지역번호 02 서열자료 : 수치나 기호가 서열을 나타내는 자료 ex) 마라톤 1등 수치자료(연속형) 구간자료 : 명목,..
[필답형] 데이터 수집 중요도 : ★☆☆☆☆ 키워드 : ETL, 스쿱, 맵리듀스, 플럼, 스크래피, 크롤링, NoSQL, RDBMS, CAP이론, NoSQL 저장구조, DBMS 한 줄 평 : 제끼기 가능 01 데이터 수집 데이터 처리 시스템에 들어갈 데이터를 모으는 과정으로 여러 장소에 있는 데이터를 한 곳으로 모으는 것 1) 비즈니스 도메인과 원천 데이터 정보 수집 2) 내 외부 데이터 수집 내부 데이터 : 서비스 시스템, 네트워크 및 서버 장비, 마케팅 데이터 외부 데이터 : 소셜 데이터, 특정 기관 데이터, M2M(Machine to Machine)데이터, LOD(Linked Open Data) 공공 데이터 3) 데이터 수집 기술 정형 데이터 > ETL(Extract Transform Load) : 데이터를 추출, 변환,..