← 패턴 목록

데이터 전처리 & 변수 가공

3과목데이터 전처리

핵심

정규화(0~1)와 표준화(평균0·표준편차1)는 다릅니다. 파생변수(가공)와 요약변수(집계)도 구분하세요.

공식

결측: na.omit(행 제거), na.rm(제외 계산), 평균 대치 이상값: ESD·IQR(boxplot)로 탐지 정규화(Min-Max): 0~1 표준화(Z-score): 평균0·표준편차1 파생변수(가공·조합) vs 요약변수(합계·평균 집계) 구간화(연속→범주) vs 원핫(범주→0/1) 함정: 정규화↔표준화 범위, 파생↔요약 뒤바꿈

트리거 키워드

결측값이상값정규화표준화파생변수요약변수구간화원핫인코딩na.omit

예시

'데이터를 0과 1 사이로 변환하는 기법은?' → Min-Max 정규화 (표준화는 평균0·표준편차1)

참고 설명

데이터 전처리에서 정규화(normalization)는 값을 0~1 범위로 변환(최소-최대 스케일링)하는 것이고, 표준화(standardization)는 평균 0·표준편차 1이 되도록 변환(z-점수)하는 것입니다. 또 파생변수는 기존 변수를 가공·결합해 새로 만든 변수, 요약변수는 다수 데이터를 집계한 변수입니다. ADsP에서는 정규화·표준화의 정의와 파생·요약 변수를 헷갈리게 출제합니다.

8개 관련 문항

관련 문항 풀기