3과목 데이터 분석R 기초데이터 전처리 & 변수 가공
R에서 결측값(NA) 처리에 대한 설명으로 옳은 것은?
- (a)mean(x, na.rm=TRUE)는 결측값을 0으로 대체하여 계산한다
- (b)is.na(x)는 결측값을 제거한다
- (c)결측값이 있으면 sum() 함수는 항상 0을 반환한다
- (d)na.omit(x)는 결측값이 포함된 행을 제거한다정답
핵심 개념
정규화(0~1)와 표준화(평균0·표준편차1)는 다릅니다. 파생변수(가공)와 요약변수(집계)도 구분하세요.
결측: na.omit(행 제거), na.rm(제외 계산), 평균 대치
이상값: ESD·IQR(boxplot)로 탐지
정규화(Min-Max): 0~1
표준화(Z-score): 평균0·표준편차1
파생변수(가공·조합) vs 요약변수(합계·평균 집계)
구간화(연속→범주) vs 원핫(범주→0/1)
함정: 정규화↔표준화 범위, 파생↔요약 뒤바꿈
예시: '데이터를 0과 1 사이로 변환하는 기법은?' → Min-Max 정규화 (표준화는 평균0·표준편차1)
해설
na.omit()은 NA가 포함된 행을 제거합니다. na.rm=TRUE는 결측값을 '제외'하고 계산하는 것이지 0으로 대체하는 것이 아니며, is.na()는 결측 여부를 TRUE/FALSE로 판별할 뿐 제거하지 않습니다. 결측값이 있으면 na.rm 없이는 sum()이 NA를 반환합니다. a(제외≠0대체), b(판별≠제거)가 대표 함정입니다.