3과목 데이터 분석R 기초데이터 전처리 & 변수 가공

R에서 결측값(NA) 처리에 대한 설명으로 옳은 것은?

핵심 개념

정규화(0~1)와 표준화(평균0·표준편차1)는 다릅니다. 파생변수(가공)와 요약변수(집계)도 구분하세요.

결측: na.omit(행 제거), na.rm(제외 계산), 평균 대치 이상값: ESD·IQR(boxplot)로 탐지 정규화(Min-Max): 0~1 표준화(Z-score): 평균0·표준편차1 파생변수(가공·조합) vs 요약변수(합계·평균 집계) 구간화(연속→범주) vs 원핫(범주→0/1) 함정: 정규화↔표준화 범위, 파생↔요약 뒤바꿈

예시: '데이터를 0과 1 사이로 변환하는 기법은?' → Min-Max 정규화 (표준화는 평균0·표준편차1)

해설

na.omit()은 NA가 포함된 행을 제거합니다. na.rm=TRUE는 결측값을 '제외'하고 계산하는 것이지 0으로 대체하는 것이 아니며, is.na()는 결측 여부를 TRUE/FALSE로 판별할 뿐 제거하지 않습니다. 결측값이 있으면 na.rm 없이는 sum()이 NA를 반환합니다. a(제외≠0대체), b(판별≠제거)가 대표 함정입니다.

같은 패턴 관련 문항