ADsP 합격 패턴 요약 29선

핵심 인사이트 · 공식 · 출제 함정을 과목별로 정리

이 페이지 활용법

ADsP는 동일한 개념을 반복 출제하되, 정의 뒤바꿈·유사 단어 삽입·순서 변경 등으로 함정을 만듭니다. 아래 29개 패턴의 공식을 먼저 확인한 뒤, 각 패턴 상세 페이지에서 연습 문제를 풀어 보세요.

3과목 기준 통계 기초(척도·표본·가설검정·확률분포) → 회귀분석 → 시계열 → 데이터 마이닝(의사결정나무·앙상블·연관·오분류표) → R·전처리 → 군집·다변량·신경망 순으로 학습하면 효율적입니다.

1과목 데이터의 이해

데이터·지식 관리 이론(SECI·DIKW)과 빅데이터 위기·통제방안 개념이 핵심입니다.

암묵지 vs 형식지 + SECI 모델

"노하우→매뉴얼" = 표출화. 순서: 공·표·연·내.

암묵지: 개인 노하우 (공유 X) 형식지: 문서·매뉴얼 (공유 O) 공통화: 암묵→암묵 표출화: 암묵→형식 연결화: 형식→형식 내면화: 형식→암묵 함정: 내면화를 표출화로 속여 출제

예시: 노하우를 매뉴얼로 문서화하는 과정 → 암묵지에서 형식지로 변환 → 표출화(Externalization)

DIKW 피라미드 4단계 매칭

D-I-K-W 순서. Insight·Intelligence는 함정.

Data → 가공 전 수치 Information → 패턴·의미 부여 Knowledge → 정보 기반 예측 Wisdom → 근본 원리·창의 함정: Insight·Intelligence는 4단계 아님

예시: 'A마트와 B마트 가격을 비교하여 의미를 찾는 단계는?' → 데이터에 패턴 인식 → Information(정보)

빅데이터 위기 3요인 - 통제방안 매칭

사생활=책임제, 오용=접근 허용. 매칭 뒤바꿈 주의.

위기 → 통제방안: 사생활 침해 → 동의제에서 책임제로 책임원칙 훼손 → 결과 기반 책임 데이터 오용 → 알고리즘 접근 허용 함정: 통제방안 뒤바꿈

예시: '범죄 예측 알고리즘으로 강력범죄 감소' → 책임원칙 훼손 위기 → 통제방안: 결과 기반 책임 원칙

2과목 데이터 분석 기획

분석 과제 유형, 거버넌스, KDD·CRISP-DM 방법론의 단계·특징 구분이 중요합니다.

분석 과제 4유형 (What × How)

대상 O × 방법 O → 최적화. 통찰↔솔루션 뒤바꿈 주의.

분석 대상(What) × 분석 방법(How) 매칭: 대상 O × 방법 O → 최적화 (Optimization) 대상 X × 방법 O → 솔루션 (Solution) 대상 O × 방법 X → 통찰 (Insight) 대상 X × 방법 X → 발견 (Discovery) 함정: 통찰↔솔루션 뒤바꿈

예시: 택배 최단 경로 탐색은 분석 대상과 방법 모두 명확 → 최적화(Optimization)

거버넌스 3요소 + 위험 대응 4방안

거버넌스 3 / 위험대응 4. 유사 단어 함정.

거버넌스 3요소: 원칙(Principle) · 조직(Organization) · 프로세스(Process) 위험 대응 4방안: 회피 · 전이 · 완화 · 수용 함정: 유사 단어 삽입 (방법·관리·제거 등)

예시: '데이터 거버넌스 체계 수립 시 3대 구성요소는?' → 원칙 / 조직 / 프로세스

KDD vs CRISP-DM 단계 구분

'전개·6단계'면 CRISP-DM, '5단계'면 KDD.

KDD (5단계): 선택 → 전처리 → 변환 → 마이닝 → 해석/평가 CRISP-DM (6단계): 업무 이해 → 데이터 이해 → 준비 → 모델링 → 평가 → 전개(Deployment) 함정: '전개'를 KDD에 끼워 넣어 출제

예시: '잡음·이상값·결측값을 식별하고 제거하는 단계는?' → KDD에서 데이터 전처리(Preprocessing)

3과목 데이터 분석

통계 기초부터 머신러닝·R 프로그래밍까지. 공식과 함정 패턴 암기가 합격 전략입니다.

4척도 구분 (절대 0의 유무)

절대 0 있으면 비율, 없으면 구간. 키=비율, 온도=구간.

명목: 단순 분류 (성별, 혈액형) 순서: 순서 있음 (등급, 학년) 구간: 순서+간격, 절대 0 없음 (온도, IQ) 비율: 순서+간격+절대 0 있음 (키, 무게) 함정: 온도를 비율로, 키를 구간으로 속여 출제

예시: 섭씨 온도는 절대영도가 섭씨 0도가 아니므로 절대 0 없음 → 구간척도(Interval)

표본추출 4종 (층화 vs 집락 동질성)

층화 = 층내 동질. 집락 = 집락내 이질. 정반대 출제 주의.

단순임의: 무작위 추출 층화 (Stratified): 층 내 동질, 층 간 이질 → 각 층에서 일부 집락 (Cluster): 집락 내 이질, 집락 간 동질 → 일부 집락 전체 계통: N/k 일정 간격 함정: 층화↔집락의 동질·이질 위치 뒤바꿈

예시: '모집단을 여러 집락으로 나눈 후 일부 집락을 전체 조사하는 방법은?' → 집락추출(Cluster Sampling)

표본분산 vs 모분산 (n-1 vs n)

표본 = n-1로 나누기. 모집단 = n으로 나누기.

표본분산 = 편차제곱합 ÷ (n-1) 모분산 = 편차제곱합 ÷ n '표본·sample' → n-1 (자유도 보정) '모집단·population' → n 함정: n과 n-1을 슬쩍 뒤바꿔 출제

예시: 데이터 [2,4,6,8,10]의 표본분산 = 편차제곱합(40) ÷ (n-1=4) = 10. 모분산이면 40÷5 = 8.

제1종 vs 제2종 오류 + p-value

1종=참인데 기각. 2종=거짓인데 채택. p<0.05면 기각.

제1종 오류 (α, False Positive): 귀무가설(H₀) 참인데 기각 제2종 오류 (β, False Negative): H₀ 거짓인데 채택 p-value < 0.05 → H₀ 기각 유의수준 보통 0.05 함정: 두 오류 정의 뒤바꿈, 또는 'p값이 작을수록 귀무가설 지지'식 비약

예시: '귀무가설이 참인데 기각하는 오류는?' → 제1종 오류(α, Type I Error)

검정용 분포 매핑 + 모수/비모수

t=평균, F=분산/ANOVA, 카이제곱=적합도/독립성.

t-분포: 평균 검정 (모분산 모름, 표본 작음) 카이제곱(χ²): 분산·적합도·독립성 F-분포: 분산 비교·ANOVA 모수검정 (t·ANOVA): 분포 가정 O 비모수 (윌콕슨·만휘트니): 분포 가정 X 함정: 모수↔비모수 정의 뒤바꿈

예시: '세 집단 이상의 평균을 동시에 비교하는 분산분석은?' → ANOVA → F-분포 사용

회귀모형 평가 3요소 + 변수선택 3법

Lasso=L1, Ridge=L2. VIF 10 이상이 문제.

평가 3요소: 1. F-통계량 p<0.05 (모형 유의성) 2. 계수 p<0.05 (계수 유의성) 3. R² (설명력) 변수선택 3법: 전진선택 · 후진제거 · 단계별 함정: Lasso=L2 (실제 L1), VIF 1 이하 (실제 10 이상)

예시: '회귀모형의 전체 유의성을 가장 먼저 확인할 지표는?' → F-통계량의 p-값

결정계수 R² 공식과 범위

R² = SSR/SST. 범위 0~1 (-1~1 함정).

R² = SSR ÷ SST = 1 - (SSE ÷ SST) SST = SSR + SSE (총제곱합 = 회귀제곱합 + 오차제곱합) 범위: 0 ~ 1 (1에 가까울수록 설명력 ↑) 수정 R²: 독립변수 개수 페널티 반영 함정: 범위 '-1~1' 표기, SSR↔SSE 약어 혼동

예시: SST=100, SSE=20일 때 SSR = 100-20 = 80 → R² = 80÷100 = 0.8

선형회귀 vs 로지스틱회귀

연속형 = 선형(lm). 범주형 = 로지스틱(glm).

선형회귀: 연속형 → 최소자승법 (lm) - 검정: F, t 로지스틱회귀: 범주형 → 최대우도법 (glm) - 검정: 카이제곱 - 결과: logit, 오즈비 함정: 추정법·검정 통계량 뒤바꿈

예시: '고객 이탈 여부(이탈/유지)를 예측하는 모형은?' → 종속변수 범주형 → 로지스틱 회귀

AR↔PACF / MA↔ACF + 시계열 4구성요소

AR=PACF 절단, MA=ACF 절단. 매칭 뒤바꿈 함정.

AR(p) → PACF가 p+1 시점 이후 절단 MA(q) → ACF가 q+1 시점 이후 절단 ARIMA: 차분으로 정상화 시계열 4요소: 추세 / 계절 / 순환 / 불규칙 함정: AR↔MA 매칭 뒤바꿈, '정상요인' 끼워 넣기

예시: 'PACF가 시점 3 이후 절단되었다면?' → AR(2) 모형 (p+1=3이므로 p=2)

의사결정나무 알고리즘 분류기준

CART=지니, CHAID=카이, C5.0=엔트로피. 매칭 뒤바꿈 함정.

CART: 이산=지니계수, 연속=분산감소량, 이진 분리 CHAID: 이산=카이제곱, 연속=ANOVA F, 가지치기 X C5.0: 엔트로피, 다지 분리 함정: 지니↔엔트로피↔카이제곱 뒤바꿈

예시: '범주형 종속변수에 지니지수, 연속형 종속변수에 분산감소량을 사용하는 알고리즘은?' → CART

배깅 vs 부스팅 + 랜덤포레스트

배깅=동일 가중치(병렬). 부스팅=가중치 부여(순차).

배깅 (Bagging): - 복원추출, 동일 가중치 - 보팅(다수결) 결합 → 분산 감소 부스팅 (Boosting): - 오분류 데이터에 큰 가중치 - 순차 학습 랜덤포레스트 = 배깅 + 변수 랜덤 추출 함정: 가중치·결합 방식 뒤바꿈

예시: '잘못 분류된 데이터에 더 큰 가중치를 부여하여 순차 학습하는 기법은?' → 부스팅(Boosting)

연관분석 3대 측도 + 향상도 1=독립

향상도=1이면 독립. >1 양의 연관, <1 음의 연관.

지지도 (Support) = P(A∩B) 신뢰도 (Confidence) = P(A∩B) / P(A) = P(B|A) 향상도 (Lift) = P(B|A) / P(B) 향상도 해석: = 1 → 독립 > 1 → 양의 연관 < 1 → 음의 연관 함정: 분모 뒤바꿈 (지지도=전체 vs 신뢰도=선행)

예시: '향상도가 1인 두 품목의 관계는?' → 독립 (관련성 없음)

오분류표 6대 지표 (Recall vs Precision 분모)

재현율 분모=실제 True. 정확도 분모=예측 True.

재현율(Recall, 민감도) = TP / (TP+FN) → 분모: 실제 True 정확도(Precision) = TP / (TP+FP) → 분모: 예측 True 특이도 = TN / (FP+TN) 정분류율 = (TP+TN) / 전체 F1 = Recall·Precision의 조화평균 함정: Recall↔Precision의 분모 뒤바꿈

예시: '실제 양성 중 양성으로 맞춘 비율은?' → TP/(TP+FN) → 재현율(민감도)

R 데이터 구조 & 핵심 함수

벡터·행렬은 동일 타입만, 리스트·데이터프레임은 혼합 타입. apply 계열은 '반환형'이 정체입니다.

벡터: 동일 타입 1차원 행렬: 동일 타입 2차원 리스트·데이터프레임: 서로 다른 타입 허용 apply 반환형: lapply(리스트), sapply(벡터/행렬 단순화), apply(행렬 행/열) 인덱싱: df[행, 열] (대괄호) 함정: 벡터를 혼합 타입으로, lapply↔sapply 반환형 뒤바꿈

예시: '결과를 벡터로 단순화해 반환하는 함수는?' → sapply (lapply는 리스트 반환)

데이터 전처리 & 변수 가공

정규화(0~1)와 표준화(평균0·표준편차1)는 다릅니다. 파생변수(가공)와 요약변수(집계)도 구분하세요.

결측: na.omit(행 제거), na.rm(제외 계산), 평균 대치 이상값: ESD·IQR(boxplot)로 탐지 정규화(Min-Max): 0~1 표준화(Z-score): 평균0·표준편차1 파생변수(가공·조합) vs 요약변수(합계·평균 집계) 구간화(연속→범주) vs 원핫(범주→0/1) 함정: 정규화↔표준화 범위, 파생↔요약 뒤바꿈

예시: '데이터를 0과 1 사이로 변환하는 기법은?' → Min-Max 정규화 (표준화는 평균0·표준편차1)

기술통계 (대푯값·산포·분포형태)

왜도는 좌우 비대칭, 첨도는 뾰족함. 중앙값은 이상값에 강건합니다.

평균: 이상값에 민감 중앙값: 이상값에 강건 변동계수: 단위 다를 때 산포 비교 왜도: 좌우 비대칭 (양수=오른쪽 꼬리) 첨도: 분포의 뾰족한 정도 함정: 왜도↔첨도 정의 뒤바꿈, 표준편차는 분산의 제곱근(제곱 아님)

예시: '분포가 오른쪽으로 긴 꼬리를 가지면?' → 왜도 양수 (첨도는 뾰족함 측정)

추론통계 & 가설검정 심화

검정력은 1-β(1-α 아님). 유의수준 α는 제1종 오류, 신뢰수준이 높을수록 구간은 넓어집니다.

중심극한정리: 표본 크면 표본평균→정규분포 근사 신뢰구간: 신뢰수준↑ 폭↑, 표본↑ 폭↓ 귀무가설(차이 없음) 기각 → 대립가설 채택 유의수준 α = 제1종 오류 검정력 = 1-β 양측(차이 유무) vs 단측(방향, 부등호) 함정: 검정력을 1-α로, 양측↔단측 혼동

예시: '대립가설이 참일 때 귀무가설을 기각할 확률은?' → 검정력(1-β)

분류 알고리즘 (SVM·KNN·나이브베이즈)

SVM은 마진 최대화, KNN은 게으른 학습, 나이브베이즈는 조건부 독립 가정입니다.

SVM: 마진 최대화 초평면 (커널로 비선형) KNN: 가까운 k개 다수결, 게으른 학습(거리 기반) 나이브베이즈: 베이즈 정리 + 조건부 독립 가정 로지스틱: 범주형 종속변수 분류 함정: SVM 마진 최소화, KNN 사전 학습, 나이브 상관 전제로 속임

예시: '변수 간 조건부 독립을 가정하는 분류기는?' → 나이브베이즈

군집 분석 & 실루엣

계층적·DBSCAN은 군집 수가 불필요, K-means는 필요. 실루엣은 1에 가까울수록 좋습니다.

계층적: 덴드로그램, k 사후 결정, 계산량 많음 K-means: k 사전 지정 DBSCAN: 밀도 기반, k 불필요, 이상치 탐지 거리: 최단·최장·평균·중심 연결법 실루엣: -1~1 (1에 가까울수록 우수) 함정: 계층적이 k 필요, 실루엣 범위(0~100) 혼동

예시: '군집 수를 미리 지정하지 않는 밀도 기반 기법은?' → DBSCAN

다변량 분석 (차원축소·상관)

PCA·MDS·요인분석은 모두 차원축소. 상관관계는 인과관계가 아닙니다.

PCA: 분산 최대 주성분 MDS: 거리 보존 저차원 시각화 요인분석: 잠재 공통요인 추출 → 셋 다 차원 축소 (확장 아님) 상관계수: -1~1, 상관≠인과, 0은 선형관계 없음 함정: 차원 확장으로 서술, 상관=인과로 단정

예시: '개체 간 거리를 보존하며 저차원에 시각화하는 기법은?' → MDS

모형 검증 & 평가 심화

부트스트랩은 복원추출, 교차검증은 k번 반복. AUC는 1에 가까울수록 우수합니다.

분할: 학습(생성)/검증(튜닝)/평가(최종) 교차검증: k-fold, 모든 데이터 1회 평가 부트스트랩: 복원추출, 원본 크기 AUC: ROC 면적, 0~1 (0.5=무작위, 1=우수) 불균형 데이터: 정확도만 신뢰 X 함정: 부트스트랩 비복원, AUC 범위(0~100) 혼동

예시: '복원추출로 원본 크기 표본을 반복 생성하는 기법은?' → 부트스트랩

비정형 마이닝 (텍스트·SNA)

TDM은 단어×문서 행렬. SNA 중심성 4종(연결정도·매개·근접·위세)을 구분하세요.

TDM: 단어 행 × 문서 열 행렬 전처리: 불용어 제거·토큰화·어간 추출 감성분석: 주관적 태도 분석 SNA 중심성: 연결정도(연결 수)/매개(최단경로)/근접(거리)/위세(영향력) 밀도: 가능 연결 대비 실제 연결 비율 함정: 중심성 4종 정의 뒤바꿈

예시: '다른 노드들의 최단 경로에 위치하는 정도는?' → 매개 중심성

신경망 (활성화·과적합)

활성화함수는 비선형 변환. 시그모이드 0~1, ReLU는 음수→0. 과적합은 학습만 잘됩니다.

활성화함수: 가중합→비선형 출력 시그모이드: 0~1 ReLU: 음수→0, 양수 그대로 가중치(학습 중 갱신) / 은닉층(깊을수록 복잡) 과대적합(학습↑ 검증↓) vs 과소적합(둘 다↓) 함정: 활성화 출력 범위 혼동, 과대적합↔과소적합

예시: '학습 데이터엔 잘 맞지만 새 데이터 성능이 낮으면?' → 과대적합(Overfitting)