암묵지 vs 형식지 + SECI 모델
"노하우→매뉴얼" = 표출화. 순서: 공·표·연·내.
예시: 노하우를 매뉴얼로 문서화하는 과정 → 암묵지에서 형식지로 변환 → 표출화(Externalization)
핵심 인사이트 · 공식 · 출제 함정을 과목별로 정리
ADsP는 동일한 개념을 반복 출제하되, 정의 뒤바꿈·유사 단어 삽입·순서 변경 등으로 함정을 만듭니다. 아래 29개 패턴의 공식을 먼저 확인한 뒤, 각 패턴 상세 페이지에서 연습 문제를 풀어 보세요.
3과목 기준 통계 기초(척도·표본·가설검정·확률분포) → 회귀분석 → 시계열 → 데이터 마이닝(의사결정나무·앙상블·연관·오분류표) → R·전처리 → 군집·다변량·신경망 순으로 학습하면 효율적입니다.
데이터·지식 관리 이론(SECI·DIKW)과 빅데이터 위기·통제방안 개념이 핵심입니다.
"노하우→매뉴얼" = 표출화. 순서: 공·표·연·내.
예시: 노하우를 매뉴얼로 문서화하는 과정 → 암묵지에서 형식지로 변환 → 표출화(Externalization)
D-I-K-W 순서. Insight·Intelligence는 함정.
예시: 'A마트와 B마트 가격을 비교하여 의미를 찾는 단계는?' → 데이터에 패턴 인식 → Information(정보)
사생활=책임제, 오용=접근 허용. 매칭 뒤바꿈 주의.
예시: '범죄 예측 알고리즘으로 강력범죄 감소' → 책임원칙 훼손 위기 → 통제방안: 결과 기반 책임 원칙
분석 과제 유형, 거버넌스, KDD·CRISP-DM 방법론의 단계·특징 구분이 중요합니다.
대상 O × 방법 O → 최적화. 통찰↔솔루션 뒤바꿈 주의.
예시: 택배 최단 경로 탐색은 분석 대상과 방법 모두 명확 → 최적화(Optimization)
거버넌스 3 / 위험대응 4. 유사 단어 함정.
예시: '데이터 거버넌스 체계 수립 시 3대 구성요소는?' → 원칙 / 조직 / 프로세스
'전개·6단계'면 CRISP-DM, '5단계'면 KDD.
예시: '잡음·이상값·결측값을 식별하고 제거하는 단계는?' → KDD에서 데이터 전처리(Preprocessing)
통계 기초부터 머신러닝·R 프로그래밍까지. 공식과 함정 패턴 암기가 합격 전략입니다.
절대 0 있으면 비율, 없으면 구간. 키=비율, 온도=구간.
예시: 섭씨 온도는 절대영도가 섭씨 0도가 아니므로 절대 0 없음 → 구간척도(Interval)
층화 = 층내 동질. 집락 = 집락내 이질. 정반대 출제 주의.
예시: '모집단을 여러 집락으로 나눈 후 일부 집락을 전체 조사하는 방법은?' → 집락추출(Cluster Sampling)
표본 = n-1로 나누기. 모집단 = n으로 나누기.
예시: 데이터 [2,4,6,8,10]의 표본분산 = 편차제곱합(40) ÷ (n-1=4) = 10. 모분산이면 40÷5 = 8.
1종=참인데 기각. 2종=거짓인데 채택. p<0.05면 기각.
예시: '귀무가설이 참인데 기각하는 오류는?' → 제1종 오류(α, Type I Error)
t=평균, F=분산/ANOVA, 카이제곱=적합도/독립성.
예시: '세 집단 이상의 평균을 동시에 비교하는 분산분석은?' → ANOVA → F-분포 사용
Lasso=L1, Ridge=L2. VIF 10 이상이 문제.
예시: '회귀모형의 전체 유의성을 가장 먼저 확인할 지표는?' → F-통계량의 p-값
R² = SSR/SST. 범위 0~1 (-1~1 함정).
예시: SST=100, SSE=20일 때 SSR = 100-20 = 80 → R² = 80÷100 = 0.8
연속형 = 선형(lm). 범주형 = 로지스틱(glm).
예시: '고객 이탈 여부(이탈/유지)를 예측하는 모형은?' → 종속변수 범주형 → 로지스틱 회귀
AR=PACF 절단, MA=ACF 절단. 매칭 뒤바꿈 함정.
예시: 'PACF가 시점 3 이후 절단되었다면?' → AR(2) 모형 (p+1=3이므로 p=2)
CART=지니, CHAID=카이, C5.0=엔트로피. 매칭 뒤바꿈 함정.
예시: '범주형 종속변수에 지니지수, 연속형 종속변수에 분산감소량을 사용하는 알고리즘은?' → CART
배깅=동일 가중치(병렬). 부스팅=가중치 부여(순차).
예시: '잘못 분류된 데이터에 더 큰 가중치를 부여하여 순차 학습하는 기법은?' → 부스팅(Boosting)
향상도=1이면 독립. >1 양의 연관, <1 음의 연관.
예시: '향상도가 1인 두 품목의 관계는?' → 독립 (관련성 없음)
재현율 분모=실제 True. 정확도 분모=예측 True.
예시: '실제 양성 중 양성으로 맞춘 비율은?' → TP/(TP+FN) → 재현율(민감도)
벡터·행렬은 동일 타입만, 리스트·데이터프레임은 혼합 타입. apply 계열은 '반환형'이 정체입니다.
예시: '결과를 벡터로 단순화해 반환하는 함수는?' → sapply (lapply는 리스트 반환)
정규화(0~1)와 표준화(평균0·표준편차1)는 다릅니다. 파생변수(가공)와 요약변수(집계)도 구분하세요.
예시: '데이터를 0과 1 사이로 변환하는 기법은?' → Min-Max 정규화 (표준화는 평균0·표준편차1)
왜도는 좌우 비대칭, 첨도는 뾰족함. 중앙값은 이상값에 강건합니다.
예시: '분포가 오른쪽으로 긴 꼬리를 가지면?' → 왜도 양수 (첨도는 뾰족함 측정)
검정력은 1-β(1-α 아님). 유의수준 α는 제1종 오류, 신뢰수준이 높을수록 구간은 넓어집니다.
예시: '대립가설이 참일 때 귀무가설을 기각할 확률은?' → 검정력(1-β)
SVM은 마진 최대화, KNN은 게으른 학습, 나이브베이즈는 조건부 독립 가정입니다.
예시: '변수 간 조건부 독립을 가정하는 분류기는?' → 나이브베이즈
계층적·DBSCAN은 군집 수가 불필요, K-means는 필요. 실루엣은 1에 가까울수록 좋습니다.
예시: '군집 수를 미리 지정하지 않는 밀도 기반 기법은?' → DBSCAN
PCA·MDS·요인분석은 모두 차원축소. 상관관계는 인과관계가 아닙니다.
예시: '개체 간 거리를 보존하며 저차원에 시각화하는 기법은?' → MDS
부트스트랩은 복원추출, 교차검증은 k번 반복. AUC는 1에 가까울수록 우수합니다.
예시: '복원추출로 원본 크기 표본을 반복 생성하는 기법은?' → 부트스트랩
TDM은 단어×문서 행렬. SNA 중심성 4종(연결정도·매개·근접·위세)을 구분하세요.
예시: '다른 노드들의 최단 경로에 위치하는 정도는?' → 매개 중심성
활성화함수는 비선형 변환. 시그모이드 0~1, ReLU는 음수→0. 과적합은 학습만 잘됩니다.
예시: '학습 데이터엔 잘 맞지만 새 데이터 성능이 낮으면?' → 과대적합(Overfitting)