3과목 데이터 분석텍스트 마이닝비정형 마이닝 (텍스트·SNA)
텍스트 마이닝에 대한 설명으로 옳은 것은?
- (a)코퍼스(Corpus)는 분석 결과로 도출된 단어의 빈도표를 의미한다
- (b)TDM(Term-Document Matrix)은 단어를 행, 문서를 열로 구성한 행렬이다정답
- (c)텍스트 마이닝은 정형 데이터만을 분석 대상으로 한다
- (d)형태소 분석은 문서 간 유사도를 계산하는 기법이다
핵심 개념
TDM은 단어×문서 행렬. SNA 중심성 4종(연결정도·매개·근접·위세)을 구분하세요.
TDM: 단어 행 × 문서 열 행렬
전처리: 불용어 제거·토큰화·어간 추출
감성분석: 주관적 태도 분석
SNA 중심성: 연결정도(연결 수)/매개(최단경로)/근접(거리)/위세(영향력)
밀도: 가능 연결 대비 실제 연결 비율
함정: 중심성 4종 정의 뒤바꿈
예시: '다른 노드들의 최단 경로에 위치하는 정도는?' → 매개 중심성
해설
TDM(단어-문서 행렬)은 단어를 행, 문서를 열로 두고 출현 빈도를 행렬로 표현합니다. 코퍼스(a)는 분석 대상이 되는 문서들의 집합이지 빈도표가 아니며, 텍스트 마이닝(c)은 비정형 데이터를 다루고, 형태소 분석(d)은 문장을 의미 단위로 분해하는 전처리 과정으로 유사도 계산과 다릅니다.