03. 분석방법론
분석 방법론 개요
데이터 분석을 체계화된 절차와 방법으로 정리(데이터 분석이 효과적으로 정착하기 위해 필요).
산출물, 프로젝트 성공 가능성을 확보, 제시 가능해야함.
구성 4가지: 절차, 방법, 도구와 기법, 템플릿과 산출물
방법론 생성과정
암묵지 > (형식화) > 형식지 > (체계화) > 방법론 > (내재화) > 암묵지
방법론의 특성에 따른 모델
- 폭포수 모델: 순차적 진행, 단계 완료 후 다음 단계 진행, 문제발생시 피드백 수행
- 나선형 모델: 반복을 통해 점증적 개발, 처음 시도하는 프로젝트에 용이, 복잡도 상승 가능성
- 프로토타입 모델: 초기 개발에 주로 사용함, 일부분만 우선 개발 -> 시험 사용 -> 개선
프로세스
단계 ⇒ 테스크 ⇒ 스텝
단계: 단계별 완료 보고서, 최상위 계층, 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성되어야 함.
테스크: 보고서, 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질검토의 항목.
스텝: 보고서 구성요소. 입력자료, 처리 및 도구, 출력 자료로 구성된 단위 프로세스.
KDD 분석 방법론
Knowledge Discovery in Databases.
Fayyad(1996)가 체계적으로 정리한 데이터 마이닝 프로세스다.
데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터시각화 등에서 응용될 수 있는 구조.
- 1) 데이터셋 선택
ㆍ사전에 분석 대상의 비지니스 도메인 이해와 프로세스 목표 설정 필수.
ㆍ데이터 마이닝에 필요한 목표데이터 구성.
- 2) 데이터 전처리
ㆍ정제: 잡음, 이상치, 결측치 식별ㆍ제거ㆍ재처리.
ㆍ추가 데이터셋이 필요한 경우 데이터 선택 프로세스 재진행.
- 3) 데이터 변환
ㆍ분석 목적에 맞게 변수 생성ㆍ선택, 데이터 차원 축소.
ㆍ학습용 데이터와 검증용 데이터로 데이터 분리.
- 4) 데이터 마이닝
ㆍ학습용 데이터 이용, 기법 선택과 알고리즘 적용하여 진행.
ㆍ필요에 따라 데이터 전처리와 데이터 변환프로세스를 추가로 실행.
- 5) 데이터마이닝 결과 평가
ㆍ결과 해석과 평가, 분석 목적과의 일치성 확인.
ㆍ데이터 마이닝으로 얻은 지식을 업무 활용하기 위한 방안 마련.
ㆍ필요에 따라 데이터 선택 프로세스 ~ 데이터 마이닝 프로세스 반복 수행
CRISP-DM 분석 방법론
Cross Industry Standard Process for Data Mining.
1996년 유럽연합의 ESPRIT에 있었던 프로젝트에서 시작.
- 1) 업무 이해
ㆍ프로젝트 목적과 상황, 업무목적, 프로젝트 계획 수립.
- 2) 데이터 이해
ㆍ데이터 수집, 데이터 속성 이해.
- 3) 데이터 준비
ㆍ분석 기법에 적합한 데이터 셋 선택, 데이터 정제, 통합.
- 4) 모델링
ㆍ모델링 기법과 알고리즘 선택, 파라미터 최적화, 과적합(over-fitting) 발견.
- 5) 평가
ㆍ모델이 프로젝트의 목적에 부합하는지 평가, 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가.
- 6) 전개
ㆍ완성된 모델을 실제 업무에 적용하기 위한 계획 수립 및 유지 보수 계획 마련, 프로젝트 종료 보고서 작성, 프로젝트 리뷰.
빅데이터 분석 방법론
데이터 분석 방법론 중의 하나다.
[단계 -> 태스크 -> 스탭]의 계층적 프로세스 모델의 형태를 가진다. 각 단계는 여러 태스크로 구성되고 태스크는 여러 개의 스텝으로 구성함.
- 분석 기획:
ㆍ비즈니스 이해 및 범위 설정: 프로젝트에 참여하는 관계자들의 이해를 일치시키기 위함. 프로젝트 범위 정의서(SOW) 작성.
ㆍ프로젝트 정의 및 계획 수립: 프로젝트 목표 수준 등을 구체화. WBS(work breakdown structure) 작성(팀의 작업을 관리 가능한 부분들로 조직화한 분업 구조)
ㆍ프로젝트 위험계획 수립: 데이터 분석 위험 식별, 계획 수립 단계에서 발생 가능한 모든 위험을 식별. 식별된 위험의 우선순위 결정. 위험 대응 계획 수립(위험관리 계획서)(회피 -> 전이 -> 완화 -> 수용).
- 데이터 준비: 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 검증.
ㆍ필요 데이터 정의:
데이터 획득 방안 수립.
데이터 정의서 작성: 메타정형데이터 정의서, ERD(entity relationship diagram)
ㆍ데이터 스토어 설계:
정형 데이터 스토어 설계: RDBMS 이용, 데이터 매핑 정의서
비정형 데이터 스토어 설계: 하둡, NoSQL 이용.
ㆍ데이터 수집 및 정합성(=무결성) 검증:
데이터 수집 및 저장: ETL 로 데이터 수집.
데이터 정합성(무결성) 점검.
- 데이터 분석: 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증, 모델 적용 및 운영방안 수립.
ㆍ분석용 데이터 준비:
비즈니스 룰 확인: 프로젝트 목표 정확히 인식.
분석용 데이터 셋 준비: 데이터 스토어로부터 분석에 필요한 정형, 비정형 데이터 추출.
ㆍ텍스트 분석: 어휘/구문ㆍ감정ㆍ토픽ㆍ오피니언ㆍ소셜 네트워크 분석
ㆍEDA(exploratory data analysis):
기초 통계량 산출, 데이터 분포와 변수간의 관계 파악.
데이터 시각화
ㆍ모델링
데이터 분할: 훈련용 데이터셋과 테스트용 데이터셋으로 분리하여 과적합 방지.
데이터 모델링.
모델 적용 및 운영 방안: 모델에 대한 상세한 알고리즘 작성.
ㆍ모델 평가 및 검증
테스트 데이터셋(test data)을 이용하여 모델 검증 작업 실시.
보고서 작성
- 시스템 구현: 설계 및 구현, 시스템 테스트 및 운영.(단위 테스트, 통합 테스트, 시스템 테스트)
- 평가 및 전개: 모델 발전계획 수립, 프로젝트 평가 및 보고.(프로젝트의 성과를 정량적, 정성적으로 평가. 최종 보고서 작성)