데이터 공부/빅데이터

03. 분석방법론

교정이 2022. 2. 18. 16:35

 

분석 방법론 개요

 

데이터 분석을 체계화된 절차와 방법으로 정리(데이터 분석이 효과적으로 정착하기 위해 필요).

산출물, 프로젝트 성공 가능성을 확보, 제시 가능해야함.

구성 4가지: 절차, 방법, 도구와 기법, 템플릿과 산출물

 

방법론 생성과정

 

암묵지 > (형식화) > 형식지 > (체계화) > 방법론 > (내재화) > 암묵지

 

 

방법론의 특성에 따른 모델

- 폭포수 모델: 순차적 진행, 단계 완료 후 다음 단계 진행, 문제발생시 피드백 수행

- 나선형 모델: 반복을 통해 점증적 개발, 처음 시도하는 프로젝트에 용이, 복잡도 상승 가능성

- 프로토타입 모델: 초기 개발에 주로 사용함, 일부분만 우선 개발 -> 시험 사용 -> 개선

 

프로세스

단계 ⇒ 테스크 ⇒ 스텝

단계: 단계별 완료 보고서, 최상위 계층, 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성되어야 함.

테스크: 보고서, 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질검토의 항목.

스텝: 보고서 구성요소. 입력자료, 처리 및 도구, 출력 자료로 구성된 단위 프로세스.


KDD 분석 방법론

 

Knowledge Discovery in Databases.

Fayyad(1996)가 체계적으로 정리한 데이터 마이닝 프로세스다.

데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터시각화 등에서 응용될 수 있는 구조.

 

 

- 1) 데이터셋 선택

ㆍ사전에 분석 대상의 비지니스 도메인 이해와 프로세스 목표 설정 필수.

ㆍ데이터 마이닝에 필요한 목표데이터 구성.

 

- 2) 데이터 전처리

ㆍ정제: 잡음, 이상치, 결측치 식별ㆍ제거ㆍ재처리.

ㆍ추가 데이터셋이 필요한 경우 데이터 선택 프로세스 재진행.

 

- 3) 데이터 변환

ㆍ분석 목적에 맞게 변수 생성ㆍ선택, 데이터 차원 축소.

학습용 데이터검증용 데이터로 데이터 분리.

 

- 4) 데이터 마이닝

ㆍ학습용 데이터 이용, 기법 선택과 알고리즘 적용하여 진행.

ㆍ필요에 따라 데이터 전처리와 데이터 변환프로세스를 추가로 실행.

 

- 5) 데이터마이닝 결과 평가

ㆍ결과 해석과 평가, 분석 목적과의 일치성 확인.

ㆍ데이터 마이닝으로 얻은 지식을 업무 활용하기 위한 방안 마련.

ㆍ필요에 따라 데이터 선택 프로세스 ~ 데이터 마이닝 프로세스 반복 수행

 

 

CRISP-DM 분석 방법론

 

Cross Industry Standard Process for Data Mining.

1996년 유럽연합의 ESPRIT에 있었던 프로젝트에서 시작.

 

 

- 1) 업무 이해

ㆍ프로젝트 목적과 상황, 업무목적, 프로젝트 계획 수립.

 

- 2) 데이터 이해

ㆍ데이터 수집, 데이터 속성 이해.

 

- 3) 데이터 준비

ㆍ분석 기법에 적합한 데이터 셋 선택, 데이터 정제, 통합.

 

- 4) 모델링

ㆍ모델링 기법과 알고리즘 선택, 파라미터 최적화, 과적합(over-fitting) 발견.

 

- 5) 평가

ㆍ모델이 프로젝트의 목적에 부합하는지 평가, 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가.

 

- 6) 전개

ㆍ완성된 모델을 실제 업무에 적용하기 위한 계획 수립 및 유지 보수 계획 마련, 프로젝트 종료 보고서 작성, 프로젝트 리뷰.

 

 

빅데이터 분석 방법론

 

데이터 분석 방법론 중의 하나다.

[단계 -> 태스크 -> 스탭]의 계층적 프로세스 모델의 형태를 가진다.  각 단계는 여러 태스크로 구성되고 태스크는 여러 개의 스텝으로 구성함.

 

- 분석 기획: 

 

비즈니스 이해 및 범위 설정: 프로젝트에 참여하는 관계자들의 이해를 일치시키기 위함. 프로젝트 범위 정의서(SOW) 작성.

프로젝트 정의 및 계획 수립: 프로젝트 목표 수준 등을 구체화. WBS(work breakdown structure) 작성(팀의 작업을 관리 가능한 부분들로 조직화한 분업 구조)

프로젝트 위험계획 수립: 데이터 분석 위험 식별, 계획 수립 단계에서 발생 가능한 모든 위험을 식별. 식별된 위험의 우선순위 결정. 위험 대응 계획 수립(위험관리 계획서)(회피 -> 전이 -> 완화 -> 수용).

 

- 데이터 준비: 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 검증.

 

필요 데이터 정의:

   데이터 획득 방안 수립.

   데이터 정의서 작성: 메타정형데이터 정의서, ERD(entity relationship diagram)

ERD. https://www.yamestyle.com/281

ㆍ데이터 스토어 설계:

   정형 데이터 스토어 설계: RDBMS 이용, 데이터 매핑 정의서

   비정형 데이터 스토어 설계: 하둡, NoSQL 이용.

 

데이터 수집 및 정합성(=무결성) 검증:

   데이터 수집 및 저장: ETL 로 데이터 수집.

   데이터 정합성(무결성) 점검.

 

데이터 분석: 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증, 모델 적용 및 운영방안 수립.

 

분석용 데이터 준비

   비즈니스 룰 확인: 프로젝트 목표 정확히 인식.

   분석용 데이터 셋 준비: 데이터 스토어로부터 분석에 필요한 정형, 비정형 데이터 추출.

 

텍스트 분석: 어휘/구문ㆍ감정ㆍ토픽ㆍ오피니언ㆍ소셜 네트워크 분석

 

ㆍEDA(exploratory data analysis):

   기초 통계량 산출, 데이터 분포와 변수간의 관계 파악.

   데이터 시각화

 

ㆍ모델링

   데이터 분할: 훈련용 데이터셋테스트용 데이터셋으로 분리하여 과적합 방지.

   데이터 모델링.

   모델 적용 및 운영 방안: 모델에 대한 상세한 알고리즘 작성.

 

모델 평가 및 검증

    테스트 데이터셋(test data)을 이용하여 모델 검증 작업 실시.

    보고서 작성

 

- 시스템 구현: 설계 및 구현, 시스템 테스트 및 운영.(단위 테스트, 통합 테스트, 시스템 테스트)

 

- 평가 및 전개: 모델 발전계획 수립, 프로젝트 평가 및 보고.(프로젝트의 성과를 정량적, 정성적으로 평가. 최종 보고서 작성)