데이터 분석/머신러닝
분류 분석
교정이
2022. 3. 11. 19:11
분류(classification) 알고리즘은 예측하려는 대상의 속성(독립 변수)를 입력 받고, 종속변수가 갖고 있는 카테고리(범주형) 값 중에서 어느 한 값으로 분류하여 예측한다.
고객 분류, 질병 진단, 스팸 메일 필터링, 음성 인식 등 종속 변수가 카테고리 값을 갖는 경우에 사용하며 KNN, SVM, Decision Tree, Logistic Regression 등 다양한 알고리즘이 존재한다.
분류 분석의 목적
분류 분석은 분석목적에 따라 두 가지의 의미를 갖는데,
- 첫째는 사전에 정의된 둘 이상의 집단의 차이를 분류할 수 있는 분류기(classifier)를 찾아내는 훈련의 방법을 말하며,
- 둘째는 이렇게 훈련을 거쳐 준비된 분류기를 활용하여 데이터 세트의 개별 관측값들이 어느 집단에 속하게 될지를 결정하는 방법을 말한다.
여기서 중요한 것은 각 '집단' 이 이미 분석가에게는 명확히 혹은 잠정적으로 알려져 있다는 것이다. 따라서 분석가는 컴퓨터가 열심히 분류 분석을 해 놓으면 그 결과를 '답안지' 를 통해 채점한다고도 볼 수 있다. 때문에 지도 학습 유형에 속하는 알고리즘이다.