KNN(k-nearest-neighbors)는 새로운 관측값이 주어지면 기존 데이터 중에서 가장 속성이 비슷한 k개의 이웃을 먼저 찾는다. 그리고 가까운 이웃들이 갖고 있는 목표 값과 같은 값으로 분류하여 예측한다. 따라서 KNN 알고리즘은 지도학습의 한 종류로 거리기반 분류분석 모델이다. k 값에 따라 예측의 정확도가 달라지므로, 적절한 k값을 찾는 과정이 매우 중요하다. KNN은 데이터 간 거리를 참조할 때 '유클리디안 거리' 계산법을 사용한다. 간단하지만 이미지 처리, 영상 인식, 추천 알고리즘, 데이터의 패턴 인식 등으로 사용할 수 있다. 명목 데이터를 처리하고자 할 때, 유클리디안 거리 계산은 명목 데이터를 처리할 수 없으므로, 수치 형식으로 변환해야 한다. 이때 '더미 코딩'을 활용할 수 있다..