거리 기반 모델
데이터 간의 거리를 활용해서 새로운 데이터를 예측하는 모델, 가까이에 있는 데이터를 고려하여 예측값이 결정
다중 분류 문제에서 가장 간편히 적용할 수 있는 알고리즘
작은 데이터 셋에 적합하며 분류에서 사용
로지스틱 회귀로 해결할 수 없는 3개 이상의 목표 변수들도 분류 가능
아웃라이어 : 평균치에서 크게 벗어나는 데이터를 의미(’이상치’라고도 함)
결측지 : 비어 있는 값 python 에서는 Null, na, NaN 등으로 표현
스케일링 : 독립 변수의 범위를 동일한 수준으로 만드는데 사용되는 방법
표준화 스케일링
평균이 0이 되고, 표준편차가 1이 되도록 데이터를 고르게 분포시키는데 사용
결과물의 특징)
데이터에 아웃라이어가 존재할 때 아웃라이어의 영향을 받으며 평균 0, 분산 1이 되게끔 분포시키기 때문에, 데이터의 기존 분포 형태가 사라지고 정규 분포를 따르는 결과물을 가져옴
로버스트 스케일링
데이터에 아웃라이어가 존재하고, 그 영향력을 그대로 유지하고 싶을 때 사용
결과물의 특징)
데이터에 아웃라이어가 존재할 때, 아웃라이어의 영향을 받지 않으며, 변환된 데이터의 범위는 표준화 스케일링이나 최소-최대 스케일링보다 넓게 나타남