K-최근접이웃(KNN) | Notion

거리 기반 모델

데이터 간의 거리를 활용해서 새로운 데이터를 예측하는 모델, 가까이에 있는 데이터를 고려하여 예측값이 결정
다중 분류 문제에서 가장 간편히 적용할 수 있는 알고리즘
작은 데이터 셋에 적합하며 분류에서 사용
로지스틱 회귀로 해결할 수 없는 3개 이상의 목표 변수들도 분류 가능

장점

수식에 대한 설명이 필요 없을 만큼 직관적이고 간단
선형 모델과 다르게 별도의 가정이 없다.
- 선형 회귀는 독립 변수와 종속 변수의 선형 관계를 가정하고 있음

단점

데이터가 커질수록 상당히 느려질 수 있음
- 학습(fit)은 빠르지만 예측(predict)은 느릴 수 있음
아웃라이어에 취약

아웃라이어 : 평균치에서 크게 벗어나는 데이터를 의미(’이상치’라고도 함)

결측지 : 비어 있는 값 python 에서는 Null, na, NaN 등으로 표현

스케일링 : 독립 변수의 범위를 동일한 수준으로 만드는데 사용되는 방법

스케일링

표준화 스케일링

평균이 0이 되고, 표준편차가 1이 되도록 데이터를 고르게 분포시키는데 사용
결과물의 특징)

데이터에 아웃라이어가 존재할 때 아웃라이어의 영향을 받으며 평균 0, 분산 1이 되게끔 분포시키기 때문에, 데이터의 기존 분포 형태가 사라지고 정규 분포를 따르는 결과물을 가져옴

로버스트 스케일링

데이터에 아웃라이어가 존재하고, 그 영향력을 그대로 유지하고 싶을 때 사용
결과물의 특징)

데이터에 아웃라이어가 존재할 때, 아웃라이어의 영향을 받지 않으며, 변환된 데이터의 범위는 표준화 스케일링이나 최소-최대 스케일링보다 넓게 나타남