선형 회귀(Linear Regression)
독립 변수와 종속 변수 간에 선형 관계가 있음을 가정하여 최적의 선을 그려서 예측하는 방법
- 알려진 다른 관련 데이터 값을 사용하여 알 수 없는 데이터의 값을 예측하는 데이터 분석 기법 → 선형 방정식을 수학적으로 모델링

위와 같이 가장 많이 산점 분포가 많은 곳을 지나는 선형 적인 선을 그어 표시한다.
- 사람의 눈으로는 예측하기 어렵기 때문에 머신러닝에서는 손실 함수를 최소화하는 선을 찾아서 모델을 만들어낸다.
- 종속 변수와 독립 변수 간의 관계는 기울기로 나타내어 진다.
손실 함수 : 예측 값과 실제 값의 차이, 즉 오차를 평가하는 방법
오차를 평가하는 방법
-
MSE (평균 제곱 오차)

- 추정된 값과 실제 값 간의 평균 제곱 차이
- 장점)
- 정답에 대한 정답률의 오차뿐만 아니라 다른 오답에 대한 정답률의 오차도 포함하여 계산
- MAE와 달리 최적 값에 가까워질수록 이동 값이 다르게 변화하기 때문에 최적 값에 수렴하기 용이하다.
- 모든 함수 값에 미분이 가능
- 단점)
- 값을 제곱하기 때문에 절댓값이 1미만인 값은 더 작아지고, 1보다 큰 값은 더 커지는 왜곡이 발생
- 제곱하기 때문에 이상치의 영향을 많이 받음
-
MAE(평균 절대 오차)
- 오차의 절대 값의 합을 평균낸 지표
- 절대값을 평균낸 값이기에 아무래도 전체 흐름 쉽게 파악 가능하고 이상치에 민감하지 않음
- 오차의 가중치가 같음
- 장점)
- 학습의 정도를 쉽게 파악
- 이상치에 민감하지 않음
- 단점)
- 오차 발생 원인을 알 수 없다.
- 최적값에 가까워졌다 해도 이동거리가 일정하기 때문에 최적 값에 수렴하기 어려움
- 함수 값에 미분 불가능한 지점 존재
-
RMSE(루트 평균 제곱근 오차)
- MSE값에 루트를 취한 것
- 각 오차가 다른 가중치를 가짐
- 장점)
- 단점)
- 부드러운 곡선형으로 오차함수가 그려지는 반면, MSE에 루트 취한 값이기에 미분 불가능한 지점을 가짐
다중 선형 회귀
하나의 종속 변수와 여러 독립 변수가 포함, 여러 변수와 그 변수가 결과에 미치는 영향을 모델링
예시)
- 강우량, 온도 및 비료 사용에 작물 수확량에 미치는 영향
- 식이요법과 운동이 심장병에 미치는 영향
- 임금 인상과 인플레이션이 주택 금리에 미치는 영향
로지스틱 회귀
- 선형 회귀 분석과는 다르게 종속 변수가 범주형 데이터를 대상으로 하며 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 분류 기법으로 볼 수 있음
- 이벤트 발생 확률 측정, 예측은 0과 1 사이의 값, 여기서 0은 발생할 가능성이 낮은 이벤트 나타냄 1은 발생할 가능성이 가장 높은 이벤트를 나타낸다.