1. 회귀 모델
독립 변수와 종속 변수 사이의 관계를 파악하여 특정 변수 값을 예측하는 통계적 기법, 쉽게 말해 과거의 데이터를 기반으로 미래의 값을 예측하는 모델입니다.
주식 가격 예측, 주택 가격 예측 등에 사용됩니다.
회귀 모델은 각 특성이 동일한 중요도와 스케일을 가지고 있다고 가정하여, 모델 학습을 수행합니다. 그래서 전처리(preprocessing)과정에서 minmaxscaling보다는 표준화(standardization)가 더 적합합니다.
이상치 때문인데 minmax는 이상치가 존재할 경우 0~1 사이로 압축되는 과정에서 극단적인 값들이 모델에 큰 영향을 줄 수 있습니다. 표준화는 평균과 표준편차를 사용하기 때문에 이상치가 있더라도 분포를 균일하게 유지할 수 있게 해줍니다.(데이터와 목적에 따라 전처리는 다르게 해주어야 합니다.)
1-1. 이름은 회귀(Regression)인데 왜 예측인가?
19세기 후반에 영국의 프랜시스 갈턴이라는 통계학자가 부모와 자녀 사이 키에 관한 유전적 특성을 연구하는데서 유래했습니다. 키가 큰 부모는 키큰 자녀를 두는 경향이 있고, 키가 작은 부모는 키 작은 부모를 두는 경향이 있지만, 결국 자녀들의 키는 평균으로 회귀하게 된다는 것을 알아냈습니다.
그는 이것을 회귀 현상이라고 불렀는데, 그 때의 관성이 지금까지 이어져 오고 있다고 합니다.
2. 회귀 모델 성능지표
회귀 모델은 주어진 데이터로부터 연속적인 값을 예측하는 작업이라고 했습니다.
그러면 실제값(y)과 예측값(y^)이 있는데, 그 둘의 차이가 모델의 성능이며 오차를 확인하는 방법은 뺄셈 연산을 사용하는 겁니다.
다음은 예측 값과 실제 값의 차이를 측정하는 지표들 입니다.
2-1. MAE(Mean Absolute Error, 평균 절대 오차)
예측 값과 실제 값의 차이의 절대 값의 평균을 의미
평균적으로 얼마나 잘못 예측했는지를 의미합니다.
오차의 크기를 절대값으로 계산하며, 큰 오차와 작은 오차 모두 같은 중요도로 판단합니다.
- 직관적인 해석
1. MAE가 5라면 모델 예측 값이 실제 값과 평균적으로 5만큼 차이남을 의미합니다.
2. MSE에 비해 이상치에 덜 민감
2-2. MSE(Mean Squared Error, 평균 제곱 오차)
예측 값과 실제 값 사이의 오차를 제곱하여 평균을 구하는 방식
큰 오차가 발생할 경우 그 오차를 제곱하여 큰 값을 반영 > 큰 오차를 줄여야 하는 문제에 유용
- 이상치(outlier)에 민감
1. 큰 오차가 있을 경우 그 오차가 제곱되어 전체 성능 평가에 과도한 영향 -> 모델 성능 과소 평가
2. 원래 데이터 단위의 제곱 값이므로, 직관적 해석 곤란
> 심각한 데이터를 놓치면 안되는 의료 데이터에 적합한 지표입니다.
2-3. MAPE(Mean Absolute Percentage Error, 평균 절대 백분율 오차)
예측 값과 실제 값의 차이의 백분율로 나타낸 후, 그 절대값의 평균
*단위가 없는 백분율로 표현되기 때문에 서로 다른 스케일의 데이터셋 간 비교 가능
- 해석의 용이성
MAPE는 오차를 백분율(%)로 나타내므로, 직관적이고 해석이 용이
MAPE가 5%라면, 예측값과 실제값이 5% 정도 오차 의미
상품별로 예측된 판매량과 실제 판매량 간의 오차를 측정해 예측 성능 평가에 용이합니다.
'[머신러닝]' 카테고리의 다른 글
[머신러닝] 혼동행렬(Confusion Matrix)과 성능지표 (0) | 2024.10.15 |
---|---|
[머신러닝] TF-IDF란? (0) | 2024.05.07 |
[머신러닝] 문장 유사도 분석을 위한 Levenshtein Distance(편집거리 알고리즘) 행렬 구하기 (0) | 2024.04.18 |
[통계] 중앙값, 중간범위, 평균, 최빈값, 범위, 표준편차, 정규분포, 편향, 분산 (0) | 2023.07.15 |