운동하는 공대생
Regression(회귀)-다항 회귀와 과적합/과소적합 이해 본문
파이썬 머신러닝 완벽 가이드(개정 2판) 책 내용을 정리한 내용입니다.
다항 회귀 이해
이전 공부한 내용까지는 단순 회귀에 관하여 설명했지만 이번에는 현실 상황에서 더 자주 있는 독립변수의 단항식이 아닌 2차, 3차 이상의 다항식일 경우에 해당하는 다항 회귀에 대햐여 이야기를 해보겠다.

다항 회귀는 단순회귀의 일차원 직선과 다르게 곡선형의 모양을 띄고 있다. 그래서 어떤 데이터에서는 선형 모델이 더 좋은 정확도를 보일 수도 있지만 일반적인 경우에는 다항 회귀 모델이 더 높은 정확도를 나타낸다.
다항 회귀를 이용한 과소적합 및 과적합 이해
과적합
다항 회귀 모델을 사용하는것이 항상 좋은 경우만 있는 것은 아니다. 이유는 항상 과소 적합과 과적 합의 오류를 신경을 써야 한다.
일단 과적합(overfitting)의 사전적인 의미는 아래와 같다.
과적합(過適合, overfitting) 또는 과대 적합(過大適合)은 기계 학습(machine learning)에서 학습 데이터를 과하게 학습(overfitting)하는 것을 뜻한다. 일반적으로 학습 데이터는 실제 데이터의 부분 집합이므로 학습데이터에 대해서는 오차가 감소하지만 실제 데이타에 대해서는 오차가 증가하게 된다.
그렇다면 과적합 말 그대로 과하게 학습하는 경우가 왜 안 좋은지 사진을 통해 설멍하겠다.

위의 사진에서 초록 색선이 과적합이 일어났을 때의 모델이고 검은색 선이 일반적인 모델이다. 이런 경우에 보통 일반적인 모델에서는 빨간색 데이터를 빨간색 데이터가 많은 쪽으로 예측을 하지만 과적합 상황의 모델을 빨 산색 영역의 데이터지만 파란색이라고 예측을 하는 경우가 발생한다. 즉 모델의 정확도가 과하게 학습을 시키면 낮아지는 결과가 나온다.
과적합 해결법
조기 중지
조기 중지는 기계 학습 모델이 데이터의 노이즈를 학습하기 전에 학습 단계를 일시 중지합니다. 그러나 타이밍을 맞추는 것이 중요합니다. 그렇지 않으면 모델은 여전히 정확한 결과를 제공하지 않습니다.
프루닝
모델을 작성할 때 최종 예측에 영향을 주는 여러 기능이나 파라미터를 식별할 수 있습니다. 기능 선택 또는 프루닝은 훈련 세트 내에서 가장 중요한 기능을 식별하고 관계없는 기능을 제거합니다. 예를 들어, 이미지가 동물인지 사람인지 예측하기 위해 얼굴 모양, 귀 위치, 신체 구조 등의 다양한 입력 파라미터를 볼 수 있습니다. 얼굴 모양을 우선시하고 눈 모양은 무시할 수 있습니다.
정규화
정규화는 과대 적합을 줄이기 위한 훈련/최적화 기술의 모음입니다. 이러한 방법은 중요도에 따라 기능을 등급 화하여 예측 결과에 영향을 미치지 않는 요소를 제거하려고 합니다. 예를 들어, 수학적 계산은 최소한의 영향으로 기능에 페널티 값을 적용합니다. 20년 후 도시의 주택 가격을 예측하려는 통계 모델을 고려해 보세요. 정규화는 인구 증가 및 평균 연간 소득과 같은 기능에 더 낮은 패널티 값을 부여하지만 도시의 평균 연간 온도에는 더 높은 패널티 값을 부여합니다.
앙상블 링
앙상블 링은 여러 개별 기계 학습 알고리즘의 예측을 결합합니다. 일부 모델은 결과가 부정확한 경우가 많기 때문에 취약한 학습자라고 합니다. 앙상블 방법은 취약한 학습자를 모두 결합하여 더 정확한 결과를 얻습니다. 여러 모델을 사용하여 샘플 데이터를 분석하고 가장 정확한 결과를 선택합니다. 2가지 주요 앙상블 방법은 배깅과 부스팅입니다. 부스팅은 서로 다른 기계 학습 모델을 차례로 훈련하여 최종 결과를 얻는 반면 배깅은 병렬로 훈련시킵니다.
데이터 증강
데이터 증강은 모델이 처리할 때마다 샘플 데이터를 약간씩 변경하는 기계 학습 기술입니다. 이렇게 하려면 입력 데이터를 조금만 변경하면 됩니다. 적당히 수행되면 데이터 증강은 학습 세트를 모델에 고유하게 표시하여 모델이 특성을 학습하지 못하게 합니다. 예를 들어, 변환, 뒤집기, 회전과 같은 변환을 입력 이미지에 적용합니다.
과소 적합
과적합에 대하여 알아보았는데 그렇다면 그 반대의 경우인 과소 적합은 어떨 때 발생을 하는지 알아보겠다.
과소 적합(過小適合, underfitting)은 기계 학습(machine learning)에서 통계 모형의 능력 부족으로 학습 데이터를 충분히 설명하지 못하도록 부족하게 학습된 것을 뜻한다.
과소 적합이 발생하는 상황에서 가장 큰 특징은 편향성을 가지는 것이다. 편항성이란 데이터가 한쪽으로 몰리는 현상을 말하며 분산과 반대의 성격을 띤다.
밑의 사진은 과소 적합에서 발생하는 편향성과 분산의 관계를 잘 표현한 그림이다. 먼저 왼쪽 상단의 그림은 적은 분산과 적은 편향성을 가진 데이터이면 실제 데이터와 가장 비슷하다고 볼 수 있다. 그리고 오른쪽 하단의 사진은 높은 분산과 높은 편향성을 띄는 데이터이다. 이렇게 실제 데이터가 과녁 중간이라고 했을 때 편향성이 높거나 낮고 그리고 분산이 높거나 낮을 때 어떻게 데이터가 분포되어 있는지 잘 알 수 있다.
일반적으로 편향성과 분산은 한쪽이 높으면 한쪽이 낮아지는 경향이 있다.

'Machine Learning' 카테고리의 다른 글
[Data Preprocessing] 교차검증(K-Fold, Stratified K-Fold, GridSearchCV) (0) | 2022.12.28 |
---|---|
Data Preprocessing(데이터 전처리)-Label encoding(레이블 인코딩),One-Hot encoding(원-핫 인코딩) (0) | 2022.11.22 |
Regression(회귀) - Gradient Descent(경사 하강법) (0) | 2022.11.04 |
Regression(회귀) Theory (0) | 2022.11.04 |
MLOps 이란? (0) | 2022.10.26 |