운동하는 공대생

Regression(회귀) Theory 본문

Machine Learning

Regression(회귀) Theory

운동하는 공대생 2022. 11. 4. 16:18
728x90
반응형

1.What is Regression

  • 회귀(regression)는 머신러닝 분야에서 가장 일반적이고 흔한 이론이다. 통계학에서는 '회귀는 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통 친한다.'라고 표현한다.
  •  이걸 수학적 공식으로 생각을 해보자면 y=W1*X1+W2*X2+....+WnXn라고 한다면 여기서 각각의 미지수 X는 독립변수 Y는 종속 변수라고 이야기한다. 그리고 여기서 W는 독립변수 X에 영향을 미치는 회귀 계수이다.

 

독립변수 개수 회귀 계수의 결합
1개: 단일 회귀 선형: 선형 회귀
여러 개: 다중 회귀 비선형: 비선형 회귀

 

이렇게 독립변수의 개수가 한 개인지 여러 개인지에 따라 단일 회귀, 다중 회귀로 구분한다. 

 

  • 이제 이전에 글을 올렸던 분류(Classification) 과는 무슨 차이가 있는지 알아보면 먼저 분류는 0 , 1 등 보통 이상치나 어떤 특성에 해당이 되는지를 판단하는 데이터에서 주로 사용이 되지만 회귀(Regression) 모델은 보통 판매량, 수요량, 나이 등과 값이 연속적인 숫자 값을 예상하는 상황에서 주로 사용된다.

 

  • 이런 회귀 중에서는 가장 많이 쓰이는 방법은 선형 회귀이다. 이는 실제 값과 예측값의 차이를 최소화하는 직선형 회귀선을 최적화하는 방식이다. 그래프를 그렸을때 실제 데이터와 예측하는 데이터의 기울기 값의 차이를 초소화한다고 생각하면 편하다.

 

 

2. 단순 선형 회귀를 통한 회귀 이해

  •  독립변수와 종속변수가 각각 하나인 단순 선형 회귀를 먼저 설명을 하자면 종속변수와 독립변수가 각각 한개 임으로 1차원 그래프로 표현을 한다면 1차 함수 y=ax+b 형식으로 표현이 가능하다.

 

  • 이때 여기서 실제 값이 주황색 데이터라고 하였을 때 실제 데이터와 예측값의 오차를 판단하고 그 오차값을 이용해서 오류의 절댓값을 취해서 더하거나(Mean Absolute Error), 오류 값의 제곱을 구해서 더하는 방식(RSS, Residual Sum of Square)을 취한다. 보통 RSS 방식을 사용한다.

종속변수(y: 실제값)에서 독립변수(x)에 대한 예측값의 차 제곱의 합

 머신러닝 분야에서 이런 RSS는 비용이며 변수로 구성된 RSS를 비용 함수라고 한다. 이는 이후 모델의 오류를 비용이 최소화되도록 해야 한다.

 

 

728x90
반응형
Comments