운동하는 공대생

[Machine Learning] 머신러닝에서 딥러닝까지 이론 정리 (2) 본문

Machine Learning

[Machine Learning] 머신러닝에서 딥러닝까지 이론 정리 (2)

운동하는 공대생 2024. 3. 13. 15:21
728x90
반응형

1. How to Update the Parameter 

 

이전까지 모델의 Error를 구하고 모델이 가지고 있는 변수들의 의미를 알아보았다. 하지만 여기서 이제는 그럼 파라미터를 업데이트하는 학습의 과정은 어떻게 이루어지는지를 설명을 해보도록 하겠다.

 

예시를 들어 설명을 하자면 위와 같은 데이터가 있다고 가정해보자.  그리고 h(x)라는 basis 모델이 있다고 가정을 해보겠다.

 

여기서 파라미터의 값을 gradient descent 방식으로 업데이트를 한다고 가정하면 파라미터 값을 임의의 값으로 초기화를 시켜주고 데이터를 대입하여 error를 계산하고 그 값을 통해서 파라미터를 업데이트하는 방식으로 적용이 된다. 

 

위의 식에서 처럼 LSE 방식을 활용하여서 전체 데이터와 정답인 y값의 차이를 활용하여서 error 값을 구하게 되고

각각의 파라미터를 기준으로 미분을 하여 gradient 값을 구하게 된다. 이 값을 통해서 기존에 임의로 설정했던 초기값에서 lr(learning rate) 값을 곱한 gradient 값을 빼줌으로서 파라미터를 업데이트한다.

 

이렇게 파라미터를 업데이트하는 과정을 훈련 과정이라고 볼 수 있다.

 

여기서 중요한 점을 error를 구하는 방식이나 파라미터를 업데이트하는 방식에 따라서 다양한 방향으로 모델을 학습하고 결정하는 게 가능해진다.

 

 

2. Linear Basis Function Model

 

선형 모델 중에서 basis 함수가 달라짐에 따라서 모델의 가지고 있는 특성이 달라지게 되는 게 간단한 예시 몇 가지를 설명을 해보겠다.

 

 

 

 

여기서 가우시안이나 시그모이드 basis function은 exponential 함수를 사용하면서 선형적인 함수의 모양이 비선형적인 특성을 가지게 된다. 그래서 선형적인 모델을 기준으로 하여서 error를 계산하는 LSM 방식은 적절하지 않다 그래서 이런 모델을 학습하기 위해서는 보통 MLE(Maximum Likelihood Estimation) 함수를 사용하게 된다.

 

위의 식에서와 같이 Normal Distribution을 따른다고 가정한다면 데이터를 잘 설명하는 정규분포의 합성곱을 연산을 하게 되는데 여기서 log 값을 양변에 취하면 합의 형식으로 변하게 된다. 이는 식을 전개해 본다면 결국에는 error의 값을 구하는 식이 마지막에 남게 되는데 여기서 likelihood를 최대화하는 문제는 error의 총합을 최소화하는 문제로 변경되게 되면서 결국에는 MLE와 LSM이 같은 문제임을 알 수 있다. 

 

728x90
반응형
Comments