목록대학원생 (31)
운동하는 공대생

파리는 유럽 여행을 계획하면서 제일 먼저 떠올랐던 도시이다. 낭만의 도시 이기도 하고 파리라는 도시가 나에게는 유럽이라는 지역의 상징이라고 어릴 때부터 생각을 했던 것 같다. 파리에 간다는 기대를 하려고 했지만 주변에서는 너무 기대를 하지 말라는 이야기를 많이 들었어서 절반정도는 포기하고 파리 여행을 시작하였다. 파리의 일정은 동행을 한 이후에 일정이라 저녁부터 시작했는데 딱히 당일 일정을 정한게 없어서 하루종일 걸었다. 여기서 느낀건 파리는 정말 걷기가 너무 좋은 도시였고 또 저녁에 더 아름다운 도시인 거 같았다. 나에게 파리의 저녁이란 영화에서 나오는 이미지처럼 그런 느낌을 주었다. 그렇게 나는 파리의 밤거리를 쭉 걷다가 자연스럽게 루브르와 오르세 미술관을 지나가게 되었다. 루브르는 예약을 안해서 (..

1. How to Update the Parameter 이전까지 모델의 Error를 구하고 모델이 가지고 있는 변수들의 의미를 알아보았다. 하지만 여기서 이제는 그럼 파라미터를 업데이트하는 학습의 과정은 어떻게 이루어지는지를 설명을 해보도록 하겠다. 예시를 들어 설명을 하자면 위와 같은 데이터가 있다고 가정해보자. 그리고 h(x)라는 basis 모델이 있다고 가정을 해보겠다. 여기서 파라미터의 값을 gradient descent 방식으로 업데이트를 한다고 가정하면 파라미터 값을 임의의 값으로 초기화를 시켜주고 데이터를 대입하여 error를 계산하고 그 값을 통해서 파라미터를 업데이트하는 방식으로 적용이 된다. 위의 식에서 처럼 LSE 방식을 활용하여서 전체 데이터와 정답인 y값의 차이를 활용하여서 err..

첫 유럽여행을 25일을 잡았다. 유럽도 처음이고 혼자 가는 여행도 처음이라 이것저것 챙길 거라 생각했지만 생각보다 별로 짐이 없었다. 대한항공은 24키로 챙기는 게 가능해서 여유 있게 17킬로(?)를 챙겼다 ㅎㅎ (혼자 가는 거지만 그래도 남들 하는 건 다 하는 사람) 14시간 비행이라 막막하다 싶었는데 네덜란드로 가는 거라 생각보다 비행기가 널찍했다. 진짜 대한항공 탄다면 라면은 꼭 먹자!! 그리고 이번에 비빔밥이 없어서 좀 아쉬웠다.. 네덜란드에 도착해서는 강력한 비바람으로 첫 유럽 느낌은 일단 신나진 않았다. 그리고 생각보다 대마 냄새가 안 나서 약간 섭섭하기도 했다. 이름은 기억이 안나지만 암스에서 유명한 광장 또 암스에서 유명한 감튀집 (맛은 그냥 그럼..) 일단 찍기 유럽의 첫 느낌은 일단 겨..

https://arxiv.org/abs/1503.02406 Deep Learning and the Information Bottleneck Principle Deep Neural Networks (DNNs) are analyzed via the theoretical framework of the information bottleneck (IB) principle. We first show that any DNN can be quantified by the mutual information between the layers and the input and output variables. Using this re arxiv.org 1. Introduction 논문에서는 현재 많이 사용하고 있는 딥러닝 분야에..

1. CNN(Convolution Neural Network) 합성곱 신경망(CNN, Convolutional Neural Network)은 컴퓨터 비전 작업을 위해 특히 유용한 딥 러닝 모델 중 하나입니다. 아래에서 CNN의 기본 개념과 작동 방식을 설명하겠습니다. 1. 컨볼루션(Convolution): CNN은 주로 이미지 처리에 사용되며, 이러한 이미지는 2D 그리드로 표현됩니다. 컨볼루션은 이러한 이미지에 필터(또는 커널)를 적용하여 특징을 추출하는 과정입니다. 각 필터는 입력 이미지에서 작은 영역을 선택하고 가중치를 적용하여 출력 특징 맵을 생성 합니다. 필터를 이동하면서 이미지 전체를 훑어가면서 특징을 추출합니다. 2. 필터(커널): 필터는 작은 가중치 행렬로, 입력 이미지에서 특정한 특징을 ..

이전까지 이제 hypothesis function을 구성하는 parameter들을 MSE(Mean Squared Error)를 통해서 Error를 구하고 Cost Function 또 구성하는 parameter를 Least Square 방식을 통해서 구하는 거에 대하여 공부했다. 이번에는 Gradient Descent 방식을 통해서 구하는 것에 대하여 정리하겠다. 1. Gradient Descent 기본적인 프로세스는 cost function에서 일정 파라미터에 대하여 특정 시작점을 지정하고 점점 이동하면서 목표로 하는 지점까지 이동하는 방식이다. 한국어로 해석하면 경사하강법이라고 이야기를 한다. 식을 통해서 알 수 있듯이 파라미터의 값을 일정 gradient 값과 알파 값을 곱한 값을 빼서 파라미터를 업..

Linear Regression에서 기본적인 프로세스는 1. Hypothesis를 지정 2. Model train 3. 예측 이렇게 구성이 된다. 모델에 대한 함수를 지정하고 데이터를 기반으로 함수에 대한 파라미터를 정해나가는 방식이라고 생각할 수 있다. 1. 용어 정리 먼저 데이터의 구성이 1차원이라고 가정을 한다면 x : input feature(입력 데이터) y : target variable(목표 변수) (x, y) : 훈련 데이터 (x(i), y(i)) : i번째 훈련 데이터 2. Error Error 란 모델이 예측한 값과 실제값의 차이를 Error 혹은 Cost라고 한다. 그리서 이런 값들을 최소화하는 게 모델 훈련의 목적이라고 이야기를 할 수 있다. 그렇다면 이런 Error를 구하는 방식은..

논문 https://arxiv.org/abs/2008.00623v2 DeLighT: Deep and Light-weight Transformer We introduce a deep and light-weight transformer, DeLighT, that delivers similar or better performance than standard transformer-based models with significantly fewer parameters. DeLighT more efficiently allocates parameters both (1) within each Transforme arxiv.org 1. Introduction 이 논문에서 제시하는 DeLighT 모델은 기존 transfo..