목록딥러닝 (62)
운동하는 공대생

논문 https://arxiv.org/abs/2008.00623v2 DeLighT: Deep and Light-weight Transformer We introduce a deep and light-weight transformer, DeLighT, that delivers similar or better performance than standard transformer-based models with significantly fewer parameters. DeLighT more efficiently allocates parameters both (1) within each Transforme arxiv.org 1. Introduction 이 논문에서 제시하는 DeLighT 모델은 기존 transfo..

1. Logistic regression Logistic regression 은 classification 에서의 모델의 한 종류로서 sigmoid 함수를 이용한 방식으로 결과를 [0,1] 사이의 값으로 반환하여서 classification 을 수행하는 방식이다. LSE 방식은 예측값과 결괏값 0 , 1 의 차이를 통해서 에러를 계산하고 MLE 방식에서는 0일 확률과 1에서 0일 확률을 뺀 1일 확률을 기준으로 확률값으로 에러를 계산한다. 2. Binary Classification Binary Classification 에서는 기본적인 함수와 w0 bias 와 같이 구성되어 있다. classification 에서는 그래프에서 표시되는 hyperplain이 그 데이터의 값을 표시하거나 하는것이 아니라 데..

1. Linear Basis Function Models 이전까지는 모델에 대하여 단지 다항함수로만 표현을 했지만 이것을 통합적으로 표현 가능한 수식이 존재한다. 여기서 parameter값이 w를 제외한 함수를 basis 함수라고 이야기한다. 다항함수로 구성된 basis 함수를 M 값에 따라서 다양하게 표현이 가능하고 이는 matrix의 형식으로 표현한다. 기본 식에서 basis function 이 이제 일반적인 다항함수 일 때의 모습을 왼쪽 그림으로 표현이 가능하다. 가우시안을 따르는 basis function은 uj의 값에 따라서 위치만 이동할 뿐 모양을 일정하다. 하지만 uj와 s는 각각 하이퍼 파라미터로서 가각 위치와 스케일을 지정한다. 이렇게 값을 구분하는 basis function 을 지정하는..

이전까지 이제 Error를 구하는 함수 objective function과 그리고 그 함수를 최소화하는 gradient descent 방식에 대하여 알아보았다. 1. Polynomial curve fitting 위의 그림처럼 각 예측하는 함수를 구성할때 다항함수를 이용할 때 차수를 늘리면 발생하는 문제들을 볼 수 있다. 차수가 너무 낮아 모델이 단순하면 첫 번째 그림처럼 모들 데이터들을 구분하기가 어렵다. 그리고 너무 차수가 높으면 과적합 문제인 overfitting이 발생한다. 2. Overfitting , Unterfitting 이제 2가지 가정을 하고 예시를 통해서 이해를 해보자. 가정 1: 먼저 Error를 계산하는 함수는 RMS(Root-Mean-Square) Error 함수로 지정한다. 이는 ..

1. Linear Regression house price를 예시로 데이터 포인트를 좌표 평면상에 표시를 한다면 linear 함수로 표현하는 게 가능하다. h(x) = 𝛳0 + 𝛳1X1 이렇게 1차함수로 표시가 가능하다. => 여기서 𝛳0, 𝛳1 이 함수 모델의 형태를 결정하는 "parameters"라고 이야기한다. 그리고 input 하는 데이터나 parameter의 표현은 벡터로 표시한다. 위에서는 input 하는 x 의 데이터의 수가 multiple 한 상화에 대한 식이다. 여기서 이 linear 함수 h(x)는 데이터 포인트의 input 값들(x1, x2, x3)과 파라미터들을 기준으로 값이 판명된다. 여기서 x0=1차원이 항상 존재하면 𝛳0의 파라미터를 bias라고도 한다. 목표: 데이터 포인트를..

1. What is AI 공부를 하면서 느끼는 인공지능 개념은 알고리즘을 기반으로 과거의 상황, 데이터를 기반으로 비슷한 상황이 왔을 때 답을 유추하는 방식이라고 생각한다. 가령 한 이미지를 보고 이 이미지가 강아지인지 고양이인지를 판단하는 모델이 있다고 한다면 이것은 이전까지의 강아지 이미지를 학습하고 강아지의 외형적 특성을 데이터로 녹여 모델에 학습하고 어떤 이미지가 들어왔을 때 그것이 강아지의 외형과 비슷하다면 그것을 강아지라고 판단하는 게 가능하다. 이렇게 인공지능 분야는 다양하게 넓은 분야에서 사용이 가능하며 알고리즘을 변경하여 다양한 분야에서 활용이 가능하다. 2. Machine Learning 기계 학습(機械學習) 또는 머신 러닝(영어: machine learning)은 경험을 통해 자동으로..

1. Intro multivariate time series 데이터에 대한 학습을 진행하는 대표적인 방식인 spatial-temporal graph neural networks 방식이 있다. 이 방식에서는 그래프 구조를 input으로 하여 모델을 학습을 진행한다. 그래프로 구성하지 않는 방식보다 많은 개선점이 있지만 여전히 몇 가지 문제는 남아있다. 문제 1 : 대부분의 multivartiate time series 데이터들은 그래프 구조를 하고 있지 않다. 변수들 간의 관계는 데이터를 보고 발견된다. 문제 2: 그래프 구조가 가능하더라고 대부분의 message passing에 주의를 기울이기 때문에 훈련 과정에서 그래프 구조가 optimal 하지 않을 수 있다. 본 논문에서는 이런 문제들을 해결하려고 ..

논문 https://arxiv.org/abs/1901.04997 MAD-GAN: Multivariate Anomaly Detection for Time Series Data with Generative Adversarial Networks The prevalence of networked sensors and actuators in many real-world systems such as smart buildings, factories, power plants, and data centers generate substantial amounts of multivariate time series data for these systems. The rich sensor data can be con arxiv.o..