목록인공지능 (38)
운동하는 공대생

논문 https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf 1. Introduction 저자는 unsupervised 학습에 대한 어려움을 이야기를 했다. 그게 두 가지가 있는데 최적화를 어떻게 해야 하는지 문제와 데스크마다 변환하는 최적의 방식이 다르다는 문제가 있다. 그래서 이 논문에서는 semi-supervised 방식을 사용하여 이 문제를 해결했다고 말한다. 저자는 semi-supervised와 supervised fine-tuning을 결합하여 사용한다고 말했다. 두 가지의 단계로 훈련을 진행했는데 unlabeled 데이터에 대한 파라미터를 선행 학습하고 그 이후에는 이 파라미터를 가지고 추가적인 supervised 한 ..

0. Intro 데이터는 보통 여러 차원(High-dimensional)으로 구성이 되어 있다. 이런 여러 고차원 데이터는 데이터를 분석하는 과정에서 시각화를 하거나 데이터에 대한 분석을 진행하기에 어려움이 존재한다. 그래서 이런 고차원의 데이터를 차원 축소 방식 PCA를 통해서 표현한다. 1. PCA PCA 의 추론 과정의 아이디어는 차원을 축소하는 axis 를 잡고 데이터와 axis 축의 projection을 구한다음 그 projection들의 값들의 분산이 최소가 되도록한다면 데이터들이 축소된 차원에서 분산이 가장 큰 특성을 가진 방향으로 축이 만들어진다는 아이디어이다. 더 자세하게 설명을 아래에서 해보겠다. 1.1 Maximum variance formulation PCA는 결국 차원을 축소하여..

논문 https://arxiv.org/abs/1512.03385v1 Deep Residual Learning for Image Recognition Deeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. We explicitly reformulate the layers as learning residual functions with arxiv.org 0. Abstract 저자는 DNN 모델을 훈련을 할 때 residual functio..

0. Introduction 먼저 3차원 물체에 대한 영상에서 2차원으로 카메라가 정보를 습득하는 거처럼 3차원 영상을 2차원으로 변환을 진행을 하는 것을 투영변환(projective transformation)이라고 한다. 이때 3차원 영상이 2차원으로 투영 변환한 두 2차원 영상에 대하여 대응점을 매칭시키는 방식 중 하나가 호모그래피라고 한다. 사진을 예로 들면 X'를 표시하는 2차원 영상에서의 두 점을 매칭하는 것이다. 1. Homography 호모그래피는 3*3 행렬로 표현되며 대응점들의 행렬곱으로 표현이 가능하다. 아래의 식을 참고하면 2차원 공간상에서의 영상에서 특정 지점이 x, y로 표현이 된다면 서로 다른 두 영상에서 좌표를 매칭하는 행렬 즉 호모그래피가 존재하게 된다. 이제 이렇게 두 2..

0. Intro 지역 특징에 대한 탐색은 물체에 대학 지역 즉 여러 영상에서 어떤 물체를 탐지하거나 탐색하기 위해서 물체에 대한 부분을 표시하는걸 지역이라고 이야기를 한다. 이때 몇 가지 이 지역에 대한 특성들이 있다. -repeatability : 같은 물체가 서로 다른 두 영상에 나타났을 때 첫 번째 영상에서 검출된 특징이 두번째 영상에서도 같은 위치에 높은 확률로 검출 -invariance : 물체의 이동, 회전, 스케일, 조명 변환이 일어나도 값은 비슷해야한다. -discriminative power : 물체의 다른 곳에서 추출된 특징과 두드러지게 달라야 한다. -locality: 작은 영역을 중심으로 -적당한 양: 물체를 추적하기 위해서 적당한 양의 대응점이 존재해야 한다. -계산 효율: 실시간..

이전까지는 영역에 대한 분할을 자동적으로 영상 전체에서 진행을 하였다. 하지만 이런 분할을 사용자가 원하는 분할을 하지 못하는 문제가 있었고 이런 문제를 해결하기 위해서 대화식 분할의 아이디어가 되었다. 1. 대화식 분할 1.1 능동 외곽선 능동 외곽선의 원리는 초기 곡선에서 시작해서 최적의 상태를 능동적으로 찾아가는 방식이다. - 수식 E(internal) = 내부 에너지로 곡선이 매끄러운 모양이 되도록 유도 E(image) = 영상 에너지는 물체의 경계에 에지가 나타난다는 사실에 기반하여 곡선이 에지에 위치하도록 유도 E(domain) = 도메인 에너지는 분할하려는 특정 물체의 모양 정보를 잘 유지하도록 유도 이렇게 에너지들의 총합들을 계산하고 이것을 최소가 되도록 하여 최적화를 진행한다. 1.2 G..

영역 분할이란 영상에서 물체에 영억을 특정하는 방식이다. 이전까지 에지를 활용해서 경계선을 처리하는 방식에 대하여 알아보았는데 영역 분할은 에지들로만 영역을 분류하기에는 조금 부족함이 있어서 사용한다. 1 단순 영역 분할 가장 기본적이고 단순한 방식의 영역 분할은 이진화 알고리즘을 사용하거나 군집화 알고리즘을 사용하는 것이다. 군집화 알고리즘은 보통 (RGB) 값을 통해서 3개 값으로 표현된 화소의 샘플을 군집화하여서 분할한다. 2. 슈퍼 화소 분할 픽셀 화소 보다는 크고 영상의 물체보다는 작은 영역으로 분할하는 방식으로 이런 분할하는 화소를 슈퍼 화소(super-pixel)이라고 합니다. -SLIC(Simple Linear Iterative Clustering) k-means clustering 방식과..

이제 이전까지는 에지를 더욱 잘 표현하기 위한 여러 가지 방법을 이용하였다. 그렇다면 이제 원래의 영상에서 에지를 검출한 영상으로 변환을 했다면 이제 그 에지를 통해서 물체에 대한 경계를 어떻게 에지들의 연결을 통해서 표현하는지 그 연결 방식에 대하여 말을 하겠다. 1. 허프 변환 먼저 이론에 대하여 설명을 하겠다. 위의 그림처럼 두 점을 지나는 y=ax+b라는 방정식이 존재할 때 기울기 a , y절편 b를 식에서 표현한다. 이것을 다시 a, b라는 공간으로 변환을 하면 빨간색 선은 원래 x, y 공간에서 빨간 점을 지나는 모든 직선들의 조합들을 표시한 것이고 a, b 공간에서의 주황선은 원래의 공간 x, y에서의 주황색 점을 지나는 모든 선의 조합들이다. 즉, 각 점을 지나는 모든 직선 중 두 점을 모..