목록CV (14)
운동하는 공대생

1. 에지 검출 에지 검출 알고리즘은 물체 영상에서 물체 경계가 변하면서 발생하는 명암의 급격한 변화의 특성을 활용한다. 먼저 영상을 미분하는 이유는 기존 영상에서 미분을 통해서 기준점에서의 변화량을 측정하는 게 가능해서 이다. 이렇게 변화량에 대한 차이를 영상의 컨볼루션을 취하여 에지 영상을 만든다. (위의 그림에서는 (-1,1) 필터로 컨볼루션 한다.) 1.1 에지 연산자 영상에서는 보통 한번의 에지의 변화만 있는 게 아니라 여러 화소에 걸쳐 명암이 변하는 램프 에지(ramp edge)가 발생한다. 1차 미분을 통해서 (c)처럼 에지 영상을 구하면 에지가 구분이 된다. 하지만 두께가 있는 에지가 검출되며 위치 찾기(localization)의 문제가 발생한다. 그렇게 다시 한번 2차 미분을 진행하면 연..

1. Intro 컴퓨터 비전과 딥러닝 책의 3장 내용을 정리한 내용입니다. 3장에서는 이미지, 영상 데이터를 어떻게 데이터화시키는지를 설명하는 장이다. 이미지나 영상 데이터는 고차원은 다분광, 초분광 같은 영상들도 있지만 보통 RGB로 구성된 영상으로 예시를 많이 진행했다. 2. 이진 영상 2.1 이진화 이진화란 maxtrix 형식으로 표현된 데이터에서 임곗값 T를 기준으로 T 보다 크면 1 적으면 0 이런 식으로 데이터를 단순히 이진화시킨다. 2.2 오츄 알고리즘 전체 이미지에서 적정한 임곗값을 먼저 계산하여 임곗값을 정한다. 2.3 연결 요소 connected component labeling 이라고도 하며 근처에 있는 같은 데이터를 연결 지어서 분류해 주는 방식이다. 2.4 모 폴로지 영상을 변환하..

논문 - https://arxiv.org/abs/2211.05778 InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions Compared to the great progress of large-scale vision transformers (ViTs) in recent years, large-scale models based on convolutional neural networks (CNNs) are still in an early state. This work presents a new large-scale CNN-based foundation model, termed arxiv.org 1. In..

https://arxiv.org/abs/1406.4729v4 Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Existing deep convolutional neural networks (CNNs) require a fixed-size (e.g., 224x224) input image. This requirement is "artificial" and may reduce the recognition accuracy for the images or sub-images of an arbitrary size/scale. In this work, we equip th arxiv.org 1 Intro 논문에서 제시한 문제..

1. Intro Computer Vision에서 Object detection 다음으로 Semantic Segmentation와 Instance Segmentation 이 있다. 이것을 이미지에서 어떤 물체가 있는지를 탐지를 하는 것뿐만 아니라 이미지의 픽셀 단위로 어떤 부분이 분류한 물체가 있는지까지도 표시가 되는 장점이 있다. 2. Semantic Segmentation 2.1 Fully Convolutional Segmentation에서 가장 흔한 방식은 Fully Convolutional 방식이다. 이것의 구조로는 CNN의 convolutional layer 들과 downsampling과 upsampling을 포함하고 있다. downsampling 은 이전 CNN의 구조에서 처럼 Pooling의 ..

1. Intro 이전까지 공부했던 내용에서는 CNN Layer를 활용하여서 이미지를 분류하였다. 하지만 최근 들어 이미지 데이터를 활용하여 분류하는 거뿐만 아니라 다양한 분야에서는 이미지 데이터를 활용한 모델들이 사용되고 있다. 공학적인 관점에서, 컴퓨터 비전은 인간의 시각이 할 수 있는 몇 가지 일을 수행하는 자율적인 시스템을 만드는 것을 목표로 한다 (많은 경우에는 인간의 시각을 능가하기도 한다). 그리고 과학적 관점에서는 컴퓨터 비전은 이미지에서 정보를 추출하는 인공 시스템 관련 이론에 관여한다. -위키백과 Computer Vision 은 그렇게 이미지 분류뿐만 아니라 이미지에서 물체를 탐지하는 Object Detection, 물체를 분류하는 Segmentation 등등 여러 태스크에서 활용이 되고..