운동하는 공대생

[Computer Vision] 컴퓨터 비전과 딥러닝 5장- 지역 특징 본문

카테고리 없음

[Computer Vision] 컴퓨터 비전과 딥러닝 5장- 지역 특징

운동하는 공대생 2023. 7. 21. 20:14
728x90
반응형

0. Intro 

 

지역 특징에 대한 탐색은 물체에 대학 지역 즉 여러 영상에서 어떤 물체를 탐지하거나 탐색하기 위해서 물체에 대한 부분을 표시하는걸 지역이라고 이야기를 한다. 이때 몇 가지 이 지역에 대한 특성들이 있다.

 

-repeatability : 같은 물체가 서로 다른 두 영상에 나타났을 때 첫 번째 영상에서 검출된 특징이 두번째 영상에서도 같은 위치에 높은 확률로 검출

-invariance : 물체의 이동, 회전, 스케일, 조명 변환이 일어나도 값은 비슷해야한다.

-discriminative power : 물체의 다른 곳에서 추출된 특징과 두드러지게 달라야 한다.

-locality: 작은 영역을 중심으로

-적당한 양:  물체를 추적하기 위해서 적당한 양의 대응점이 존재해야 한다.

-계산 효율: 실시간 추적을 위해서 계산의 효율성도 생각을 해야 한다.

 

1. 이동과 회전 불변한 지역 특징

지역에 대한 특성을 알기 위해서는 물체를 구분하고 고유한 정보를 가지고 있는 특징점을 잘 찾고 지정을 해야 한다. 

1.1 모라벡 알고리즘 

출처: https://velog.io/@hihajeong/%EC%A7%80%EC%97%AD%ED%8A%B9%EC%A7%95%EA%B2%80%EC%B6%9C

 

먼저 수식을 살펴보면 v, u 는 원 기준점에서 -1, 0, 1 만큼 떨어져있는 부분의 픽셀들의 정보를 탐색하기 위한 방식으로 3 *3 의 S맵을 생성하는게 가능하다. 아래의 그림처럼 각 기준점을 기준으로 v,u 가 -1,-1이라고 한다면 E(-1,-1) 즉 기준점에서 좌표로 x, y 모두 -1 한 값들을 기준점의 값과 빼고 그것의 제곱을 총합한 값이 S맵의 한 점 -1,-1 지점의 값이 된다.

 

이렇게 S 맵을 생성하고 그 이후에는 기준점 상하좌우 위치에서 가장 작은 값을 C로 채택하고 이것의 각 지점의 ( a, b, c) 점수가 된다. 그래서 가장 높은 점수를 받은 지점이 어떤 지역에 대한 특징을 잘 내포하고 있다고 생각하는 게 가능하다.

 

1.2 해리스 특징점

모라벡 알고리즘은 특징을 탐색하는 새로운 방식이었지만 단순한 구조에서 적용이 가능했고 그리고 작은 마스크를 사용하여서 한계가 분명 존재한다. 그래서 이를 보안하기 위해서 해 리즈 특징점이 등장했다.

 

출처 : https://www.slideshare.net/dojeongchan/ss-106268038

먼저 이전의 방식 모라벡 알고리즘 방식에서 가우시안 마스크를 적용하여 잡음에 대처가 가능하게 하였고 거기서 이제 테일러 확장 방식을 통해서 2차 모멘트 행렬을 생성하고 값을 전개한다. 

(계산 방식에 대한 정리는 나중에 더 진행하겠습니다...)

 

 

이렇게 된다면 이전 방식과 다르게 정수형만 측정이 가능한 게 아니라 실수형도 가능하고 또한 물체의 크기 변화에도 잘 적용된다.

 

 

2. 스케일 불변한 지역 특징 

 

스케일 즉 크기에 대한 지역 특징에 불변성에 대한 특징을 이야기를 해보겠다. 먼저 물체가 멀리 있던 가까이 있던 사람이 인식을 하기에는 문제가 없다 하지만 거리가 가까워지면 물체에 대한 세부적인 특성들은 더 자세하게 인식하는 게 가능하다. 

 

스케일 공간에서 특징점을 검출하는 방식은 총 3가지가 있다.

 

입력: 명암 영상 f

출력: 스케일에 불변한 특징점 집합

 

  • 입력 영상으로 부터 다중 스케일 영상을 구성한다.

여기서도 2가지 방식이 존재한다. 

  1. 거리가 멀어짐에 따라 바뀌는 세부 내용이 흐려지는 현상을 모방한다.
  2. 거리가 멀어짐에 따라서 물체가 작아지는 현상을 모방한다.

추가로 가우시안 스무딩의 방식을 위해서는 추가적인 차원을 하나 더 생성하여서 세타값을 변화하여 다중 스케일 정상을 구성한다.

출처 : https://codingsmu.tistory.com/116

 

  • 라플라시안 방식을 통해서 스케일 공간의 미분을 진행한다. 

미분은 각가 x, y에 대하여 두 번 미분을 하여서 더한 값을 이야기하며 실제로는 세타값이 클수록 미분한 값들이 작아지는 문제가 있어서 정규 라플라시안 방식으로 적용한다. 

 

  • 3차원 스케일 공간에서 비최대 억제를 적용

 

3. SIFT

먼저 SIFT는 이전에 설명했던 검출 방식들을 통해서 특징점을 검출한다. 

 

3.1 검출

 

특징점을 검출하기 위해서는 3단계를 거쳐서 진행된다.

 

3.1.1 1단계: 다중 스케일 영상 구축

먼저이전에 설명했던 가우시안 스무딩 방식과 피라미드 방식을 모두 적용을 하는데 그림에서 스케일의 크기가 달라지는 피라미드 방식에서 피라미드의 분류하는 영상을 옥타브라고 이야기를 한다. 그리고 옥타브 안에서는 가우시안 스무딩을 적용한 서로 다른 영상들이 존재를 하게 된다. 

 

3.1.2 2단계: 다중 스케일 영상에 미분 적용

이렇게 각각의 옥타브에서 다음 옥타브로는 conv 작업을 통해서 사이즈를 줄여나간다. 그런데 이런 작업은 시간의 소유가 많이 일어나고 이것을 줄이기 위해서  Difference of Gaussian (DOG) 방식을 사용했으며 DOG는 같은 옥타브에서 인접한 두 개의 영상의 차를 도출해 낸다. 

 

3.1.3 3단계: 극점 검출

 

먼저 극점을 검출하기 위해 DOG를 생성했다면 이후에는 DOG들 같은 값을 비교하여 극점을 검출한다. 여기서는 이전에 설명해ㅑㅆ던 비최대 억제 방식을 적용하며 인접 픽셀 간의 비교가 아니라 동일 위치의 DOG픽셀끼리의 비최대 억제를 진행한다. 즉 2차원이 아닌 3차원으로 확장해서 진행하는 것이다. 여기서 크기가 다른 점에 대한 것을 테일러 확장 방식을 통해서 지정하며 비교할 때 지점에 대한 값은 (y, x, o, i) 즉 지점에 대한 위치 x, y와 옥타브 o, DOG번호 i를 통해서 진행된다. 이렇게 지정된 특징점은 키포인트라고 부른다.

 

3.2 SIFT 기술자

 

이전까지는 특징점을 검출하고 특징점에 대한 스케일 정보를 구했다. 이 정보만 가지고는 영상에서 물체를 탐지하는 건 한계가 분명 있다. 그래서 여기서 물체를 매칭시키기 위해서 특징점 주변의 정보를 가진 기술자(descriptor)를 추출하는 단계가 있어야 한다.

 

3.2.1 알고리즘

 

descriptor를 추출하는 알고리즘은 먼저 이전에 DOG에서 키포인트를 추출을 했다면 이제는 영역 추출에 대한 조건을 만족을 해야 한다.  0. Intro에서 이야기를 했듯이 먼저 회전성에 대한 불변을 충족하기 위해서는 기준 방향을 지정을 해줘야 한다. 그래서 먼저 키포인트에 대한 그레이디언트 분포를 이욯나는데 그 이전에 보관법을 사용하여 실수로 변했던 위치의 정보를 원래 위치의 정수형으로 샘플링해 준다. 그 이후에는 에지 연산자로 그레이디언트 강도와 방향을 측정한다. 이전에 에지 영역을 계산했던 방식처럼 필터를 이용해서 추출한다. 그렇게 그레디언트 방향을 10도 간격으로 양자화하여 36개의 방향을 내포하고 있는 히스토그램을 측정 최댓값을 그 칸의 dominant orientation으로 지정한다. 또한 최댓값을 0.8배 이상인 방향도 dominant orientation으로 취한다. 이렇게 키 포인트의 방향까지고 표현을 했다면 이 키포인트의 정보를 (y, x, 감마, 세타)로 표현하는 게 가능하고 o, i를 감마로 변환하여 표현을 한다. (o, i는 위에서 처럼 DOG의 옥타브와 DOG 번호이다.)

 

(추가 예정 어떻게 방향을 지정하는지 )

 

 

 

이후에는 회전한 이미지에서 이전에 키포인트의 값을 세타를 기존으로 보간 방법을 통해 샘플인하면 16* 16의 작은 사이즈로 분할이 가능하고 이것을 또다시 4*4 사이즈로 세분화한다. 그렇게 세트를 기준으로 각 작은 부분에 대한 방향을 다시 히스토그램으로 표현한 이후에 최댓값을 통해서 방향을 지정하게 된다. 

이렇게 특징점에 대한 키포인트값에 대한 위치, 옥타부, DOG번호, 방향에 대한 정보를 추출하는 게 가능해진다.

 

정리하자면 이미지를 여러 가지 크기에서 (다중 스케일링) 값을 추출하고 크기에 대한 특징과 방향(SIFT 기술자 구하는 방식) 값 또한 추출하여서 특정 부분에 표현을 하는 게 가능하여서 회전과 크기 등으로부터 자유로운 특성을 가진 값으로 표현하는 방식이다.

728x90
반응형
Comments