운동하는 공대생
[Computer Vision] 컴퓨터 비전과 딥러닝 4장- 대화식 분할, 영역 특징 본문
[Computer Vision] 컴퓨터 비전과 딥러닝 4장- 대화식 분할, 영역 특징
운동하는 공대생 2023. 7. 14. 18:58이전까지는 영역에 대한 분할을 자동적으로 영상 전체에서 진행을 하였다. 하지만 이런 분할을 사용자가 원하는 분할을 하지 못하는 문제가 있었고 이런 문제를 해결하기 위해서 대화식 분할의 아이디어가 되었다.
1. 대화식 분할
1.1 능동 외곽선
능동 외곽선의 원리는 초기 곡선에서 시작해서 최적의 상태를 능동적으로 찾아가는 방식이다.

- 수식
E(internal) = 내부 에너지로 곡선이 매끄러운 모양이 되도록 유도
E(image) = 영상 에너지는 물체의 경계에 에지가 나타난다는 사실에 기반하여 곡선이 에지에 위치하도록 유도
E(domain) = 도메인 에너지는 분할하려는 특정 물체의 모양 정보를 잘 유지하도록 유도

이렇게 에너지들의 총합들을 계산하고 이것을 최소가 되도록 하여 최적화를 진행한다.
1.2 GrabCut
이 알고리즘은 사용자가 붓으로 물체와 배경을 초기에 지정하여 문체를 구분하는 방식으로 파란색은 물체, 빨간색은 배경을 나타낸다.


2. 영역 특징
2.1 용어 정리
- 불변성 (invariant) : 변환 과정을 거쳐도 특징의 값이 변하지 않는다.
- 등변성(equivariant) : 특징이 어떤 변환에 대해 변하는 거
2.2 모멘트

모멘트 M 은 영상에서 영역에 대한 분포를 표현한 식이다.
2.3 텍스처 특징
- LBP(Local Binary Pattern)

위의 사진에서 왼쪽 부분(a)이 LBP를 표현했다 먼저 기준점을 중심으로 주변의 픽셀들에 대한 값들을 중심 픽셀과 비교하여 중심보다 크면 1 작으면 0으로 변환하고 이후에 왼쪽 상단을 기준으로 아래 방향으로 쭉 탐색하여 binary code를 생성하여서 이진수로 텍스처를 표현하는데 가능하다. 그래서 8자리 2진수로 총 256개의 택스처가 생성되는 게 가능하다. 하지만 이런 방식은 명암의 차이가 적은 부분에 대하여 안 좋은 결과를 가져온다. 이유는 중심점을 기준으로 비교함으로 값의 차이가 나지 않는데 다른 텍스처라고 판단하는 문제가 있기 때문이다.
- LTP(Local Ternary Pattern)

임계치는 지정을 한다면 중심점을 기준으로 중심 픽셀값에서 임계치를 더한 값 보다 크면 1 임계치와 픽셀값을 뺀 값보다 작으면 -1으로 변환을 한다. 그리고 어디에도 해당하지 않으면 0으로 표현을 한다. 이후에는 양수, 음수 모두를 탐색하여 변환하고 이것을 더하는 방식으로 텍스처를 표현한다. 그러면 이제 8자리 256 + 256 총 512의 텍스처가 발생하는 게 가능하다.
'Deep Learning > Computer Vision' 카테고리의 다른 글
[Computer Vision] 컴퓨터 비전과 딥러닝 5장- 호모그래피 추정 (0) | 2023.07.28 |
---|---|
[Computer Vision] 컴퓨터 비전과 딥러닝 5장- 매칭 (0) | 2023.07.22 |
[Computer Vision] 컴퓨터 비전과 딥러닝 4장- 영역 분할 (0) | 2023.07.14 |
[Computer Vision] 컴퓨터 비전과 딥러닝 4장- 캐니 에지 (0) | 2023.07.13 |
[Computer Vision] 컴퓨터 비전과 딥러닝 4장- 에지 검출 (0) | 2023.07.13 |