논문

하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.

Edge Boxes: Locating Object Proposals from Edges

[cite]https://doi.org/10.1007/978-3-319-10602-1_26[/cite]

1 Introduction

  • 객체 인식의 목표는 이미지 내에 이미지가 있는지, 있다면 어디에 있는지를 결정하는 것입니다.
  • 주로 쓰이는 방법은 슬라이딩 윈도우 방식으로 이미지 내의 모든 영역 스케일에 대해서 물체 분류기를 적용하는 방법입니다.
  • 최근 제안된 다른 방법으로 이미지 전체를 탐색하는 대신 물체의 바운딩 박스 후보를 생성하고, 줄여진 영역 내에서만 추가 분류 작업을 진행하는 방법입니다.
  • 이러한 방법은 높은 recall과 효율성이 가장 중요합니다.
  • 물체 후보 생성기가 물체 검출기보다 먼저 사용되기 때문에 이는 검출기보다 충분히 빨라야 합니다.
  • 이 논문은 물체의 바운딩 박스 후보를 에지로부터 직접 생성하는 Edge Boxes라는 방법을 제안합니다.
  • 논문에서는 바운딩 박스 내에 완전히 닫혀진 컨투어의 수는 박스 내에 물체를 가지고 있는 정도를 나타내고, 단순히 에지의 수를 세는 것은 정보가 없다고 이야기 합니다.
  • 완전히 닫혀진 컨투어는 컨투어가 박스 안쪽에 놓여 있는 경우를 이야기 합니다.
  • 이미지 내에서 가능한 바운딩 박스의 수가 꽤 많기 때문에 효율적인 방법이 필요하며 여기서는 기초 에지 맵을 생성하기 위하여 Structured Edge detector라는 방법을 사용하였습니다.
  • 그 뒤 비슷한 각도의 이웃하는 에지 픽셀을 클러스터링하여 그룹을 생성하였습니다.
  • 박스의 점수는 모든 에지 그룹의 에지 세기를 합산한 뒤, 박스 경계 부분에서 걸쳐진 컨투어들의 에지 그룹 세기를 빼는 것으로 계산하였습니다.
  • 물체 후보는 coarse-to-fine 탐색으로 정교화하였습니다.

2 Related work

3 Approach

  • 이미지가 주어지면 먼저 에지 픽셀에 대한 에지 반응(response)를 계산합니다.
  • 이는 Structured Edge detector를 이용하는데, 에지의 경계에서 효율적이면서도 좋은 성능을 보입니다.
  • 계산 시간을 줄이기 위해 single-scale variant with the sharpening enhancement를 사용하였습니다.
  • 에지 반응이 계산되면 Non-Maximal Suppression을 에지 반응에 수직 방향에 적용하여 에지 피크를 찾았습니다.

3.1 Edge groups and affinities

  • 박스 $b$가 주어지면, 각 바운딩 박스에 대해서 $p \in b$ 이고 $m_p \gt 0.1 $인 에지를 찾습니다. $m_p$는 픽셀 $p$ 위치의 에지 매그니튜드입니다.
  • 에지가 서로 같은 방향으로 연결되어 있어 있으면 강한 동질성을 지니지만, 서로 연결되어 있지 않거나 연결되어 있더라도 높은 커버쳐(curvature)를 갖고 있으면 낮은 동질성을 가집니다.
  • 높은 동질성을 가진 에지들만을 그룹핑함으로써 에지간 동질성을 효과적으로 계산할 수 있습니다.
  • 간단한 greedy 방법으로 에지들의 방향(orientation) 차이의 합이 $\pi / 2 $가 넘지 않을 때 까지 8-connected 에지 그룹을 생성합니다.
  • 에지 그룹 $s_i \in S$가 주어지면, 이웃하고 있는 그룹간의 동질성 $a(s_i, s_j)$을 계산합니다.

$$ a(s_i, s_j) = | \cos(\theta_i - \theta_{ij}) \cos ( \theta_j - \theta_{ij}) | ^{\gamma} $$

  • $ \theta_i, \theta_j$는 각각 평균 방향을 나타내고 $x_i, x_j$는 평균 위치입니다. $\theta_{ij}$는 $x_i, x_j$의 각도 차이입니다. $\gamma=2$를 사용하였습니다.
  • 두 에지 그룹의 2픽셀 넘게 분리되어있으면 동질성은 0으로 처리하였습니다.
  • 계산을 효율적으로 하기 위해서 동질성이 0.05가 넘는 것들만 저장하고 나머지는 0으로 처리하였습니다.

3.2 Bounding box scoring

  • 에지 그룹과 그 동질성이 주어지면 후보 바운딩 박스 $b$의 점수를 계산할 수 있습니다.
  • 먼저 에지 그룹 $s_i$ 내의 모든 에지 $p$의에 매그니튜드 $m_p$의 평균 $m_i$를 계산합니다.
  • 또, 그룹 내의 어느 한 픽셀 위치 $\bar{x_i}$를 골라 놓습니다.
  • 이제 각 에지 그룹에 대해서 $s_i$가 박스 $b$에 완전히 속해 있는지를 나타내는 $w_b(s_i) \in [ 0, 1] $ 를 계산합니다. $w_b(s_i) = 1$이면 완전히 속해 있는 것이고 아니면 0입니다.
  • 그리고 $S_b$를 박스 $b$의 경계부분에 걸쳐 있는 에지 그룹들이라고 하겠습니다.
  • 따라서 $s_i \in S_b$인 것들은 $w_b(s_i) = 0$입니다.
  • 또한 모든 $s_i$의 $\bar{x_i} \in b $인 것들 또한 $w_b(s_i)=0$ 으로 계산합니다.
  • 남아있는 에지 그룹들, 즉 $\bar{x_i} \in b $이고 $s_i \notin S_b $을 이용하여 $w_b(s_i)$를 계산합니다.

$w_b(s_i) = 1 - \max_T \prod_j^{|T| - 1} a(t_j, t_{j+1}) $

  • $T$는 에지 그룹들의 정렬된 경로고 그 길이는 $|T|$으로 어떤 한 그룹 $t_1$에서 시작하여 $s_i$로 끝나는 경로입니다.
  • 만약 그러한 경로가 없으면 $w_b(s_i)=1$로 계산합니다.
  • 따라서 위 식은 에지 그룹 $s_i$와 박스의 경계와 겹쳐진 에지 그룹들 사이의 높은 연결성을 가지는 경로를 찾도록 해 줍니다.
  • 이제 계산된 $w_b$를 이용하여 점수를 계산합니다.

$$ h_b = \frac{\sum_i w_b(s_i) m_i}{2 ( b_w + b_h)^{\kappa}}$$

  • $b_w, b_h$는 박스의 가로 세로 크기입니다.
  • 이를 더 빠르게 계산하기 위해 integral image를 활용하였습니다.

3.3 Finding intersecting edge groups

  • 엄청나게 많은 수의 박스가 존재하기 때문에 $S_b$를 효율적으로 계산하는 방법이 필요합니다.
  • 이를 위해 2가지 추가적인 데이터 구조를 제안합니다.
  • 첫번째 구조는 에지 그룹의 행 $r$에서의 에지 그룹의 인덱스를 가지고 있는 리스트 $L_r$입니다.
  • 두번째 구조는 $K_r$로 $r$내의 컬럼 $c$에 대한 $L_r$의 인덱스를 가지고 있습니다. 따라서 위치 $(c, r)$의 에지 그룹 $s_i$를 찾고자 한다면 $L_r(K_r(c)) = i$를 찾으면 됩니다.

3.4 Search strategy

  • 바운딩 박스의 정확도를 측정하기 위해 Intersection of Union (IoU) 방법을 사용하였습니다.
  • IoU는 후보 박스와 실제 정답 박스의 교집합 영역을 둘의 합집합 영역으로 나누는 것입니다.
  • 먼저 모든 위치, 스케일, 종횡비에 대해서 슬라이딩 윈도우 방법으로 후보 박스를 찾습니다.
  • 탐색 단격은 단일 파라미터 $\alpha$로 이웃 박스끼리의 IoU를 나타냅니다.
  • 그 뒤, 위치, 스케일, 종횡비에 대해서greedy iterative search 방법으로 $h_b^{in}$ 이상 점수 중 가장 큰 박스를 찾습니다.
  • 각 반복마다 탐색 간격을 반으로 줄어 2픽셀 이하가 되면 탐색을 멈춥니다.
  • 바운딩 박스가 정교화되면 점수가 큰 순서로 정렬하여 Non-Maximal Suppression (NMS)를 적용합니다.
  • 박스들 중에서 점수가 자기보다 높으면서 IoU가 $\beta$이상인 것은 삭제합니다.

4 Results

5 Discussion


Add a Comment Trackback