논문

하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.

Transforming Auto-encoder

1 Introduction

  • 컨볼루셔널 네트워크는 지역적인 이동에 대하여 불변한 특징을 가져 높은 성능을 이루어 내었다. 이런 방법은 시점에 의한 이미지의 변화 또한 잘 대응되는 것은 사실이나, 인식 문제에 대해서는 코, 입과 같은 하이레벨 파트들 간의 지역적인 관계를 필요로 한다.
  • 하지만 컨볼루셔널 네트워크 내의 여러 서브샘플링을 거치게 되면, 이러한 하이레벨 특징들은 그들의 자세에 대하여 많은 불확실성을 가지게 된다.
  • 사실 이런 점은 적당한 범위의 포즈에 대해서는 불변성을 가지게 하려는 원하던 성질이기는 하지만, 정확한 지역 관계를 계산하는 것을 불가능하게 만든다.
  • 이 논문은 이러한 관점에서 컨볼루셔널 뉴럴 네트워크가 이루어야할 부분에서 잘못 나아가고 있다고 주장한다.
  • 그리고 한개의 스칼라 값으로 시점에 무관한 성질을 만드는 대신, 캡슐(capsule)이라는 것을 사용해야 한다고 이야기 하는데, 이것은 입력에 대해서 복잡한 내부 연산을 거친 뒤 결과를 많은 정보를 갖는 작은 벡터로 내보내도록 한다.
  • 각 캡슐은 암시적으로 시각적 요소(visual entity)가 제한된 도메인에서의 시점에 대한 조건들과 그에 따른 변화를 인식하도록 학습되며, 동시에 시각적 요소가 얼마나 존재하는지에 대한 확률 또한 출력한다. instantiation 파라미터는 자세나 빛, 모양변화에 대한 상대적인 정보를 담고 있다.
  • 캡슐이 잘 동작할 경우, 시각 요소에 대한 확률은 locally invariant, 즉 캡슐에 의해서 커버되는 도메인 내의 매니폴드 위에서 변하지 않으며, instantiation 파라미터는 equivariant, 즉 시점에 대한 조건에 의해 매니폴드 위에서 변화한다.
  • 캡슐의 한가지 장점은, 명시적으로 instantiation 파라미터를 출력하는데, 이것을 통해 그들의 파트를 인식함으로써 전체를 인식할 수 있는 간단한 방법을 제공한다는 점이다.
  • 만약 캡슐이 시각적 요소의 자세를 내보내도록 학습될 수 있다면, 시각 요소들간의 지역 관계가 올바르게 선택되었는지를 테스트하는 간단하면서도 성능 좋은 방법이 존재한다.
  • $A$와 $B$라는 두개의 캡슐이 있다고 하고, 그것의 올바른 지역 관계를 가질 때 하이 레벨 캡슐 $C$를 활성화한다고 생각하자.
  • $A$가 스스로의 캐노니컬 시각 요소로부터의 변환을 $T_A$라고 하고, $C$의 캐노니컬 시각요소에서 $A$의 캐노니컬 시각요소로의 변환을 $T_{AC}$라고 할때, 이 둘을 곱하면 $T_C$를 얻을 수 있다. $B$의 경우도 마찬가지다.
  • 이렇게 얻은 두 prediction이 잘 매치가 되면 두 $A, B$가 캡슐 C를 활성화 시키기에 적당한 관계를 가지고 있다고 볼 수 있다. 얻어진 prediction들을 평균하면 시각 요소 C가 캐노니컬 요소로부터 얼마나 변환되어있는지를 말해준다.
  • 때문에 파트-부분 관계는 viewpoint-invariant하다고 할 수 있고, 가중치 행렬로 나타내어진다.
  • 또한 현재 관찰된 물체와 각 파트에 대한 것은 viewpoint-equivariant하며, 각각 instantiation 파라미터와 신경망의 활성값으로 나타내어진다.

2 Learning the First Level of Capsules

  • 그럼 어떻게 픽셀값 정보를 자체 파라미터로 변환할 수 있을까? 그 답을 transforming auto-encoder에서 답을 찾았다.
  • 네트워크는 이미지와 원하는 정도의 이동 $\Delta x, \Delta y$을 입력으로 하여 이동된 이미지를 출력으로 내도록 한다.
  • 네트워크는 여러 분리된 캡슐로 이루어져 있고 마지막 레이어에서만 서로 작용하여 이동된 이미지를 내놓는다. 각 캡슐은 자신의 로지스틱 recoginition unit들을 가지고 있는데, 이것은 세가지 수 $x, y, p$를 계산하는 은닉 레이어처럼 행동하며 계산된 값들은 더 높은 레벨로 출력된다. $p$는 캡슐의 시각 요소가 이미지에 얼마나 존재하는지를 나타내는 확률이다.
  • 캡슐은 또한 generation unit들을 가지는데, 이는 캡슐이 변환된 이미지에 기여하는 바를 계싼하는데 사용한다.
  • generation unit에 입력되는 $x + \Delta x, y + \Delta y$와 기여도가 출력 이미지를 만들며 이에 $p$가 곱해진다. 따라서 비활성화된 캡슐들은 전혀 영향을 끼치지 않는다.
  • 실험에서는 30개의 캡슐을 사용하였고, 각 캡슐당 10개의 recognition unit, 20개의 generation unit을 사용하엿다. MNIST 이미지를 랜덤하게 x/y 방향으로 -2, -1, 0, +1, +2의 이동을 주어 학습하였다.

2.1 More Complex 2-D Transformations

  • 각 캡슐은 affine 변환에 해당하는 3 x 3 행렬을 생성해 내도록 확장시켰다.

2.2 Modeling Changes in 3-D Viewpoint

  • 스테레오 이미지를 생성해내는 네트워크로 확장하였다.

3 Discussion

 


Add a Comment Trackback