좌충우돌

Spatial Transform Module의 한계

업무에 Spatial Transform Module을 넣어서 네트워크를 꾸며보았다.

이 모듈에 제안되었던 논문인 'Spatial Transformer Networks'에서는 Affine transform을 모델로 하고 있으나, 업무에서는 homography가 적절하여 이를 확장하여 8개 element를 prediction하도록 수정하여 사용하였다.

결과적으로는 모듈이 제대로 homography를 계산해내지 못하고 identity transform 상태에서 계속 진동만 하였는데, 그 이유를 생각해보았다.

먼저, 수식적으로 homography의 8개 element가 서로 독립적이지 않고 dependency가 존재하나 단순 FC layer의 계산만으로는 이를 반영하지 못하는 것이 한가지 이유로 생각된다.

이는 homography 대신 homography를 분리하여 개별 transform에 대한 parameter를 추정하도록 모델링을 하면 어느 정도 완화가 될 것이라 예상된다.

사실 이보다 더 큰 이유는, 나의 경우 homography를 통해 변환된 결과가 정형화된 모양을 가지는 경우가 아니라는 점이다.

제안되었던 논문에서는 MNIST에 적용한 경우로 각 이미지는 일관된 모양을 가지며, 이를 하나의 모양으로 변환한다면 그 이후에 이루어는 classification 문제는 더 쉽게 풀 수 있는 경우라 생각 된다.

하지만 내 경우, 변환 이후의 결과가 일관된 모양을 기대하지 않으므로 특정 homography target을 찾아내기가 힘든 경우라 생각되었다.


Add a Comment Trackback