논문

하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.

A Sim2Real Deep Learning Approach for the Transformation of Images from Multiple Vehicle-Mounted Cameras to a Semantically Segmented Image in Bird’s Eye View

Problem

BEV를 생성하기 위해 CNN을 이용하여 여러 카메라에서 취득한 이미지를 concatenation해서 한꺼번에 넣는 것은 적절하지 못하다. CNN은 local하게 작동하는데 같은 local 영역에서 각 이미지들은 서로 spatial inconsistency를 갖기 때문이다. 때문에 여러 view point에서 바라본 이미지들을 다룰 수 있도록 추가적인 처리가 필요하다.

Essence

IPM은 에러를 포함하고 있지만, 적어도 GT BEV와 비슷하기는 하다. 또한 IPM은 더 나은 consistency를 가지고 있다. 때문에 IPM을 guiding 정보로 활용하는 연구들도 있다. 여기에서는 IPM 개념을 이용한 2가지 방법을 제안하였다.

Detail

이미지에서 객체에 의해 가려진 너머의 정보는 추출할 수가 없으며 이를 완전히 복원시키는 것은 불가능한 일이다. 따라서 BEV에서의 모든 픽셀에 추가적으로 occlusion state를 할당하였다.

  • 항상 가려져 있는 영역 (building, truck)
  • 가려지지 않는 영역 (road)
  • cars로 가려진 영역 (단, 너머에 다시 truck이나 bus로 가려지지 않은 것)
  • 일부 가려진 객체
  • 모든 카메라에서 occluded로 표시된 label

Variation 1

IPM을 통해서 미리 BEV에서의 homography image를 직접 입력으로 이용하는 방법이다. 따라서 네트워크는 IPM에서 발생한 에러와 GT 사이의 갭을 줄이는 것을 목표로 한다.

DeepLab v3+를 이용하였다.

Variation 2

IPM을 거치지 않은 이미지에서 직접 feature를 추출한다. U-Net을 이용하여 semantic segmentation을 각 이미지에 대해 수행한다. U-Net을 수정하여 encoder의 각 scale에서 feature를 추출한 뒤, 이들 feature에 Spatial Transformer Network를 적용하여 IPM에 해당하는 projective transform을 수행한다. 모든 카메라에서 생성된 transform된 feature들을 concatenation 하면 각 scale 마다 통합된 feature를 얻을 수 있다.

이를 다시 decoder에 입력시켜 최종 BEV에 해당하는 segmented 결과를 얻는다.


Add a Comment Trackback