논문

하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.

Towards Autonomous Driving: a Multi-Modal 360◦ Perception Proposal

Problem

자율 주행을 위해 주변 환경을 인식하는 robust한 perception이 필요하다. 이를 위해서필요한 한가지 기술은 차량 주변에서 도로 위의 물체들을 검출하여야 한다.

Essence

카메라와 LiDAR 데이터를 이용하여 360도 perception을 위한 솔루션을 제안한다.

Detail

Software Architecture

크게 세가지 모듈로 구성되었다. 먼저 개별 이미지에서 detection과 instance semantic segmentation을 수행하고, bounding polygon 내에 들어오는 LiDAR 포인트들을 이용하여 객체의 3D pose를 추정한다. 마지막으로 이 데이터들을 이용해 tracking을 수행한다.

Vision-based 2D Detection

카메라들로부터 들어온 각 이미지는 ResNet-50 기반의 Mask R-CNN을 이용하여 bounding box와 category 그리고 semantic mask를 계산하였다.

3D Bounding Box Estimation

이미지에서 객체가 잘 검출되더라도 3D 공간에서의 위치와 자세가 나와야한다. Extrinsic parameter를 이용하면 LiDAR의 점들을 이미지로 보내는 것이 가능하긴 하나 LiDAR의 점들은 객체의 가려지지 않은 면에 대해서만 나타나므로 3D bounding box를 구하는 것은 한계가 있다.

여기서는 Frumstrum PointNet (F-PointNet) v1을 사용하였다. 이는 LiDAR 점과 객체 검출 결과를 입력으로 하여세단계로 실행되는데, 먼저 객체에 해당하는 점인지 아닌지 classification을 수행한 뒤, 가벼운 네트워크인 T-Net을 이용하여 객체의 중심을 찾고, 마지막으로 3D box를 추정한다.

여기서는 각 카메라에 대해 개별적으로 Mask R-CNN 이후에 F-PointNet을 실행하였다. 2D bounding box 대신 Mask R-CNN의 segmentation mask를 입력으로 하였다.

이 단계가 끝나면 각 카메라 내에서 객체를 나타내는 3D cuboid를 얻을 수 있다. 이를 공통 좌표계로 옮기면 카메라간 겹치는 영역에서 여러 객체가 나타나게 되는데, 이것은 Bird's Eye View에서 NMS를 이용하여 제거하였다.

Tracking

추적은 Unscented Kalman Filter (UKF)를 변형한 [31]을 사용하였다. 객체 타입마다 다른 모델을 사용하였으며, GPS를 이용하여 ego vehicle movement의 영향을 없앤 뒤, 위치를 추적하도록 하였다.

추적을 위한 각 프레임간 매칭에는 Hungarian algorithm을 사용하였다.


Add a Comment Trackback