논문

하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.

CurricularFace: Adaptive Curriculum Learning Loss for Deep Face recognition

  • 얼굴 인식을 위한 네트워크를 학습하는 방법은 margin-based 방법과 mining-based 방법으로 나눌 수가 있다.

  • Margin-based 방법은 각 샘플의 어려운 정도는 반영하지 않기 때문에 작은 네트워크에서 수렴이 잘 안되는 문제가 있다.

  • Mining-based 방법은 어려움 샘플에 과하게 집중하여 학습의 초기 단계에서 수렴을 방해할 수도 있다.

  • 두가지 방법을 통합하기 위해 Curriculum Learning을 아이디어를 adaptive하게 적용하는 방법을 제안하였다.

    • 매 미니배치마다 온라인으로 랜덤한 커리큘럼을 구성하게 하였다.
    • 어려운 샘플의 중요도를 adaptive하게 정의하였다. 어려운 샘플과 쉬운 샘플의 상대적인 중요도를 동적으로 정하고, 학습 단계마다 조절되도록 하였다.
  • 얼굴 인식에서 사용되는 로스의 general form은 아래와 같다.

  • 여기서 는 prediction된 GT labe의 값이고 는 indicator 함수이다. 은 cosine 유사도를 변화시키는 역할을 하는 함수이다.

    • 만약 ArcFace라면 , , 일 것이다.
  • 최근 제안된 ArcFace를 수정하여 MV-Arc-Softmax는 어려운 샘플을 강조하기 위해 다음과 같은 함수를 제안하였다.

  • 샘플이 쉬우면 본래 로스를 그대로 사용하고 어렵다고 판단되면 그 샘플에 더 집중할 수 있도록 하였다.
  • 이 방법은 에 너무 민감하고 수렴하는데 문제가 있다.
  • 이를 개선하기 위해 새로운 함수를 제안하였다.

  • 쉬운 샘플들은 학습 초반에 수렴에 도움이 되기 때문에 를 0에 가깝게, 그리고 를 1에 가깝게 되도록 하였다. 따라서 어려운 샘플의 가중치가 줄어들고 쉬운 샘플이 상대적으로 강조되는 효과가 있다.
  • 학습이 진행됨에 따라 를 점점 증가시키고 를 1보다 크게 하도록 하여 어려움 샘플을 더 강조하도록 한다.
  • 파라미터 는 Exponential Moving Average (EMA)를 통해 아래와 같이 자동적으로 정해진다.

  • 여기서 은 k번째 배치의 평균 cosine 유사도로 이다.

Add a Comment Trackback