논문

하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.

Learning towards Minimum Hyperspherical Energy

  • DNN에서는 over-parameterization으로 인한 redundancy나 highly correlated neuron이 존재하는 문제가 있고, 이러한 문제를 해결하기 위해 네트워크를 compression하거나 pruning하는 방법이 제안되고 있다.
  • 또 다른 측면으로 네트워크의 diversification을 통해 redundancy를 완화시키는 연구 또한 진행되고 있다.
  • Redundancy를 안화시키는 연구는 regularization을 통해 상대적으로 큰 diversity를 가지도록 유도하는 것이 보통이나, 최근에 트렌드는 convolution 수준에서 embedding feature들의 차이에 관심을 두는 추세이고, 결과적으로 hypersphere 위에서 neuron들의 가능한 벌리는 방향으로 학습을 하도록 하는 연구가 진행되고 있다.
  • 이 논문은 이것이 N차원 구 표면 위에 최소 에너지를 갖도록 전하를 배치하는 Thomson problem과 유사한 문제로 보고, 높은 에너지 상태는 높은 redundancy를, 낮은 에너지는 낮은 redundancy를 가진다고 보고 에너지를 줄이는 방향으로 유도하는 Minimum hyperspherical energy (MHE) regularization framework를 제안한다.
  • 은닉 층 레이어를 위한 regularization은 다음과 같다.

  • 출력 층 레이어를 위한 regularization은 다음과 같다. (...)

  • 여기서 는 앞에서 언급한 에너지로, 이라고 가정할 경우 로 정의된다. 또한 은 뉴런 의 unit sphere로의 projection이다.
  • 이러한 MHE를 적용하여도 한가지 redundancy가 남아있는데, 바로 두 뉴런이 다른 반대 방향을 향하지만 서로 colinear하게 학습 되는 경우이다. 이를 해결하기 위해 half-space MHE를 제안한다.
  • Half-space MHE는 모든 뉴런에 대해 반대 방향을 향하는 가상의 뉴런을 생성하여 이들 뉴런까지 MHE에 적용하도록 하였다.
  • 이는 은닉 층에만 사용할 수 있는데, 출력 레이어에서는 colinear하더라도 redundancy를 일으키지 않기 때문이다.
  • 또한 Euclidean distance 대신, 두 뉴런간의 geodesic distance를 반영하고자 두 뉴런간의 각도를 이용할 수 있다. 이를 A-MHE라고 하며, 대신 를 이용하면 된다.
  • 많은 수의 뉴런이 있을 경우, 모든 뉴런 쌍들의 MHE의 계산량이 부담이 되기 때문에 mini-batch 버전의 MHE를 생각할 수 있다.
  • 은닉 층에서는 무작위로 뉴런을 추출하여, 출력 층에서는 입력 데이터와 다른 모든 뉴런과의 쌍을 만들어 MHE를 적용할 수 있다.
  • MHE를 기존 SphereFace에 적용하여 SphereFace+을 제안하고 기존보다 성능이 향상됨을 보였다.

Add a Comment Trackback