하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.

ShrinkTeaNet: Million-scale Lightweight Face Recognition via Shrinking Teacher-Student Networks

5월 26th, 2020 Posted by 룬룬

얼굴 인식을 위하여 Knowledge Distillation을 적용할 때 클래스 수가 적은 경우에는 전통적인 L2 거리를 좁히는 방법을 사용해도 잘 동작한다.
하지만 클래스 수가 많은 경우에는 student 모델의 capacity에 한계가 있기 때문에 이 L2 거리는 over-regularize 되는 효과를 야기하여 학습을 어렵게 만든다.
한편 사용 시 클래스가 정해져 있지 않은 얼굴 인식에서는 teacher 모델의 샘플 간의 각도 차이와 hypersphere 위에서의 분포가 더 중요한 정보이다.
따라서 이 각도 정보를 중요한 knowledge로 보고 이를 distill 하는 Angular distillation loss를 제안하였다.
Teacher와 student에서 나온 embedding에 transform 함수 G를 통과시키고, 두 결과의 cosine distance와 1과의 L2 distance를 distillation loss로 정의하고 이를 softmax loss와 통합하여 사용하였다.
실제 적용 시에는 distillation 시 정보 손실을 막기 위해 transform 함수를 identity transform을 적용하였다.
또한 student의 middle feature의 표현력이 충분히 학습되도록 student의 각 middle feature를 transform function을 거친 뒤, 이를 teacher network와의 cosine distance를 loss로 사용하였다.
이를 모두 적용하여 만든 구조인 ShrinkTeaNet Architecture를 제안하였다.

논문