논문

하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.

Deep Networks with Stochastic Depth

1 Introduction

  • 네트워크의 깊이는 모델의 표현력이 가장 큰 영향을 미치는 요소이다.

  • 하지만 깊은 모델은 vanishing gradient나 feature의 재사용성이 사라지는 문제, 긴 학습 시간에 대한 부담 또한 가지고 있다.

  • Deep network with stochastic depth를 이용하여 테스트할 때에는 깊은 네트워크를 갖도로 하되, 학습 시에는 짧은 네트워크를 갖도록 하였다.

    • Residual Network 기반의 네트워크에서 이를 적용하였다.
    • 학습할 때에 무작위로 레이어들의 일부 연결을 제거하고 학습함으로써 짧은 네트워크를 구현하였다.

2 Background

3 Deep Networks with stochastic Depth

  • 네트워크의 길이를 효과적으로 줄이기 위해 무작위로 레이어 전체를 뛰어넘도록 하였다.

    • 이것은 ResNet의 skip connection과 같은 맥락이지만, 연결 패턴이 미니 배치마다 무작위로 달라지지는 점이 다르다.
    • 각 미니배치마다 무작위로 레이어 셋을 선택하여 그 레이어들의 transformation function을 제거하고 skip connection 연결은 유지하도록 한다.
  • ResNet의 한 블럭 ResBlock을 아래 그림과 같으며, transformation function인 은 Conv-BN-ReLU-Conv-BN 의 구조를 가진다.

  • ResBlock을 수식으로 나타내면 다음과 같다.

  • 의 값에 따라 연결이 제거될지 말지를 결정하게 될 것이다.

    • 을 베르누이 랜덤 변수라 생각하고 확률 에 따라 연결 여부를 결정하도록 한다.
    • 을 survival probability라고 한다.
  • 이 survival probability는 하이퍼 파라미터로 이웃 ResBlock과 비슷한 값을 가져야 할 것이다.

    • 한가지 방법은 모든 레이어에 대해 같은 값을 사용하는 것이다.
    • 다른 방법으로는 로부터 시작하여 선형으로 하락하여 마지막 레이어는 을 갖지도록 으로 결정하는 방법이다.
  • 실험적으로 일 때 안정적이었다.
  • 테스트시에는 의 확률로만 활성화되기 때문에 다음과 같이 가중치를 부여하여 사용하였다.

4 Results


Add a Comment Trackback