MINUIT Tutorial – Function Minimization (6)
MINUIT Tutorial – Function Minimization (http://seal.web.cern.ch/seal/documents/minuit/mntutorial.pdf)
5 Specialized techniques
지금까지 살펴본 방법들은 일반적인, 특히 quadratic 모양의 함수에서 잘 작동할 수 있는 방법들이었다. 그러나 어떤 특수한 상황에서 일반적 특성을 포기하고 더 나은 성능을 내기 위한 방법들도 존재한다.
5.1 $ \chi^2 $ minimization
Least square fitting은 정말 많은 영역에서 쓰이는 최소화 방법이다. 이는 관측된 데이터와 우리가 가정한 모델간의 차이를 제곱하여 합한 값을 최소화하는 파라미터를 찾는 접근법을 사용한다.
$$F(\mathbf{x}) = \sum^K_{k=1} f^2_k(\mathbf{x}) = \sum^K_{k=1}\left( \frac{Y_k - T_k(\mathbf{x})}{\sigma_k} \right)$$
이 식에서 $ Y_k $는 관측값, $ \sigma_k $ 는 오차를 나타내고, $ T_k(\mathbf{x}) $는 모델에 의해 예측되는 값이다.
이 식은 각각의 $ f_k(\mathbf{x}) $에 대하여 독립적으로 나타내어지고 있으므로, 2차 미분 행렬은
$$\frac{\partial^2F}{\partial x_i \partial y_i} = \frac{\partial}{\partial x_i} \frac{\partial}{\partial x_j} \sum_k {f^2_k} \\
= \frac{\partial}{\partial x_i} \sum_k {f^2_k} \frac{\partial f_k}{\partial x_j} \\
= \sum_k { 2 \frac{\partial f_k}{\partial x_i} \frac{\partial f_k}{\partial x_j}} + \sum_k { 2 \frac{\partial^2 f_k}{\partial x_i \partial x_j}}$$
로 정리할 수 있다.
보통의 경우, 첫번 째 항보다 두번 째 항이 작은 값을 가지게 되는데, 이것을 T(X)에 대하여 linearization 되었다고 한다. 만약 두번 째 항이 정확히 0이라면 F(x)는 quadratic 함수이고, 따라서 $ \frac{\partial^2F}{\partial x_i \partial y_i} $의 역함수를 이용하여 앞에서 소개한 방법들로 풀 수 있는 문제가 된다.
Non-linear least square의 경우에는 위의 linearization 식이
$$\frac{\partial^2F}{\partial x_i \partial y_i} \approx \sum_k { 2 \frac{\partial f_k}{\partial x_i} \frac{\partial f_k}{\partial x_j}}$$
와 같이 근사화된 경우로 생각할 수 있다.
5.2 Likelihood maximization
Least square fitting을 변형한 방법으로 maximum likelihood 방법을 이야기 할 수 있다. 이 때에는 함수
$$F(\mathbf{x}) = - \sum^K_{k=1} ln f_\mathbf{x}(\mathbf{x})$$
를 최소화하는 문제가 된다.
이 함수의 2차 미분 행렬은 다음과 같이 정리된다.
$$\frac{\partial^2F}{\partial x_i \partial y_i} =
- \frac{\partial}{\partial x_i} \frac{\partial}{\partial x_j} \sum_k ln {f_k} \\
= \frac{\partial}{\partial x_i} \sum_k \frac{1}{f_k} \frac{\partial f_k}{\partial x_j} \\
= -\sum_k { \frac{1}{f^2_k} \frac{\partial f_k}{\partial x_i} \frac{\partial f_k}{\partial x_j}} + \sum_k { \frac{1}{f_k} \frac{\partial^2 f_k}{\partial x_i \partial x_j}}$$
Least square 방법에서는 두번 째 항이 아주 작아서 무시할 수 있었지만 Likilihood 문제에서는 절대로 두번째 항이 0이 될 수가 없다. 그럼에도 불구하고,
$$\frac{\partial^2F}{\partial x_i \partial y_i} \approx
\sum_k { \frac{1}{f^2_k} \frac{\partial f_k}{\partial x_i} \frac{\partial f_k}{\partial x_j}}$$
으로 근사하여 사용한다면 속도 면에서 이득을 얻을 수 있을 것이다.