읽기일기

패턴 인식 (1) 소개


패턴인식, 오일석 지음/교보문고

1. 소개

1.1 왜 패턴인식인가?

패턴인식의 응용 분야를 소개한다.

1.2 어떻게 인식하나?

패턴 인식의 처리 과정을 간결하게 제시하자면 아래의 순서와 같다.

  1. 패턴
  2. 특징
  3. 분류
  4. 부류

특히 패턴인식 공부의 핵심적인 내용은 특징과 분류의 두 가지로 구성된다. 데이터로부터 추출한 특징을 이미 알고 있는 지식에 비추어보아 의사 결정, 즉 분류를 하는 것이다. 분류의 결과를 부류(class)라고 하고, 패턴을 발생시기는 도메인을 패턴 원천(pattern source)라고 한다.

패턴 인식 시스템을 만들기 위하여 패턴 원천으로부터 수집한 패턴들을 샘플이라 한다. 도메인이 클 경우 샘플은 극히 일부분에 불과한 패턴만을 수집하게 된다. 수집한 샘플은 두 개의 집합으로 나누어 인식기를 만드는데 쓰이는 훈련 집합과, 성능을 평가하기 위해 만드는 테스트 집합으로 분류한다. 이 두 집합을 합쳐 데이터베이스라고 하는데 데이터베이스는 양적, 질적으로 모두 우수해야 좋은 시스템을 만들 수 있다.

이제 샘플로부터 특징(feature)을 추출하여야 한다. 추출한 특징은 주로 벡터 형식으로 나타내며 이를 특징 벡터라 부르며, 이 벡터의 크기는 d로 나타낸다.

여러 샘플의 특징 들이 공간 상에서, 서로 다른 부류끼리 얼마나 잘 구별할 수 있느냐를 특징의 분별력(discriminating power)라고 한다. 따라서 이 분별력을 수량화하고 보다 높은 분별력을 갖도록 설계하여야 한다. 특징 벡터의 크기가 커지면 메모리와 계산량이 폭발적으로 늘어나는 차원의 저주 현상이 나타나므로 항상 좋은 것은 아니다.

어떤 패턴이 들어왔을 때 M개의 부류 중 하나로 할당해 주는 작업을 분류(classification)이라 하고, 이 작업을 담당하는 프로그램을 분류기(classifier)라고 한다. 따라서 분류기를 만들기 위해서는, 공간 상에서 특징 벡터들을 어떻게 분류를 할 것인지에 대한 수학적 모델로 어떤 것을 사용할 것인지가 먼저 결정되어야 한다. 이 모델을 기반으로 훈련 집합을 통해 분류기를 훈련시켜야 한다.

간단한 예로, 공간상에서 평면을 이용하여 분류하는 방법을 생각해볼 수 있다. 이 때 이 평면을 결정 초평면(decision hyperplane)이라고 이야기하며, 특별히 공간이 2차원일 때에는 결정 직선, 3차원 일 때에는 결정 평면이라고 한다.

만약 초평면이 아닌 곡선이나 2차 이상의 다항식으로 표현되는 모델을 갖는다면 이는 비선형 분류기(nonlinear classifier)라고 한다. 이 때의 결정 면을 결정 초곡면(decision hypersurface)라고 부른다.

학습 과정에는 지도 학습(supervised learning)과 비지도 학습(unsupervised learning)으로 나뉜다. 지도 학습은 훈련 집합의 샘플들의 참 부류(true class)를 알고 있고 이를 이용하여 훈련을 하는 것이다. 비지도학습의 경우, 샘플의 부류정보가 주어지지 않으므로, 비슷한 샘플들을 같은 집단으로 모으는 군집화(clustering)문제라고도 부른다.

패턴 인식 시스템의 성능은 크게 두 가지 방법으로 평가한다.

  1. 맞추는 샘플, 틀리는 샘플, 기각하는 샘플의 수를 세어 그것을 이용하는 방법
  2. 틀리게 분류하였을 때, 발생할 위험을 고려하여 위험을 수치화하는 방법

첫번째 방법은 정인식률(correct recognition rate), 기각률(rejection rate), 오류율(error rate)를 사용한다.

  • Correct recognition rate : $ c / N $
  • Rejection rate : $ r / N $
  • Error rate : $ e / N $

N은 전체 테스트 집합의 크기, c는 맞춤 샘플, r은 기각한 샘플, e는 틀린 샘플의 수이다. 오류의 경향을 상세히 분석하기 이ㅜ해 혼동 행렬(confusion matrix)를 사용하기도 한다.

두번째 방법은, 부류에 따라 틀리게 판단하였을 경우 위험, 혹은 손실의 정도가 다를 때 이를 고려하여 수치화하는 방법을 사용한다.

검출기를 이용하여 특정 패턴 검출(detection)하는 문제에서는 다른 기준을 사용하기도 한다. 옳게 분류한 샘플은 참 긍정(true positive, TP)과 참 부정(true negative, TN). 틀리게 분류한 샘플을 거짓 부정(false negative, FN), 거짓 긍정(false positive, FP)이라고 한다. 보통 이들 수치를 이용하여 거짓 긍절률과 거짓 부정률로 검출기의 성능을 측정한다.

  • 거짓 긍정률(false positive rate, FPR) : FP / (FP + TN)
  • 거짓 부정률(flase netgaive rate, FNR) : FN / (TP + FN)

검색기로 사용되는 경우,

  • 정확률(precision) : TP / (TP + FP)
  • 재현률(recall) : TP / (TP FN)

이 사용되기도 한다.

훈련 집합을 이용하여 훈련된 시스템이 테스트 집합에 대하여 보여주는 성능을 일반화(generalzation)라고 한다. 일반화되지 못하고 훈련 집합에 과다하게 적응된 경우 과적합(overfitting)이라고 한다.

1.3 시스템 설계

앞에서 언급했듯, 양질의 데이터베이스가 필요하다. 또한 특징과 분류기를 올바르게 설계하기 위하여 시스템이 작동할 도메인을 설정하고 제약사항을 적절하게 결정해야한다. 인식 성능을 높이기 위하여 다중 분류기를 결합하여 사용할 수도 있다.

1.4 수학

확률과 통계는 패턴인식에 필수적이며, 선형대수, 정보 이론, 최적화 문제 등에 대하여 친숙해야할 것이다.

1.5 자원

관련 학회와 아카이브를 소개한다.


Add a Comment Trackback