에너지 기반 모델
개요1 2 3
에너지 기반 모델이란, 데이터의 에너지energy라는 함수를 정의하여 에너지가 낮은 데이터일 수록 그럴 듯한 데이터(=확률이 높은 데이터)라 간주하고 확률밀도함수를 추정하는 방법론이다. 에너지 기반 모델은 데이터의 분포를 기존에 알려진 분포로 가정하지 않고, 데이터의 분포를 직접 모델링하는 방법론으로, 복잡한 데이터를 다룰 때 유용하다.
도입
확률 모델에서 데이터를 다루는 전통적인 접근법은, 데이터가 어떤 잘 알려진 분포(예: 정규분포, 베르누이 분포, 푸아송 분포 등)를 따른다고 가정하고, 그 분포의 모수를 추정하는 것이다. 예를 들어, 데이터가 정규분포를 따른다고 가정하면 평균과 분산을 추정함으로써 데이터의 전체 분포를 모델링할 수 있다. 이러한 방법은 통계학적으로 잘 정립되어 있고, 수학적 해석도 가능하며, 간단한 데이터에 대해 효과적으로 작동한다.
그러나 이러한 접근법에는 명백한 한계가 있다. 실제로 우리가 마주하는 데이터는 고차원적이고 복잡하며, 정규분포처럼 단순한 형태로 표현하기 어렵다. 더욱이, 복잡한 구조를 갖는 데이터에서는 분포의 꼴을 사전에 명확히 알기 어렵기 때문에, "정규분포를 따른다"는 가정 자체가 비현실적일 수 있다. 이처럼 분포를 미리 가정하고 거기에 데이터를 끼워 맞추는 방식은, 데이터의 본질적인 구조를 반영하지 못할 위험이 있다.
예를 들어, 사람의 얼굴 사진을 생각해보자. 사람의 얼굴 사진은 수많은 픽셀로 이루어져 있으며, 각 픽셀의 색상은 부터 까지의 정수로 표현된다. 이 때 각 픽셀의 색상은 서로 독립적이지 않으며, 특정한 패턴을 가지고 있다. 예를 들어, 눈, 코, 입 등의 위치와 모양이 서로 연관되어 있다. 이러한 데이터는 위에서 설명한 것과 같은 간단한 확률밀도함수로 표현하기 어렵다. 특정한 확률 분포를 가정하고 그 모수를 추정하는 것은, 실제로 데이터가 그러한 분포를 따르리라는 강한 추측이 있기도 하겠지만, 모양이 잘 맞지는 않더라도 최대한 끼워맞춰 보겠다는 의도도 있다. 따라서 복잡한 데이터를 다룰 때는, 데이터의 분포를 가정하기보다는 데이터의 분포를 직접 모델링하는 것이 더 나은 방법이 될 수 있다. 이러한 방법 증 하나가 에너지 기반 모델energy-based model이다.
에너지 기반 모델의 아이디어는 그 이름에서 알 수 있듯이 물리학에서 유래한다. 온도가 인 계system의 에너지가 인 확률은 다음과 같으며, 이를 볼츠만 분포라 한다.
는 볼츠만 상수이다. 여기서 "계가 어쩌구", "온도가 어쩌구" 하는 내용은 중요하지 않다. 중요한 것은 에너지가 낮은 상태일수록 확률이 높다는 것이다. 실제로 물질이 안정적이다라는 것은 에너지가 낮은 상태라는 뜻이다. 이를 데이터에 적용하면, 에너지가 낮은 데이터일수록 추출될 확률이 높다, 즉 그럴듯한 데이터라고 할 수 있다. 따라서 에너지 기반 모델은 데이터의 확률밀도함수를 다음과 같이 정의한다.
정의
데이터가 따르는 분포의 확률밀도함수 를 다음과 같이 가정하는 것을 에너지 기반 모델energy-based model이라 한다.
여기서 를 에너지 함수energy function라 한다. 분모의 는 의 적분이 이 되도록 하는 정규화 상수이다.
설명
가 확률밀도함수가 되려면 적분한 값이 이어야 하므로, 와 같은 정규화 상수를 곱해준다. 를 파티션 함수partition function이라고도 부른다. 지수함수 부분을 간단히 다음과 같이 나타내기도 한다.
여기서 가 정규화되어 있지 않기 때문에 이러한 모델을 비정규화 모델non-normalized models이라고 한다.
에너지 함수를 어떻게 정의하느냐에 따라서 의 표현력이 달라지며, 복잡한 데이터도 충분히 잘 모델링할 수 있다. 또한, 복잡해보여도 결과적으로는 지수함수의 꼴이므로, 정보이론의 맥락에서도 잘 들어맞는다 할 수 있다. 정보란 확률의 마이너스 로그로 정의되므로, 다음을 얻는다.
두번째 항은 에 대해서 상수이므로, 에너지 기반 모델에서 데이터 의 에너지란 데이터의 정보와 같다.
에너지 기반 모델에서는 두 확률의 곱을 다룰 때도 수식적으로 편리하다. 와 의 곱 은 다음을 만족한다.
즉 두 모델의 결합은 단순히 에너지를 더하는 것으로 표현할 수 있다.