마코프 결정 과정 📂머신러닝

마코프 결정 과정

markov decision process

정의

쉬운 정의1

강화학습에서 환경에이전트가 선택한 행동에 따라 다음 상태보상을 결정한다. 이 때 바로 직전 시점의 정보만 참고하여 상태와 보상을 결정하는 것을 마코프 결정 과정Markov decision procsee이라 한다. 이를 수식으로 나타내면 다음과 같다.

$$ P(S_{t+1}, R_{t+1} | S_{t}, A_{t}) = P\left( S_{t+1}, R_{t+1} | S_{t}, A_{t}, S_{t-1}, A_{t-1}, \dots, S_{1}, A_{1}, S_{0}, A_{0} \right) $$

어려운 정의

환경을 묘사하는 상태, 행동, 보상의 확률 과정마코프 체인이면 환경이 마코프 결정 과정으로 작동한다고 말한다.

설명

강화학습에서는 환경과 에이전트의 상호작용에서 마코프 성질이 성립한다고 가정한다. 구체적으로 예로 바둑을 생각해보자. 환경이 마코프 결정 과정으로 작동한다는 것은, 다음의 둘 수를 위해서 고려해야하는 것은 바둑판의 돌들이 어떤 순서로 놓였는지가 아니라 바로 직전에 상대가 어떤 수를 두었는가인 것과 같다.

1.png

가령 위의 그림2에서 흑돌인 알파고는 다음 수를 결정할 때 위의 돌들이 놓여진 순서가 아니라, 알파고와 이세돌이 각각 직전에 둔 수만을 고려한다는 말이다.


  1. 오일석, 기계 학습(MACHINE LEARNING) (2017), p473-475 ↩︎

  2. https://deepmind.com/alphago-korean ↩︎

댓글