輪読会「ゼロから作るDeep Learning④ 強化学習編」第４回

はじめに

てくますプロジェクトでは、てくますゼミと呼ばれる学習会を開催しています。

少人数であーだこーだ議論しながら、考える楽しさを分かち合うことを大切にしています。

現在は「ゼロから作るDeep Learning④ 強化学習編」という本を読み進めています。

リンク

今回は本書第４回の輪読会ということで、4章を読み進めました！

本記事では、今回の勉強会で学んだことをざっくりと紹介していきます。

学習内容

反復方策評価

前回の章ではベルマン方程式について学習しました。ベルマン方程式を連立方程式として解くことで、価値関数を求めることができます。

しかし、状態や行動のパターンが多くなると、この連立方程式を解くことは現実的でなくなります。

そこで今回は、反復方策評価と呼ばれる方法を導入します。

状態価値関数のベルマン方程式は次のような式でした。
\(v_π(s) = \displaystyle \sum_{a, s’} π(a|s)p(s’|s, a)\{r(s, a, s’) + γv_π(s’)\}\)

この式を今回は、更新式へと変形します。
\(V_{k+1}(s) = \displaystyle \sum_{a, s’} π(a|s)p(s’|s, a)\{r(s, a, s’) + γV_k(s’)\}\)

\(V\) は状態価値関数の推定値、\(v\) は状態価値関数の真の値です。

更新式では、今いる状態 \(s\) の価値関数の推定値を、次に取りうる状態 \(s’\) の価値関数の推定値を使って更新しています。

推定値の更新を何度も行うことで、真の価値関数の値に近づけていきます。この方法のことを反復方策評価と呼びます。

反復方策評価を用いることで、連立方程式を解くことなく、価値関数の値（正確には近似値）を求めることができました。

テキストでは具体例として、2マスのグリッドワールドや、3×4のグリッドワールドで、実際に反復方策評価を行っています。

方策反復法

方策の評価はできたので、次は最適方策を求められるようになりたいです。

ベルマン最適方程式を連立方程式として解くことは、やはり状態や行動のパターンが多くなると、現実的ではありません。そこで今回は別の方法を考えます。

前回の章で学習した、最適方策を得る式について考えます。
\(
\begin{eqnarray}
μ_\ast(s) &=& \underset{a}{argmax}q_\ast(s, a) \\
&=& \underset{a}{argmax}\sum_{s’} p(s’|s, a)\{r(s, a, s’) + γv_\ast(s’)\}
\end{eqnarray}
\)
\(μ_\ast(s)\) ：最適方策
\(v_\ast(s’)\)：最適方策における状態価値関数
\(q_\ast(s, a)\)：最適方策における行動価値関数

今回はこの式を、最適方策に対してではなく、何らかの決定論的方策 \(μ\) に対して適用します。
\(
\begin{eqnarray}
μ'(s) &=& \underset{a}{argmax}q_μ(s, a) \\
&=& \underset{a}{argmax}\sum_{s’} p(s’|s, a)\{r(s, a, s’) + γv_μ(s’)\}
\end{eqnarray}
\)

この式は、現在の方策 \(μ\) を新たな方策 \(μ’\) に更新しています。上の式によって方策を更新することをgreedy化と呼びます。

方策のgreedy化について次の２つのことが分かっています。（方策改善定理）