輪読会「ゼロから作るDeep Learning④ 強化学習編」第2回

はじめに

てくますプロジェクトでは、てくますゼミと呼ばれる学習会を開催しています。

少人数であーだこーだ議論しながら、考える楽しさを分かち合うことを大切にしています。

現在は「ゼロから作るDeep Learning④ 強化学習編」という本を読み進めています。

今回は本書第2回の輪読会ということで、2章を読み進めました!

本記事では、今回の勉強会で学んだことをざっくりと紹介していきます。

学習内容

MDPとは

この章では、エージェントの行動によって、環境の状態が変わる問題を考えます。

次の状態が、現在の状態と行動だけから決まり、現在よりも過去の状態を必要しないことをマルコフ性と呼びます。

マルコフ性を仮定したもとで、エージェントが行動を決定する過程のことを、マルコフ決定過程(MDP)と呼びます。

ここから、MDPについて見ていきましょう。

エージェントと環境とのやりとり

エージェントと環境とのやりとりを数式化したいです。

鍵となるのは、3つの要素「方策」「状態遷移」「報酬関数」です。

  • 方策 \(π(a|s)\)
    方策は、エージェントがどのように行動を決めるかを表します。
    現在の状態 \(s\) を条件とし、行動 \(a\) を決めます。
    方策には「決定論的」と「確率的」の2種類あります。
    決定論的な方策とは、「この状態のときは、必ずこの行動にしよう」といったものです。一方、確率的な方策とは、「この状態のときは、行動Aの確率を7割、行動Bの確率を3割にしよう」といったものです。
  • 状態遷移 \(p(s’|s, a)\)
    行動を選択したとき、その結果としてどのように状態遷移するかを表します。
    現在の状態 \(s\) と 行動 \(a\) を条件とし、次の状態 \(s’\) を決めます。(マルコフ性)
    状態遷移も「決定論的」と「確率的」の2種類あります。
    決定論的な状態遷移とは、「ある状態で行動を決定したら、次の状態が一意的に定まる」ことを意味します。確率的な状態遷移はその反対です。
  • 報酬関数 \(r(s, a, s’)\)
    状態 \(s\) から 行動 \(a\) で状態 \(s’\) になったときの報酬を表します。
    報酬も「確率的」に与えられる場合が考えられますが、その期待値を取ることで、「決定論的」であるかのように考えることができます。

現在の状態から、方策によって行動が決まり、状態遷移によって次の状態が決まり、報酬関数によって報酬が決まるというわけです。

状態遷移と報酬関数は、環境によって定まっています。一方、方策は私たちが決めることのできるものです。

そして私たちの目的は、よい方策を見つけることです。

最適方策

よい方策とはどのようなものでしょうか?

目先の報酬だけでなく、より先の報酬のことも考えたいです。そのために、収益という概念を導入しましょう。

収益 \(G(t)\) を次のように定義します。
\(G(t)=R_t+γR_{t+1}+γ^2R_{t+2}+…\)
\(R_t\) は時刻 \(t\) における報酬、 \(γ\) は割引率と呼ばれる 0 から 1 の間の実数です。

収益は各時刻の報酬の和ですが、割引率によって時間が進むに従い、各時刻の報酬は減っていくように定義しています。

収益は確率的な値を取るため、その期待値を計算します。
\(v_π(s)=E[G_t|S_t=s,π]\)
この式は、現在の状態 \(s\) と 方策 \(π\) を条件としたときの収益の期待値です。
\(v_π(s)\) を状態価値関数と呼びます。

ここまで来れば、最適方策とは何かを定義できます。

最適方策とは、すべての状態において、他のどの方策よりも状態価値関数の値が大きい方策のことです。

MDPにおいて、決定論的な最適方策が存在することは証明できるらしいです……。

テキストでは、実際に2マスのグリッドワールドの例で最適方策を求めました。

2マスのグリッドワールドでは、決定論的な方策は4種類のみのため、各方策の状態価値関数を調べることで、最適方策を調べられます。

最後に

強化学習の2回目のゼミでした。

新しい用語がまたたくさん登場しました! さっそく難しくなってきているように感じます。輪読会で議論しながら進めることで、理解を深めることができました。

ここからどのように展開していくか、次回が楽しみです。

では、また!

本シリーズの記事はこちら

各ゼミの第1回記事はこちら