目次
はじめに
てくますプロジェクトでは、てくますゼミと呼ばれる学習会を開催しています。
少人数であーだこーだ議論しながら、考える楽しさを分かち合うことを大切にしています。
現在は「ゼロから作るDeep Learning④ 強化学習編」という本を読み進めています。
今回は本書第2回の輪読会ということで、2章を読み進めました!
本記事では、今回の勉強会で学んだことをざっくりと紹介していきます。
学習内容
MDPとは
この章では、エージェントの行動によって、環境の状態が変わる問題を考えます。
次の状態が、現在の状態と行動だけから決まり、現在よりも過去の状態を必要しないことをマルコフ性と呼びます。
マルコフ性を仮定したもとで、エージェントが行動を決定する過程のことを、マルコフ決定過程(MDP)と呼びます。
ここから、MDPについて見ていきましょう。
エージェントと環境とのやりとり
エージェントと環境とのやりとりを数式化したいです。
鍵となるのは、3つの要素「方策」「状態遷移」「報酬関数」です。
- 方策 \(π(a|s)\)
方策は、エージェントがどのように行動を決めるかを表します。
現在の状態 \(s\) を条件とし、行動 \(a\) を決めます。
方策には「決定論的」と「確率的」の2種類あります。
決定論的な方策とは、「この状態のときは、必ずこの行動にしよう」といったものです。一方、確率的な方策とは、「この状態のときは、行動Aの確率を7割、行動Bの確率を3割にしよう」といったものです。 - 状態遷移 \(p(s’|s, a)\)
行動を選択したとき、その結果としてどのように状態遷移するかを表します。
現在の状態 \(s\) と 行動 \(a\) を条件とし、次の状態 \(s’\) を決めます。(マルコフ性)
状態遷移も「決定論的」と「確率的」の2種類あります。
決定論的な状態遷移とは、「ある状態で行動を決定したら、次の状態が一意的に定まる」ことを意味します。確率的な状態遷移はその反対です。 - 報酬関数 \(r(s, a, s’)\)
状態 \(s\) から 行動 \(a\) で状態 \(s’\) になったときの報酬を表します。
報酬も「確率的」に与えられる場合が考えられますが、その期待値を取ることで、「決定論的」であるかのように考えることができます。
現在の状態から、方策によって行動が決まり、状態遷移によって次の状態が決まり、報酬関数によって報酬が決まるというわけです。
状態遷移と報酬関数は、環境によって定まっています。一方、方策は私たちが決めることのできるものです。
そして私たちの目的は、よい方策を見つけることです。
最適方策
よい方策とはどのようなものでしょうか?
目先の報酬だけでなく、より先の報酬のことも考えたいです。そのために、収益という概念を導入しましょう。
収益 \(G(t)\) を次のように定義します。
\(G(t)=R_t+γR_{t+1}+γ^2R_{t+2}+…\)
\(R_t\) は時刻 \(t\) における報酬、 \(γ\) は割引率と呼ばれる 0 から 1 の間の実数です。
収益は各時刻の報酬の和ですが、割引率によって時間が進むに従い、各時刻の報酬は減っていくように定義しています。
収益は確率的な値を取るため、その期待値を計算します。
\(v_π(s)=E[G_t|S_t=s,π]\)
この式は、現在の状態 \(s\) と 方策 \(π\) を条件としたときの収益の期待値です。
\(v_π(s)\) を状態価値関数と呼びます。
ここまで来れば、最適方策とは何かを定義できます。
最適方策とは、すべての状態において、他のどの方策よりも状態価値関数の値が大きい方策のことです。
MDPにおいて、決定論的な最適方策が存在することは証明できるらしいです……。
テキストでは、実際に2マスのグリッドワールドの例で最適方策を求めました。
2マスのグリッドワールドでは、決定論的な方策は4種類のみのため、各方策の状態価値関数を調べることで、最適方策を調べられます。
最後に
強化学習の2回目のゼミでした。
新しい用語がまたたくさん登場しました! さっそく難しくなってきているように感じます。輪読会で議論しながら進めることで、理解を深めることができました。
ここからどのように展開していくか、次回が楽しみです。
では、また!