輪読会「ゼロから作るDeep Learning④ 強化学習編」第２回

はじめに

てくますプロジェクトでは、てくますゼミと呼ばれる学習会を開催しています。

少人数であーだこーだ議論しながら、考える楽しさを分かち合うことを大切にしています。

現在は「ゼロから作るDeep Learning④ 強化学習編」という本を読み進めています。

リンク

今回は本書第２回の輪読会ということで、2章を読み進めました！

本記事では、今回の勉強会で学んだことをざっくりと紹介していきます。

この章では、エージェントの行動によって、環境の状態が変わる問題を考えます。

次の状態が、現在の状態と行動だけから決まり、現在よりも過去の状態を必要しないことをマルコフ性と呼びます。

マルコフ性を仮定したもとで、エージェントが行動を決定する過程のことを、マルコフ決定過程（MDP）と呼びます。

ここから、MDPについて見ていきましょう。

エージェントと環境とのやりとりを数式化したいです。

鍵となるのは、３つの要素「方策」「状態遷移」「報酬関数」です。

方策 \(π(a|s)\)
方策は、エージェントがどのように行動を決めるかを表します。
現在の状態 \(s\) を条件とし、行動 \(a\) を決めます。
方策には「決定論的」と「確率的」の２種類あります。
決定論的な方策とは、「この状態のときは、必ずこの行動にしよう」といったものです。一方、確率的な方策とは、「この状態のときは、行動Aの確率を7割、行動Bの確率を3割にしよう」といったものです。
状態遷移 \(p(s’|s, a)\)
行動を選択したとき、その結果としてどのように状態遷移するかを表します。
現在の状態 \(s\) と行動 \(a\) を条件とし、次の状態 \(s’\) を決めます。（マルコフ性）
状態遷移も「決定論的」と「確率的」の２種類あります。
決定論的な状態遷移とは、「ある状態で行動を決定したら、次の状態が一意的に定まる」ことを意味します。確率的な状態遷移はその反対です。
報酬関数 \(r(s, a, s’)\)
状態 \(s\) から行動 \(a\) で状態 \(s’\) になったときの報酬を表します。
報酬も「確率的」に与えられる場合が考えられますが、その期待値を取ることで、「決定論的」であるかのように考えることができます。

現在の状態から、方策によって行動が決まり、状態遷移によって次の状態が決まり、報酬関数によって報酬が決まるというわけです。

状態遷移と報酬関数は、環境によって定まっています。一方、方策は私たちが決めることのできるものです。

そして私たちの目的は、よい方策を見つけることです。