れおなちずむ

素粒子物理、量子計算、機械学習、計算機科学とかの話をします

machine learning

強化学習④ - Q関数の評価

強化学習の基礎についてまとめたノートの第四回です。

強化学習③ - Bellman方程式

強化学習の基礎についてまとめたノートの第三回です。

強化学習② - 方策と価値関数

強化学習の基礎についてまとめたノートの第二回です。

強化学習① - Markov決定過程

こんにちは~。 最近巷でホットな(深層)強化学習ですが、かくいう自分も1、2年前ぐらいにAlphaGoの熱に当てられて強化学習にハマりまして、そのときにちょっとした自分用のノートをつくりました。 その結果、ブラウザ上で深層強化学習をするAPIとかが生えた…

f-divergenceと汎関数微分

こんにちは 情報理論の分野ではしばしばKullback-Leibler divergence(KL divergence)とよばれる量が登場します。 $$ D_{KL}(p||q) = \int p(x)\log \frac{p(x)}{q(x)}dx $$ このKL divergenceは、任意の確率分布$p,q$に対して常に非負の値をとることが知られ…