Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

【これからの強化学習】 Gunosy データマイニング研究会 #118 を実施しました

gunosy-dm.connpass.com

こんにちは。グノシー開発部のアルシャマンです。最近は、KID FRESINOのSalve feat. JJJをよく聴いています。

今日は4/12(水)に開催したGunosy DM #118について紹介します。前回に引き続きこれからの強化学習の1.3~1.5節の輪読と、論文紹介を行いました。

Gunosy DMこれからの強化学習については、以下のブログ記事で紹介しています。 data.gunosy.io

書籍輪読(これからの強化学習)

データ分析部の大曽根と吉田からそれぞれ1.3~1.4節と1.5節についての発表がありました。

1.3節では、MDP(マルコフ決定過程)における価値関数の表現と、それを推定するアルゴリズムについて学びました。具体的には、ある方策πのもとでの行動価値関数について成立する再帰式であるベルマン方程式とSarsaという学習法、最適行動価値関数について成立する再帰式であるベルマン最適方程式とQ-learningという学習法についてです。

1.4節では、方策を行動価値関数とは別のパラメータで表現された確率モデルと考え、そのパラメータについて最適化することで強化学習問題を解く方策勾配に基づく方法について学びました。

1.5節ではPOMDP(部分観測マルコフ決定過程)における強化学習について学びました。「エージェントは状態を部分的にしか観測できない」とした場合の強化学習についてです。どの状態にいるのかを表す確率分布である信念状態を導入して、価値関数を表現します。

論文紹介

次にデータ分析部の関から、Optimizing the Recency-Relevancy Trade-off in Online News Recommendationsという論文の紹介がありました。

ニュースサイトのトップページに掲載するニュースを選択する時に考慮される「Recency(新しさ)」と「Relevancy(ニュースの重要さ)」というトレードオフ関係にある2つの指標についての分析と「Highest Future-Impact(ニュース掲載後にどれだけPVを稼ぐか)」に基づいたニュース選択方法の提案がされています。

最後に

今後もGunosy DMは隔週開催予定です。次回の#119は、4/25(火)を予定しています。

次回の内容は、今回論文発表を担当した関からこれからの強化学習の2.1~2.3節の輪読と、同じくデータ分析部の【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装までというブログの著者のmathetakeからA Complete Recipe for Stochastic Gradient MCMCという論文の紹介となっています。

興味ある方は、ぜひご参加下さい。

gunosy-dm.connpass.com