書籍輪読 - これからの強化学習

#119では2.1節を関が紹介し、 #120では2.2, 2.3節を関が 2.4節をatlimited様に紹介いただきました

1章では価値関数が離散的な状況を想定していましたが、 2.1節では価値関数が連続的であることを考慮し、その中で関数を近似する方法を検討しています。通常の機械学習では、入力がi.i.dであることを仮定していますが、強化学習では、得られるデータが方策に依存するので、マルコフ性を持ってしまうため、収束が保証されません。そのなかで収束をさせるための様々な方法について論じられています。後半で、すべての手法がセミパラメトリックモデルで解釈できるという点が面白かったです。

2.2節は探索と利用のトレードオフをどのように理解するかという点について紹介されていました。リグレット、サンプル複雑性などの指標により、評価されています。ただ、紹介されていたのはシンプルなルールによる手法で、このあたりはなかなか難しい領域なのかと思うと同時に、ルールを導入することで、様々な実問題が解決できるヒントでもあるなと思いました。

2.3節は逆強化学習について紹介されていました。価値関数を定義することが難しい場合における学習法で、エキスパートや、正しい方策から価値関数を学ぶ方法について学びました。将棋の棋譜からの学習のように最終的な勝ち負けが与えられた上で、その過程を学習するのは、こういうアプローチなのだなと。

qiita.com

2.4節は経験型強化学習についてでした。どのように試行回数を減らすかという点についての章で、学習が過度に行われてしまうようなパターンをうまく回避するような方法が紹介されていました。

論文紹介

#119では米田より A Complete Recipe for Stochastic Gradient MCMCの紹介が行われました。

2017_04 25_論文紹介 from Takeshi Yoneda

この論文はNIPS2015で発表されたもので、一言でいうとすべてのMCMCアルゴリズムが、一般的な確率微分方程式で記述できることを示したものです。これによって、様々な問題に対するMCMCアルゴリズムを設計することが、容易になったといえます。当日は数学科出身の米田を中心に、濃密なディスカッションが行われました。

#120では吉田より、 Attention and Engagement-Awareness in the Wild: A Large-Scale Study with Adaptive Notificationsの紹介が行われました。

Gunosy DM #120 論文紹介 Attention and Engagement-Awareness in the Wild: A Large-Scale Study with Adaptive Notifications from Coffee Yoshida

こちらの論文はYahoo!Japanが発表した論文で、スマートフォンアプリケーションにおけるプッシュ通知の効果を最大化するために、ユーザの状態を考慮してプッシュを発火させるものです。実際のYahooアプリにおいて大規模な実験が行われ、その効果が立証されていることが印象的でした。