Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

RecSys 2019 参加レポート

はじめに

推薦システムのトップカンファレンスであるACM主催のRecSys2019 が9月15日から9月20日の間にコペンハーゲンで開催されました。 Gunosyから投稿した論文がshort paperとして採択され*1、関、飯塚の2名でポスター発表してきました。

f:id:zer4:20190924120144j:plain

Recsysについて

Recsysは推薦システムに関する国際会議で、今回で13回目の開催になります。 第1回目は100人程度だった参加人数はなんと今回850人にも上り、8月で参加登録が打ち切られていました。

f:id:Y_sekky:20191009143641j:plain
参加人数の推移

参加者の内訳は7割がインダストリ、3割がアカデミアでこうした国際会議では産業界からの参加が極めて多いといえます。 産業界からの高い注目と、研究分野的に産業界のプレゼンスが高いことも一因だと思います。 各種グラフが3D円グラフだったことがTwitterで話題になりました。*2

f:id:Y_sekky:20191009143958j:plain
各種グラフが3D円グラフだったことがTwitterで話題になりました

インダストリからの発表も多く、ユーザーの長期満足度向上やオフライン評価といった身近な課題に取り組む発表が特に身に沁みました。long paperの採択率は19%、short paperの採択率は24%でした。ベストペーパーにはニューラルネットワークを用いた推薦への応用が本当に進歩しているのかを問う論文が選ばれ、大変インパクトがありました。

タイムテーブル

初日がDoctoral Symposiumで、中三日が本会議、残り二日がチュートリアル・ワークショップというスケジュールでした。Doctoral Symposiumには不参加でしたが、博士課程の学生が自分の研究のディスカッションを行い、フィードバックがもらえる模様です。 本会議の初日と二日目にはウェルカムセッションとバンケットで近くのホテルまでシャトルバスで移動して会食しました。

本会議

本会議で気になった発表をいくつか紹介します。

Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches

この論文は冒頭に少し触れたベストペーパーです。この研究の目的は「推薦システム向けに設計された深層学習の最新手法の評価と再現性の確認」です。 2015年から2018年の間にKDD, WWW, SIGIR, RecSysに採択されたlogn paperを集め、実行可能なpublicソースコードかつpublicデータセットな論文を集計しました。なお、上記条件に満たない論文については筆者に直接問い合わせの上で、1ヶ月待つという対応を取っていました。 その結果は以下のとおりです。

f:id:zer4:20190925172906p:plain
再現性の集計結果
RecSysが最も低い結果になっており、発表中に会場に乾いた笑いが起こっていました。

また精度評価も行っていました。各深層学習手法のデフォルトパラメータvsチューニングした推薦システムの従来手法を比較した結果が以下になります。

f:id:zer4:20190925173842p:plain
精度の比較結果
チューニングされた従来手法が、多くのケースで深層学習の手法を上回っていることが確認できます。

筆者らは今回の結果を受けて以下の提案をしています。

  • シンプルなベースラインを設定し、ベースラインのチューニングを行う

    • 大きいデータに対しては適切に前処理(サンプリング)して実験する
  • 実験の目的を明確にする

  • 再現性を高める

    • 仮想化技術を使う
    • メインのコードだけでなく、ベースラインの実験コードも公開する

なお筆者らは実験を続けており、最新の実験結果はここに公開される模様です。

https://www.researchgate.net/project/Recommender-systems-reproducibility-and-evaluation

弊社でもオフライン実験結果を論文として公開する際は、合わせてデータセットまで公開できるように調整できたらいいなと思います。

Online Learning to Rank for Sequential Music Recommendation

  • 著者: BL Pereira, A Ueda, G Penha, RLT Santos, N Ziviani (Federal University of Minas Gerais)

Minas Gerais大学の研究室からの論文です。 ユーザーがサービスにアクセスしている現セッションのなかで、Sequentialにオンライン学習する手法の提案です。 既存のオンライン学習と違い、ランキングを用いて最適化するのではなく、一つのアイテムから得られるplay or skipのフィードバックを用いてオンラインにパーソナライズ学習する点で新規性がある手法です。 オフライン実験も丁寧に行っており、今後実験する際にも参考になりそうです。 なおこの論文はRecSys2019論文読み会でも紹介しており、資料は下記に公開しています。

Online Learning to Rank for Sequential Music Recommendation - Speaker Deck

Recommending What Video to Watch Next: A Multitask Ranking System

  • 著者: Zhe Zhao, Lichan Hong, Li Wei, Jilin Chen, Aniruddh Nath, Shawn Andrews, Adittee Kumthelar (Google, Inc.)

Google BrainのチームとYoutubeのチームによる研究です。 Youtubeの次の動画のランキングを推薦する問題をマルチタスク学習として解いています。 推薦の研究ではクリックや評価値を目的変数として解く事が多いですが、 近年はユーザ行動が多様化し、様々なメトリクスが計測できるようになっており、それだけでは評価として十分とはいえなくなってきました。

著者らはクリックや視聴時間などのEngagement ObjectivesとLikeボタンや評価値のSatisfaction Objectiveに分け、 それぞれ分類問題、回帰問題としてマルチタスク学習で解いています。 マルチタスク学習では、KDD2018で提案されたMulti-gate Mixture-of-Expertsを用いました。 また表示される位置によるバイアスを軽減するためにWide and Deepを用いて位置情報とのSharrow Towerを選択バイアスとして得ています。 結果としては、提案された手法が大幅に改善したとは言えない状況ではありましたが、動画推薦をマルチタスク学習として解くための枠組みは非常に興味深いものだと思いました。 またスライドや、ポスターのデザインが非常に凝っていて面白かったです。

Relaxed Softmax for PU Learning

  • 著者: Ugo Tanielian, Flavian Vasile (Criteo Research)

PU LearningとはPositive and Unlabeled Learningの略で、学習データにPositiveなものと、ラベルがついていないもののどちらかしかない問題設定を指します。 推薦システムは多くの問題がPU Learningです。 ユーザが評価、行動していないアイテムは気づかなかったのかわかりませんし、好きか嫌いかはわかりません。 ユーザがレビューをつけている場合は、低評価などが負例にはなりえますが、そのアイテムを評価する時点である程度関心を得たということです。 関心がなかったものを探すことは難しいです。 本論文では正例のペアのみがあたら得られた、Contextual PU Learningという問題を考えます。 ニュース推薦システムにおけるクリックログのみを用いた推薦がこれにあたるといえるでしょう。

PU Learningでは正例の真の分布を推定することを目指します。 そのために正例でないデータを負例としてサンプリングするのですが、 損失関数として通常のSoftmaxを用いるとすべての負例が一定確率で負例とみなされます。 それに対して本論文ではRelaxed Softmaxという新しい損失関数を提案しています。 損失関数に負例サンプリング分布を導入して、サンプルのされやすさをコントロールする試みです。 また負例サンプリング分布としてはボルツマン分布を用いており、サンプルのされ方について温度パラメータでコントロールできるようにしています。 オフライン実験の結果として真の分布を推定しやすいこと、推薦システムとしての精度も高いことを示しています。

PU Learningというタスク自体初めて聞いたのですが、非常に推薦システムに向いている問題設定だと思いました。 おそらく推定には比較的時間がかかりそうなのでユースケースは限られそうですが、今後が楽しみな面白い研究だと思います。

Leveraging Post-click Feedback for Content Recommendations

Spotifyのデータセット*3と、Bytedanceのデータセット*4を使った研究です。 そのなかでユーザがスキップした(最後まで再生しなかった)ログに着目し、分析と推薦システムの構築を行った研究です。 スキップしたものをそのまま負例のように扱うと、精度が下がってしまい、サンプリングをすることで精度の改善につながったことが報告されていました。 分析、推薦システムのモデル共に問題意識とその結果に納得感があり、非常に面白い内容でした。

ポスターセッション

ポスターセッションではマルチリービングに関する発表をしました。 今回のRecSysはシングルセッションで人が集中しやすい特性もあって、盛況のうちに終わりました。 推薦システムコミュニティのオンラインテストへ高い関心を感じました、 いわゆるTech Giantと呼ばれる企業のメンバーも多く訪れてもらい、刺激になりました。 また英語で研究を説明し、議論する機会は多くないので、貴重な経験になりました。

f:id:zer4:20190924121122j:plain

チュートリアル

4日目の午前中はチュートリアルセッションでした。 チュートリアルは全6個(Bandits, Multi-Task, Fairness, Multi-Stakeholder, Marketplaces, Graph Emb.)あり、そのうち参加したチュートリアルを以下で紹介します。

Bandit Algorithms in Recommender Systems

近年コールドスタート問題やパーソナライゼーション、協調フィルタリングなどニュースや広告の推薦領域にbanditを適用してシステムを改善する取り組みが増えてきています。 本公演では、banditの基本的な構成要素である探索・活用の説明から入り、ε-greedyアルゴリズム、UCBアルゴリズム、Thompson Samplingの紹介がありました。推薦に近いところだとOnline Clustering of Bandits(CLUB)やCollaborative FIltering BAndits(COFIBA)の話題が終盤に紹介されました。弊社の推薦アルゴリズムではすでにbanditのような仕組みを取り入れているものの、最新の手法を用いた時にどのような影響があるか興味が湧きました。

SMORe: Modularize Graph Embedding for Recommendation

本公演では、近年発展してきたGraph Embeddingを統一的に扱うフレームワークと、ライブラリの使用方法を紹介しました。タイトルにあるSMOReはSampler, Mapper, Optimizer for Recommendationの略です。Samplerで、入力をグラフ構造に変換し、MapperでEmbedding Spaceにマッピング、Optimizerで距離を最適化する仕組みです。このライブラリを用いることで、Embedding Basedな手法の実験が効率的に行えるように思いました。実装はC++。 ライブラリはこちら github.com

Multi-Stakeholder Recommendations: Case Studies, Methods and Challenges

本チュートリアルは複数のステークホルダーを考慮した推薦システムに関するものです。 世の中の多くの推薦システム研究はユーザ行動の再現性や、ユーザ体験を重視しており、ユーザによりそったものであるといえます。 実際に適用するときは、その推薦システムを適用するサービス事業者や、そのサービスの上で事業を展開する事業者なども考慮の対象になります。 例えば、グノシーのようなサービスでは、ユーザと我々運営者はもとより、広告主、メディア運営者などさまざまなプレイヤーがいます。

推薦システムを開発するにあたって、これらの要素を考慮すべきという考えがMulti-Stakeholder Recommendations (MSRS) です。 チュートリアルの中では過去の研究を示しつつ、損失関数の定義の仕方の違いを中心に議論されていました。 オンラインテストを扱った研究はまだないそうですが、実際にこの問題設定はオンラインでこそ生きるところだと思うので、まだ発展途上なのかなという印象です。 当社としても多様なコンテンツ、多様なプレイヤーを考慮していこうという問題意識があるので、現状の問題設定については納得できる部分も多かったです。

ちなみに本チュートリアルのオーガナイザであるYong Zhengさんは去年は8本、今年は10本のFirst Authorとしての論文を出しており、ちょっと意味がわかりません。 研究もう少し頑張ろうと思いました。

Concept to Code: Deep Learning for Multi-task Recommendation

最近流行りのマルチタスク学習の推薦システムへの適用に関するチュートリアルです。 このオーガナイザのグループはDeepThinking.AIというウェブサイトを運営しており、 Concept to Code としてKDD2019, WWW2019, ECIR2019でもチュートリアル、ハンズオンを行っています。勢いがありますね。

www.deepthinking.guru

本チュートリアルではマルチタスク学習をBreadthとDepthの2種に分けて議論しています。 Breadthはあるデータセットの中で複数の目的を同時に達成しようということを主に目的としたものとして整理されています。 DepthではBERTやTransformerが例として紹介されています。 推薦システムの様々なタスクにおいてどのようにマルチタスク学習を適用して精度を向上させるかという事例が多く紹介されていて興味深かったです。

ワークショップ

4日目の午後から5日目にかけてはワークショップでした。 ワークショップは全部で、12個ありました。推薦システムの評価から、RecSys Challengeの解説(精度競うコンペみたいなやつ)、ファッションなど多岐に渡る内容でした。以下にワークショップの概要を紹介します。

Workshop on the Impact of Recommender Systems

推薦システムはユーザーが探している商品や項目を直接手助けすることに加え、ユーザーの継続率に間接的に影響を及ぼします。 本ワークショップでは、推薦システムがユーザーに与えるインパクトについて、研究者が最新の分析を発表しました。

キーノートでは、実際にユーザーの満足度をまともに計測できている研究はほとんどないというアツいトークが繰り広げられました。アルゴリズムは複雑なシステムの一部でしかないことを念頭に置き、インパクトは常に合理的なベースラインと比較されるべき、と強調されていました。推薦システムのリスクとして、ユーザーのサービスへの信用毀損があるため、定量的に信用を測るメトリクスも監視していくべきと感じました。

また、参加者が新たなインパクト計測手法について、インタラクティブに議論しました。論文の管理共有アプリケーションであるMendeleyでの実験結果の共有をはじめ、後半にかけてはポスターセッションが行われました。

Workshop on Reinforcement and Robust Estimators for Recommendation

A/Bテストのようなオンライン評価とは異なり、オフライン評価は推薦システムをスケーラブルに評価できる利点があります。近年は因果推論を用いたオフライン評価が活発に研究されており、本公演ではシミュレーションも含めたロバストな評価について発表がありました。

RecoGymは、Criteoによって作成されたOSSです。 github.com E-Commerceサイトのユーザー行動パターンから学習されたモデルや、出版サイト上の推薦システムにおけるユーザーレスポンスから学習されたモデルによって定義された強化学習基盤で、シミュレーションに使える模様。今年もRecoGymコンペが開催されるらしいので、興味がある方はこちらへどうぞ。 RecoGymChallenge

他にもNetflixやSpotify、Googleなど名だたる企業が参加するワークショップということもあり、他のトップ会議に採択された論文の紹介という体の発表が散見されました。例えばこちら Marginal Posterior Sampling for Slate Bandits | IJCAI

7th International Workshop on News Recommendation and Analytics

INRAと呼ばれるニュース推薦と分析に関するワークショップで、今回で7回目を迎えるそうです。 事業者の事例や、分析、推薦モデルの構築などいろいろな発表がありましたが、 特にKeynoteのNatali Helberger氏の「Democracy, Diversity and Design - Sharing experiences from an interdisciplinary project」という発表が興味深かったです。 Natali氏は法学の専門家で、特に情報メディアの多様性について長年研究しており、EUの人工知能と人権に関する評議会のメンバーでもあります。 様々な点に興味を惹かれたのですが、特に彼女が示した4つの多様性が素晴らしいと感じたので紹介します。

  • interest-driven diversity
    • 興味関心のための多様性として、人々の欲しい物を提供するだけでなく、政治につて全体像を伝えて、相反する意見も伝える必要がある。
  • representative diversity
    • 異なる欲求やスタイル、好みをに応じて、多様な意見や考えを図解する。
  • challenging diversity
    • いろいろなことに興味関心をもってアクションするためにナッジ(そっと背中を押す)する
  • provocative diversity
    • 人々が少数意見に出会い、そして認めることができるようにナッジする

推薦システムの多様性について語るとき、多くの人は明確な定義がなく、過剰な期待を寄せていると個人的には感じています。 この期待しについて分類し、明確にしたことは非常に意義があることだと感じました。 残念ながら資料が公開されていないのですが、非常に良い内容でした。*5

コペンハーゲンについて

まちなみ

コペンハーゲンは非常におしゃれな街でした。 初日のウェルカムレセプションは世界最古の遊園地であり、ディズニーランドのモデルになったともいわれるチボリ公園で行われました。

f:id:Y_sekky:20191009185117j:plain

街は非常にコンパクトで、地下鉄、バス、シェアサイクル、電動キックボードがきめ細やかに配置されていて、いろいろ回りやすかったです。

f:id:Y_sekky:20191009185214j:plain
Googleアシスタントが加工した写真

ごはん

コペンハーゲンは美食の街としても知られています。 物価が日本の1.5倍程度となかなかなのであまり積極的には出れなかったのですが、1日だけおしゃれなレストランにいってきました。

www.tripadvisor.jp

コペンハーゲンっぽいおしゃれな料理が沢山食べれて、味も良くて、楽しい夜でした。

f:id:Y_sekky:20191011094410j:plain

おわりに

Recsysは推薦システムに関わる人間にとって重要なカンファレンスであり、それに発表者として参加できることは非常に誇らしいことでした。 日本からの採択は非常に少ないことが知られており、いつかはと思っていたのですが、今年 そして共通のトピックに対する議論 が行われるので、内容は非常に刺激的でした。 また最初100人程度からスタートしたこともあり、イベントを通してコミュニティ感を感じました。 来年以降も胸をはって参加できるように、また研究に取り組んで行きたいと思います。

f:id:zer4:20190918173851j:plain