Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

Web Intelligence 2019にFull Paperが採択され、発表をしてきました

はじめに

みなさんこんにちは、研究開発チームの関です。 今年のクリスマスも横浜赤レンガ倉庫で、カップル大量発生の中ででんぱ組さんのライブを見て過ごすことになりそうです。

10/14~17までギリシャのテッサロニキで開催されていたWeb Intelligence 2019 (WI2019)に、 論文がFull Paperとして採択されましたので発表のために参加してきました。 すこし時間が経ってしまいましたが、採択された論文と現地の様子について報告したいと思います。

採択された論文について

まずはWI2019に採択された論文について紹介します。 一言でいうと「Gunosy社で用いている推薦アルゴリズムの基本部分とそのシステムアーキテクチャを示し、有効性をオフライン・オンライン両方で検証した」論文です。 論文はarxivでも公開しています。

arxiv.org

提案手法

提案した手法について説明します。

f:id:Y_sekky:20191113191409p:plain

アルゴリズムの大枠を示したスライドがこちらです。 クラスタごとのCTRを各クラスタとユーザの類似度で重み付けしたものを、時間的に減衰させたものをスコアとしています。 クラスタCTRを用いた協調フィルタリングと考えるとわかりやすいかもしれません。

この手法の強みは、ユーザの行動やニュースのトレンドをいち早く推薦結果に取り入れられることです。 ユーザのベクトル表現は、ユーザがニュース記事をクリックすると直ちに更新されます。 ユーザとクラスタの類似度はユーザベクトルの変化によって変化し、推薦結果を直ちに変えることができます。 これはコールドスタート問題にも有効で、ユーザは記事を1つでもクリックすればパーソナライズされたニュース記事リストを受け取ることができます。 また、一般の協調フィルタリングがクリックを用いてスコアリングを行うのに対して、CTRを用いてスコアリングを行っているため、 新しく注目されているニュースを高く評価でき、古くなって人気のなくなったニュースのスコアを下げることができます。 この特徴からこのアルゴリズムをImmediate News Recommendationと論文中では表現しています。

f:id:Y_sekky:20191113193108p:plain

こちらは本研究の他の研究と比較したときの特徴を示したスライドです。 本手法はそこまで強い新規性があるわけではありません。近年隆盛のDeepなモデルでもありません。

重要な特徴はCFベースなことだと考えています。 ニュース推薦システムはアイテムの更新性が高いため内容ベースにすべきだという主張が一般的でした。 しかしそれをCTRをベースにしたモデルにすることで実現しました。 これはウェブにおけるニュースの提供形態が変わっていることにあると考えています。

多くのニュースサイトは編集者によりトップニュースが選択されており、推薦システムはユーザの回遊を促すものでした。 しかし近年スマートフォンによるUIの変化により、すべてを推薦システムで提供するサービスが増えています。 Facebookのニュースフィードが代表例で、弊社のサービスもそうです。以降こうしたUIをフィード型といいます。 これまでの推薦システムでは主要なコンテンツは編集者による選択によって選ばれているので、 より深い興味を反映したリストが望ましく、内容ベースが求められていたといえます。

しかし近年のフィード型のサービスでは主要なコンテンツも推薦システムによって提供されなければなりません。 協調フィルタリングは人気なアイテムを推薦する側面が強く、こうした需要を満たします。 こうしたUIの変化による推薦システムの変化については異なる形で議論すべきだとして、 KDD2019においてIntelligent Information FeedというWorkshopが提案されていました。*1 本ワークショップの問題意識は非常に共感するところがあり、今後も注目していきたいと考えています。

システムアーキテクチャ

本論文では提案手法を実現するためのシステムアーキテクチャについても述べています。 具体的なシステムまで踏み込んだことは本研究の貢献の一つです。 Immediateなシステムの実現にはシステムの構成も非常に重要でした。 こうした全体の設計とともに、論文中では各コンポーネントが果たす役割を、実際に用いたAWSサービスも含めて述べています。

f:id:Y_sekky:20191113194709p:plain

採択までのプロセス

本論文はすぐに採択されたわけではなく、2回のリジェクトを経ています。 どのようなプロセスで採択に至ったのかをここでは書きます。

WSDM2018投稿時

まずはWSDM2018に投稿を行いました。 これが弊社にとっての初めての国際会議への投稿でした。 いま振り返れば圧倒的な推敲不足でした。レビューもボロボロでした。 かなり全体を通してまとまっていない議論をしていたと思います。 しかし1本書き上げて投稿したということがつながったと思います。

WWW2019投稿時

Rejectを受けて再投稿先をWWW2019のShort Paperとしました。 WSDMは8Pであり、WWW2019のShortは6Pだったので2Pの圧縮をする必要があります。 松尾ぐみの論文の書き方: 英語論文 ではクオリティを上げる課程で文量が減っていくという記述があります。*2 これを踏まえて短くすることでクオリティを上げることを目指しました。 WSDMでの指摘を参考に主張が大きすぎるところをコンパクトにしながら、構成を整理しました。

結果としてリジェクトとなりましたが、レビューにおいて全体的な書き方については高い評価をもらうことができました。 リジェクトの大きな理由はNoveltyが足りないという指摘でした。 この論文は実際にサービスリリースを経てのシステム論文なので、アルゴリズム自体の新規性を増すことは難しいです。 自社の仕組みを査読付き論文にしておくことは、今後の研究活動においても非常に重要なので、 この結果をうけてトップ会議を諦めて他の会議に出すことを決めました。

WI2019投稿時

WIの投稿に際してここまでのレビューをうけて実験を追加しました。 実験ではユーザに実際に表示されていたニュース記事のみを推薦候補記事として、スコアによって並び替えるという実験を行っていましたが、 シンプルな内容ベースのスコアが非常に高く、提案手法の優位性が見えづらい状況でした。 要因にはユーザに表示された記事は元々CTRが高いニュース記事であるため、内容ベースによる並び替えが強く効きすぎるということがあります。 そこで、対象記事を多くし、探索空間を広げることで、そのバイアスをなくすことを試みました。 これは実際の環境に近い実験になります。 その結果問題が難しくなったため、全体としての性能は低くなりましたが、提案手法の良さを強く示す結果を得ることができました。

また全体的な論旨の見直しを行いました。 KDD、Recsysへの投稿・採択を得たことで英語論文の執筆力が上がっており、更にクオリティを上げられたと考えています。

レビューは0~5の6段階の中で、全レビュアーが4(Accept)をつけており、非常に高い評価を得てFull Paperでの採択となりました。 WI2019のFull PaperのAccepted Rateは18.4%と非常に競争率が高かったので、非常に満足のいく結果となりました。

Web Intelligenceについて

概要

Web Intelligenceはウェブに関する研究を扱う学会の1つで集合知,情報検索、情報推薦,Webマイニングなど、Webに関係する研究を広く取り扱っている学会です。 参加者は全体として100名程度でした。

今年の投稿数は163件、うち30件がFull Paperとして採択され、47件がShort Paperとして採択されていました。 Full Paperのみの採択率は18.7%, Short Paperを含めると47.2%となります。 Full Paperの採択率はトップ会議並で、参加者からも「今年のWIはレベルが高い」という声が聞かれました。 発表者の比率は日本からが最も多かったようです。

ギリシャのテッサロニキの様子

テッサロニキはギリシャ第二の都市です。日本でいうと大阪ポジションですね。 特に目立った観光地はないのですが、コンパクトで港が見える良い街でした。 街の中心部の広場から海を見ることができ、夕暮れは非常に美しかったです。 また食事は安価で非常に美味しかったです。 ビールとワインが特によかったです、 そして学会の食事がこんなに美味しいのは初めてでした。

f:id:Y_sekky:20191114191350j:plain

ちなみに優秀な弊社リサーチインターン*3からは、以下のようなコメントを頂きました。

f:id:Y_sekky:20191114191212p:plain

普段インターネット・ミームにまみれた会話をしすぎているので信用が失われているようです。*4 今後言葉遣いには気をつけていこうと思います。

プログラム

セッションはWeb of People, Web of Data, Web of Things, Web of Trust, Web of Healthの5種類で構成されています。 私は特にWeb of Peopleを中心に聴講し、推薦システムやユーザ行動分析に関する研究に多く触れました。

Keynote 2のWeb Futures: Inclusive, Intelligent, Sustainableが個人的には一番印象に残りました。

この発表ではウェブに関する研究の全体像を整理していました。 特に対立構造を中心に議論されてました。 例えば Persobalize vs Privacy, Information Freedom vs Information Qualityなどの構造について実際の研究例を元に紹介されていました。

まとめ

WIは去年も参加しており、今年が2回目です。 去年はWSでの発表でしたが、その時来年は本会議でと思っていたので目的を果たせてよかったです。 この夏、KDD、Recsysとトップ会議に参加してきましたが、トップ会議にはトップ会議の良さが、 こうした小規模な会議にはこうした会議の良さがあるなと思いました。

引き続きGunosyでは研究活動に力を入れ、論文としての成果のアウトプットを目指していきます。 こうした事業会社での研究活動に興味の有る方はぜひご連絡ください。

*1:Baiduの方のkeynoteがめっちゃ面白かったんですが残念ながら資料公開NGだそうです。

*2:http://ymatsuo.com/japanese/ronbun_eng.html

*3:https://data.gunosy.io/entry/research-intern-kdd19

*4:https://dic.nicovideo.jp/a/%E3%83%8B%E3%82%AD