Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

ウェブにおけるユーザエンゲージメントを計測・予測する研究について。

はじめに

みなさんこんにちは、研究開発チームの関です。 先週末はでんぱ組の幕張2daysでしたね。なにを言っても陳腐になってしまうのですが本当に素晴らしい2日間でした。 色々素晴らしいことがあったのですが、推しが作った衣装をきた推しが最高に可愛かったのと、アンコールでのみりんちゃんサプライズのときの推しのドSなMCが最高に良かったです。

さてこの記事は情報検索アドベントカレンダーの9日目です。 昨日はh-nagoさんのqiita.comでした。

本日の記事ですが、私の推し研究者であるMounia lalmas氏をご紹介したいと思います。 みなさんにも推し研究者いますよね。 彼女は現在SpotifyのResearch Directorです。もともとは米ヤフーで研究をされており、2017年からSpotifyに移られたようです。 ウェブサービスにおけるユーザエンゲージメントに関する研究を数多く行っており、数多くのトップ会議に論文を通しています。 それらの業績の課題意識や分析手法は現実的な問題を捉えており、考察も非常に示唆に富んだもので研究だけでなく実務でもすぐ活用できそうなものが多い印象があります。 本エントリでは、彼女の研究の一部を簡潔に紹介させていただきます。(本当に簡潔ですすみません) もし気になった論文があればぜひじっくり手にとって読んでみてください。

f:id:Y_sekky:20191210024339p:plain

Predicting Pre-click Quality for Native Advertisements (WWW2016)

PDF

どんなもの?

ネイティブ広告がクリックする前にユーザに与える影響を推定しようという試みです。 ここでいうネイティブ広告は日本でいうインフィード広告で、いわゆるアプリのUIと同質化した広告のことです。

クリックする前にユーザに与える影響とはなにか、どう図るのかというのが観点ですが、 それは近年多くの広告で見られるようになった広告へのフィードバックを使います。

f:id:Y_sekky:20191209225428p:plain
スライド3Pより

上記の図にあるように、近年こうした広告にフィードバックをつける機能は多く見られます。 その中でも「offensive」というフィードバックについて予測することを本研究では試みました。

技術や手法のキモはどこ?

実際のログデータを用いて、分布などの可視化を行っています。

f:id:Y_sekky:20191209231343p:plain
クリック率が高いものが必ず攻撃的なわけではない

多くのFeatureを用いた探索的な分析によって、各指標の有効性を検証し、その解釈を議論しています。

f:id:Y_sekky:20191209230528p:plain

どうやって有効だと検証した?

一部の特徴量のみによって構築したモデルによるA/Bテストで、実際にネガティブなフィードバックの減少を確認しました(すごい) おそらく特徴量全部使わなかったのはビジネス上の理由です。

Improving Post-Click User’s Engagement on Native Ads via Survival Analysis (WWW2016)

PDF

どんな研究?

ネイティブ広告のクリックしたあとのユーザエンゲージメントを生存時間分析により分析し改善しようという試み。 これもWWW2016で、同じ会議にPre-ClickとPost-Clickの研究出しているの強すぎますよね。最高。

エンゲージメントとはランディングページの滞在時間とみなすことができる。 そこで滞在時間が一定の時間tを超える確率をp_tとして、p_tが高いものが表示されやすいようにePCMをp_tで重み付けすることで、 クリック後のエンゲージメントが高い広告が表示されやすくしたい。

エンゲージメントが高ければCVRが高くなり、広告の効果は高くなり、クライアントの満足度があがる。 クライアントの満足度が上がれば出稿される広告の数は増え、競争環境が高まることにより収益性は高まり、企業の収益は増える。 ユーザも不快な広告を目にする機会がへるため、サービスの価値も高まる。最高。

技術や手法のキモはどこ?

滞在時間に生存時間分析を用いたことと、予測のために多くの特徴量を開発したこと。

どうやって有効だと検証した?

オフラインのテストはリアルデータのログを使い、様々な特徴量の影響を検証した。 オンラインではA/Bテストをおこない、LPの滞在時間が向上し、直帰率が低下し、なんとCTRも向上した。

Understanding and Measuring User Engagement and Attention in Online News Reading (WSDM2016)

PDF

どんな研究?

ニュース記事におけるスクロール量をモデル化する試み。 記事全体での分布や画像・ビデオの有無によって滞在時間がどのように変化するかを分析。 そしてマルコフ連鎖モデルによりユーザの状態遷移をモデル化。 最後にウェブページを4つの区分にわけて、それらの区分に対する滞在ユーザの比率を元にトピックモデルを作り、記事のエンゲージメントを予測することを試みます。

f:id:Y_sekky:20191210010410p:plain

技術や手法のキモはどこ?

様々な仮説に従って滞在時間の分析を丁寧におこなったこと、そしてLDAを拡張した滞在時間の予測モデルを構築したこと。

どうやって有効だと検証した?

plainなLDAと滞在時間の含めたLDAの出力から線形回帰で滞在時間の分布を予測し、提案手法のほうがよりよく予測できた。

Friendly, Appealing or Both? Characterising User Experience in Sponsored Search Landing Pages (WWW2017)

PDF

どんな研究?

モバイル対応度合いのガイドラインを作成し、約4,000のLPをガイドラインに応じて4つのレベルにアノテーション。(Y!の社員による) そのアノテーションの結果をHTMLタグや画像から作った特徴量を用いて推定しようという研究。 モバイルらしさが何によってもたらせるのかを定量的に理解すること、これによって例えば広告事業者が適切なLPを作れるようになる。

技術や手法のキモはどこ?

約4,000の広告LPをヤフー社員によって4段階にアノテーション。 大規模な広告LPに関する研究はこれがはじめてである。

f:id:Y_sekky:20191210022400p:plain

f:id:Y_sekky:20191210022419p:plain

どうやって有効だと検証した?

HTMLと画像をつかって100以上の特徴量を作り予測に活用。 結果や各特徴量の影響を分析した。

Describing Patterns and Disruptions in Large Scale Mobile App Usage Data (WWW2017)

PDF

どんな研究?

Flurryのログを分析した研究。 FurryはY!が買収してたのでできた研究、強すぎるでしょ。 230Kのアプリと600MのDAUが分析対象。 221の国のデータがあるけど61%がUS、34%がUKだったので、この2つの国のデータを分析する。 完全に数値で殴ってる。

技術や手法のキモはどこ?

データがたくさんあること(こなみかん)

f:id:Y_sekky:20191210022130p:plain
新年を迎えたときの各種アプリのセッション

f:id:Y_sekky:20191210022153p:plain
Brexitのときの各種アプリのセッション

どうやって有効だと検証した?

  • 平日と週末の比較や、アプリのジャンルの比較を通してその差分を示す。
  • Breexit, EURO2016, New Yearそれぞれのイベントの際のセッションがどのように推移したかを確認し、イベントの注目度合いとその効果を可視化

Jointly Leveraging Intent and Interaction Signals to Predict User Satisfaction with Slate Recommendations (WWW2019)

PDF

どんな研究?

Spotifyにおけるプレイリスト推薦。 インタビューやアプリ内アンケートによって獲得した8種類のUser Intentとサービス内でのimplictな行動ログを用いてユーザ満足度の予測モデルを作る。

ユーザ満足度の予測の研究は検索では多いが、推薦では少ないし、音楽プレイリスト推薦でははじめて。 さらにアンケートやインタビューの結果と組み合わせる方法を示し、その有効性を示した。

技術や手法のキモはどこ?

丁寧なユーザインタビュー、アプリ内アンケートによる仮説構築。 その結果をログデータと結びつけるモデリング手法。

f:id:Y_sekky:20191210023029p:plain
インタビュー・アンケートによって得られたuser intent

f:id:Y_sekky:20191210023058p:plain
user intentとユーザ行動の関係

どうやって有効だと検証した?

  • 行動ログを直接用いるよりuser intentごとに分割して予測するほうが予測結果が良い
  • さらにuser intent間の相互作用を考慮したMix-Levelモデルが最も良い予測結果を示した

Uncovering Bias in Ad Feedback Data: Analyses & Applications (WWW2019)

PDF

どんな研究?

広告へのフィードバックのバイアスに関する分析を行った上でバイアスを除去する方法を提案し、その結果を広告表示に適応したときの収益変化についてシミュレーションしている。 最近流行りのunbias系の研究である。 バイアスは性別などの属性に加えて、ユーザの興味関心や、エンゲージメント度合いに応じたバイアスも考慮している。

ところでこの研究は著者がY!のときのもののよう。 1stがOracle, 2ndがイギリスの大学、3rdがApple, LastがSpotifyと米Y!の悲哀を感じる。 こういう研究所でやってたタスクの退職後の権利ってどうなってるんですかね。

技術や手法のキモはどこ?

これもデータで殴っているといえばそう。いろいろなバイアスを可視化し、考察している。

f:id:Y_sekky:20191210021923p:plain
エンゲージメント度合いによる各種指標のバイアス

unbiasな手法には特に新規性はない。

どうやって有効だと検証した?

unbiasにする方法はすでに提案されているもの。 シミュレーションによって収益の改善可能性を示唆した。

おわりに

大雑把なまとめになってしまいましたが、いかがでしたでしょうか。 彼女はものすごくインパクトのある新しい手法を提案するわけではないですが、事業の課題をうまく研究課題に落とし込み、数値化しにくい部分をうまく数値化するという点で非常に大きなインパクトのある研究を行う研究者だと思います。 もし気になる物がありましたら詳しく読んでみてください。いろいろな発見があると思います。

こうした特定のサービスに偏った研究は、再現性や公共性の面で研究としてどうなのかという批判を受けることもありますが、論文自体もビジネス的に隠蔽すべきところは隠蔽しながらも、再現できるように細かい実験方法まで記載されていたり、一般化された知見が記述されていたりと、こうした研究に取り組みたい企業研究者にとってヒントになる点が多いです。 Spotifyに移って以降しばらくは、チュートリアル講演やY!の成果の論文化が多かったですが、今年にはいってSpotifyでの成果も少しずつ出てきました。 今後の研究活動にも注目していきたいと思います。

また私もウェブサービスに関わる企業研究者として、彼女のような、サービスとして数値化できない部分を数値化し、事業にもユーザにも学術にもインパクトのある研究ができればと思っています。 これからのGunosyの研究活動にもご期待いただければ幸いです。