Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

AdKDD & KDD 2021 に参加しました

こんにちは。 GunosyTechLab の Ads ML チームの村田 (id:marice0819) です。ELDEN RING を PS5 でプレイしたいので PS5 を求めてるこの頃です。

こちらの記事は Gunosy Advent Calendar 2021 の14日目の記事です。昨日の記事は ism-kit さんの「Athena view と Terraform による宣言的データモデリングとレイクハウスへの道標」でした。


今年の8月14日~8月18日にシンガポールで開催されていた KDD 2021 のワークショップである AdKDD に主に参加してきました。この記事では参加レポートとして KDD、AdKDD のアドテク関連の発表を中心にいくつかの研究と Keynote の紹介をしたいと思います。

AdKDD

True Post-Click Conversion via Group-stratified Counterfactual Inference

http://papers.adkdd.org/2021/papers/adkdd21-gu-estimating.pdf

広告をクリックして CV (Converision) するユーザーのうち、75%のユーザーは広告のレコメンドをされていなかったとしても CV するユーザーらしいです。この研究では広告をレコメンドされなかったら CV しないが、レコメンドされた場合には CV するユーザーの CV に注目していました。そのような CV を True Post-Click Conversion と呼び、 TCVR という新しい指標を提案しています。また、広告をレコメンドした際に本当に影響を受けるユーザーを反実仮想の文脈で特定できる新しいモデルの提案をしました。

(感想) True Post-Click Conversion を考えない場合、短期的には CV が発生しているように見えるが広告費用全体で見たときに CV が増えていないことがありえるのでモチベーションが非常に共感できました。各ユーザーを反実仮想の観点で広告をレコメンドした場合としなかった場合での行動を元に5つにグループ分けを行い、広告をレコメンドしたときのみ CV が発生しているユーザーを特定するくだりが面白かったですね。

Multigraph Approach Towards a Scalable, Robust look-alike Audience Extension System

http://papers.adkdd.org/2021/papers/adkdd21-selvaraj-multigraph.pdf

f:id:marice0819:20211213110037p:plain
システム概略 (論文より引用)

広告の配信機能の一つで look alike ターゲティング、オーディエンス拡張と呼ばれる機能があります。既存の顧客 (過去に CV したユーザー等) と好みが似たユーザーを何らかの方法で特定し、広告の新たな配信対象とすることで獲得を増やそうとする機能になっています。この研究ではマルチグラフに基づいた新しいオーディエンス拡張およびスコアリングシステムを導入しています。

(感想) 実運用がされ、オンラインでの A/B テストの結果が報告されているのが良いと感じました。アドテク全般に言えることではありますが、ロジック面ではユーザー数や広告数の多さに対して参考になる広告アクションが少なく、非常にスパースなデータしか得られない課題があります。その上で、システム面では低レイテンシで動かす必要があり、ロジックと実装の落とし所を見つけることが難しいのですが実運用に落とし込めるようなロジックなのが良いですね。

Google Keynote

f:id:marice0819:20211213112652p:plain
検索連動型広告 サンプル

Googleで行っている広告クリエイティブの自動生成に関する紹介でした。以下のような背景から Google ではクリエイティブの自動生成をしているそうです。

  • 広告主は自身のメッセージを伝えるためにクリエイティブを多くの時間をかけてカスタマイズしている
    • 検索クエリに合わせてクリエイティブの文言を工夫するなど
    • トラフィックの分布は常に切り替わっていく
    • 小規模な広告主にとっては非常にコストが高い
      • 資金が潤沢な企業が常に有利になってしまう危険性を考慮
  • 多くの場合、広告主はすでに自分のコンテンツを持っている (自社のウェブサイトや売りたい商品のページ)
    • これらのコンテンツは活用の余地がある
広告主のコンテンツ解析 & テキスト生成

クリエイティブの自動生成に広告主のウェブサイトのコンテンツを使用するため、クローリングを行いクリエイティブに使えるような文言等の取得・判定を行います。

  • 広告主のウェブサイトからのクローリング
  • ウェブサイトの構造は広告主によって異なるため、階層構造等考慮する
    • ランディングページのような 1 ページのみのウェブサイトもあれば、商品紹介ページのように同カテゴリの商品が隣接して設置されている場合もある。
  • テキストの分類を行う
    • input: phrase
    • output: 広告の asset として適切か
      • 商品名 (XX Shoes), CV行動 (Take a drive test), プロモーション用語 (Holiday sales), 商品説明, …
  • 広告テキスト生成
    • 商品ページには広告に使えそうな画像がある場合も多いので、プロモーションテキスト生成のために上記で判定されたフレーズ群だけでなく商品の画像も特徴量としてテキスト生成を行っている。

生成したテキストはキャンペーン作成後 (このタイミングで サイトURL や 広告のLP の URL が入力される) 、広告作成時に提案される。広告主は任意のフレーズを選択して配信を許可する方式。

クリエイティブ生成

生成したテキスト以外にも広告主が入稿したテキストも存在します。それらをどのように組み合わせて、広告として生成するかも重要になります。

  • 社内で管理された既存の高品質クリエイティブをフレーズ等の要素ごとに分解しておく。作成されたフレーズと検索クエリと組み合わせ、高品質クリエイティブを作成する
  • プロジェクト初期は多言語対応がしやすい & mis-spelling に強い BERT を活用し、テキストと検索クエリを結合して入力とし、スコアを出力していた
    • しかし、オンラインで動かすには BERT はモデルとして大きすぎたため、実装の方針を変更した
  • Query/User vector を作るモデル と Ad vector を作るモデルを別に作り内積をとる形式にする
    • Query/User vectorは事前には計算できない vector 。ユーザー行動や入力されたクエリを特徴量に計算される
    • Ad vector は事前には計算できる vector 。テキストの unigrams や bigrams 、ウェブサイトのURLを特徴量に計算される
  • 内積のスコアの高い順にクリエイティブの headline, … としていく

(感想) クリエイティブの自動生成は国内での事例が少なく、非常にチャレンジングな内容のため実運用まで動かした事例として大変興味深かったです。生成したテキストをそのまま使うのではなく、一旦広告主の提示して許可を取る形式なのは機械学習と実運用の接地面として地に足がついた運用だと思います。また、1 ページ + フォームといったような、比較的単純な構造をしたサイトだけでなく、階層構造を持っているようなサイトもうまく特徴量に落とし込めるのはウェブクローラに熟知している Google の強みだと感じました。

KDD

本会議のアドテク系の研究もいくつか紹介します!

Clustering for Private Interest-based Advertising

https://dl.acm.org/doi/10.1145/3447548.3467180

Google の FLoC (Federated Learning of Cohorts) に関連した研究です。近年サードパーティ cookie が廃止されるなど広告事業者での閲覧ユーザーの識別が困難になってきています。ウェブ上でのプライバシー保護の観点からすると望ましいことなのですが、広告が適切なパーソナライズがされないと収益性が落ち基本無料でのサービス運営などが難しくなってきます。この研究の手法ではユーザーをコホート (クラスタのようなもの) に割り当てることを目指し、id のような個人を一意に特定できる値を提供しないようにします。また、コホートの判定自体は各ユーザーの端末上で推論を行われ、外部への通信無しにできることを目指します。MovieLens と Million Song Dataset で複数のハッシュ、クラスタリングのアルゴリズムを評価して、実用性、プライバシー、実装のしやすさのトレードオフを議論しています。

(感想) ウェブ上のプライバシー保護の流れは非常に強くなってきています。本記事では紹介しきれませんでしたが、AdKDD の発表でも同様の課題感で多くの議論されていました。この研究でいうところのコホートをはじめとして、個別の id ではなく何らかの単位で aggregate された特徴量しか使えない制限下での広告のパーソナライズは今後も課題となっていきそうです。

A Unified Solution to Constrained Bidding in Online Display Advertising

https://dl.acm.org/doi/10.1145/3447548.3467199

広告の入札戦略の研究です。広告の入札方法と一口に言っても様々な需要が背景にはあります。例えば、日予算を消化する範囲で CPC (Cost-Per-Click) を最小化したい日予算を消化する範囲で CPA (Cost-Per-Acquisition) を最小化したいCPA は固定で、CV 数を最大化したい等 です。それぞれ異なる制約条件のもと目標とする値の最適化を目指すため、既存の論文では問題設定を固定して定式化することが多くありました。本論文ではそれらの様々な制約条件下での最適化を一つのフレームワークに落とし込み、少数のパラメータのみでそれを管理、強化学習により調整をする USCB (Unified Solution to Constrained Bidding) を提案しました。

(感想) 個人的に非常に興味深い内容でした。広告プラットフォームの多くは個別の制約条件と最適化対象ごとに機能を分けて提供しています。上手い実装をしない限りはそれぞれの機能ごとにロジックが異なるので実装が分かれ、管理しなくてはいけないパラメータも異なる等でシステム全体が複雑になりがちです。本研究はそれらの実装が一つにまとまる可能性を示しつつ、プラットフォーム側が現時点で提供できていない新機能提供への発展が可能かもしれないというのが非常に夢があって良かったです。

余談

2021年の KDD はこのようなご時世のためオンライン開催となっていました。そのため、オンラインでも可能な催しとしてガイド付き動物園散策ツアー等も開催されていました。以下の画像はそのなかで紹介されたバクの画像です。

f:id:marice0819:20211213154406p:plain
動物園散策ツアー (画像1)
f:id:marice0819:20211213154811p:plain
動物園散策ツアー (画像2)

オンライン開催なので移動の手間がなく、時差に耐えれば国際会議に手軽に参加できるのは非常に良い機会でした。ただ、活発な議論やカンファレンスの中のお祭り感は感じにくかったため早く世の中が落ち着き、最適な形での開催ができることを切に願っております。


明日は Yu Yamada さんの記事になります。 EKS Manage node groupでカーネルパラメータを変更する とのことです! Gunosy Advent Calendar 2021 も半分を超えてきました。まだまだ続くのでご期待くださいmm