Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

#DEIM2023 にて技術報告、研究発表、スポンサー展示を行いました

こんにちは、GunosyTechLab の上村、飯塚です。 今回の記事は、3/5〜3/9の5日間にかけて開催された第21回日本データベース学会年次大会(DEIM2023)の参加レポートになります。

DEIM2023 について

DEIMはデータ工学と情報マネジメントに関するフォーラム という名で毎年3月上旬に開催される学会です。 検索や推薦、データベースシステムからビッグデータ、SNSなど幅広い分野のトピックにまつわる研究が発表されています。 今年は、前半がオンライン、後半がオフラインでの開催となりました。 オンラインの参加者数は800名程度、オフラインの参加者数は400名程度でした。 オフラインの会場は、岐阜県の長良川国際会議場でした。

Gunosyの発表内容

Gunosyからは技術報告1件、研究発表1件、スポンサー展示を行いました。

[3b-1] Gunosyにおける推薦システムの変遷と深層学習モデルの応用事例の紹介(技術報告)

この発表では、Gunosyにおける推薦システムの変遷と深層学習モデルの活用例を紹介しました。 Gunosyでは、ビジネス環境の大きな変化が過去数回起き、そのたびにビジネスの目的に沿った推薦システムの開発を行ってきました。 また近年では、研究が盛んに行われている深層学習モデルを推薦システムへ活用しているほか、深層学習をベースとした大規模言語モデルをニュース記事の要約といったタスクに利用しています。 大会開始直後のセッションだったこともあり、多くの学生や研究者の方に発表をご聴講いただけました。

[3b-8] 推薦システムにおける人気バイアスを考慮したランキング評価指標

この発表では、推薦システムにおける評価指標について議論しました。 推薦システムでは、誰にでも人気のあるアイテムの他に、人気は低いもののユーザーにとって興味のあるアイテムの掲出がユーザー体験を向上させる場合があります。 今までの推薦システムの評価では、人気の度合いを評価する指標がありましたが、一般的に使われているnDCGのような推薦精度を評価する指標とは相容れない指標となっていました。 そこで本研究では、推薦精度と人気度合いの両者を加味した指標を提案し、双方を同時に加味した推薦モデルの構築を目指しました。 質疑応答では、そもそも人気バイアスとは何か、サービスにとって害のある人気バイアスと無害な人気バイアスがあるのではないかという点について議論しました。 無害な人気バイアスの例として、誰もが好きな人気アイテムのみが好きなユーザーに対して人気アイテムを推薦する場合が考えられます。 このような場合、人気アイテムを排除してしまうとユーザーにとって不利益となりえるため、ユーザーごとに指標をパラメトライズする必要があると考えています。 また、今後は人気バイアスを軽減させる既存手法と定量的な比較実験を進める予定です。

スポンサー展示

スポンサー展示では、Gunosyにおける推薦システムや直近の研究トピックに関するポスター紹介を行いました。 DEIMでは近年推薦システムを研究する学生や企業研究者の参加者数が増えている印象があり、Gunosyサービス上でのユーザー行動やシステム構成に関する活発な議論が行えました。

スポンサーブースの様子

発表紹介

以下では、Gunosy のメンバーの視点から特に印象に残った論文・発表の紹介をしていきたいと思います。

[3a-9-1] スタンスに合わせたニュースタイトルの自動生成によるニュース記事本文へのアクセスを促す情報提示

  • 著者:江原 駿介(青山学院大学), 莊司 慶行(青学), 山本 岳洋(兵庫県立大学), Martin J. Dürst(青学)
  • 紹介者:上村
  • 概要
    • 生成言語モデルを用いて読者のスタンスに応じて、ニュースタイトルをより興味の惹かれやすいテキストに書き換える手法の提案
    • 記事に対して主題語(=スタンス)を与えることで、主題語に応じたタイトルを生成する
    • 例として、スポーツの試合に関する記事に対して
      • Aチームを応援する人には「Aチームが勝利」、Bチームを応援する人には「Bチームが惜敗」といったタイトルに置き換える
    • GPT-2をベースとしたタイトル生成とSentence-BERTを用いた生成タイトルと本文との一致度によるランキング生成
  • 所感
    • ニュース記事を扱う弊社としても応用の仕方によってはかなり活用できそうな研究テーマだと感じました。
    • スタンスの自動抽出やトピックによる精度の差、エコーチェンバー問題における向き合い方などの課題もありますが、今後の発展に期待したいテーマです。

[4a-3-3] ニュース記事へ言及するTwitter投稿の主観性と情報継承性に基づく分類

  • 著者:遠田 哲史, 吉永 直樹, 豊田 正史(東京大学)
  • 紹介者:上村
  • 概要
    • COVID-19 のニュースとそれに言及したTwitterの投稿を分析
    • 投稿の主観性(主張の度合い)と情報継承性(言い換え度合い)に基づいたアノテーション
      • 言い換えや主張があるのか、誤解を生じる改変があるのかどうか
      • 分析結果では、Twitterの投稿の内、誤解の生じうる改変や、完全な改変が10%弱存在することが判明
    • 投稿を判定する分類器の性能評価
  • 所感
    • 誤った情報が精査されずに拡散される現代のSNSにおいて、どういったプロセスで情報が改変・誤解されていくのかを分析することはとても興味深いと感じました。
    • アノテーションを一人でこなしており大変そうでしたが、発展的には誤った情報を投稿することを未然に防ぐようなシステムの開発に繋がる重要な研究だと思うので、今後の研究にも注目したいと思います。

[4b-4-5] ToB向け業務支援SaaS事業における現場常駐型のリサーチ手法​(技術報告)

  • 発表者:木村 隆介(株式会社リクルート)
  • 紹介者:飯塚
  • 概要
    • リクルートが提供している「レベニューアシスタント」と呼ばれる宿泊施設のレベニューマネジメントを支援するサービスでの取り組みについての発表
    • サービスの精度を高めるためには、データサイエンスの手法自体の洗練も重要である一方で、現場では実際にどのような課題があるのかを深く理解することが重要
    • データサイエンスに関わるエンジニアが実際に宿泊施設に常駐し、知見を深め、サービス品質を高めた事例が紹介された
  • 所感
    • 企業ならではの現場感が伝わる発表で、大変興味深く拝聴いたしました
    • データサイエンスに携わる身として、与えられた課題をいかに解くかに注力する傾向がありましたが、課題自体を洗練するというプロセスの重要さについて納得しました
    • 今後新しい顧客やユーザー層にアプローチする際に参考にしたいと思います

まとめ

今回はオンラインとオフラインの直列ハイブリットというチャレンジングな形態でしたが、研究発表に加えてスポンサーブースの展示が行え、有意義な時間を過ごせました。 今後も継続的に研究コミュニティと対話を重ねながら、得られた知見を研究開発やサービス改善に活かしていきたいと思います。