こんにちは、Gunosy Tech Labリサーチアルバイトの大畑です。 Gunosyデータ分析ブログへの投稿は初めてになります。 私は2021年9月よりリサーチアルバイトとして研究を行なっており、今回が初の外部発表になります。
2月27日~3月2日に開催された第20回日本データベース学会年次大会 (DEIM2022)に大畑、飯塚が参加し、発表を行いました。今回は私がGunosyで研究を始めた背景や問題意識を含めた学会の参加記録を書いてゆきます。
DEIMとは
DEIMは第14回データ工学と情報マネジメントに関するフォーラム という名で毎年3月上旬に開催される学会です。検索や推薦、データベースシステムからビッグデータ、SNSなど幅広い分野のトピックにまつわる研究が発表されています。今年の会場は愛知県名古屋市で、当初は現地とオンラインのハイブリッド開催が予定されていたのですが、新型コロナウイルスの感染拡大を受けてオンラインのみの開催となってしまいました。しかしながら、完全オンラインの状況下でも参加者は過去最大の1,376名を記録したようで、発表も多くの方に聴いていただくことができました。
DEIM 発表内容
今回のDEIMでは、Gunosyからは技術報告と2件の研究発表、計3件の発表を行いました。
技術報告
飯塚が「Gunosyにおけるニュース推薦システムに関する取り組み」というタイトルで技術報告を行いました。 この報告では弊社のニュース推薦アルゴリズムの変遷や研究開発チームの紹介、そして現状抱えている課題と我々の取り組みについて紹介を行いました。ニュースキュレーションアプリとしては「ユーザーに長く使ってもらえるサービスの提供」と「広告効果の最大化」の2点が重要な課題であり、我々はこの2点を両立させることを目標に研究開発に取り組んでいるというメッセージを発信しました。
研究発表① ネガティブニュースがユーザー行動に与える影響の調査
大畑和也(法政大学), 飯塚洸二郎(株式会社Gunosy), 彌冨仁(法政大学)
この発表は私がGunosyで行っている研究の内容です。
研究開発チーム所属のきっかけ
私は情報工学専攻の大学院生で、インターネット上、特にソーシャルメディア上に蔓延する誹謗中傷問題やフェイクニュース・デマについて関心があり、これらの問題に取り組んできました。その活動の一つとして、弊社が賛助会員として入会しているNPO法人ファクトチェック・イニシアティブに所属しています。ここではネット上・ソーシャルメディア上で拡散する疑義言説とその真偽について、メディア・プラットフォーム事業者の方向けに調査のサポートを行なっています。 このような背景の中、弊学が共同研究契約を結ぶGunosy研究開発チームと弊学研究室メンバーとの間で、お互いの研究を紹介する時間をいただきました。ここで、研究開発チームが行っているユーザー体験と収益の双方を向上させる取り組みを知りました。大学の研究では触れることの少ない実サービス上のデータを扱えることを魅力と感じ、その後リサーチアルバイトに志願して研究が始まりました。研究のマイルストーンとしてまずは国内学会で発表を行い、その内容をブラッシュアップさせ磨きをかけた上で国際学会で発表、というステップをメンターの方と相談しながら設定しました。研究が始まったのが2021年9月下旬で、研究テーマの選定やサーベイから始まり、まずは3月のDEIMにて研究成果をまとめて発表することを一つの目標として位置づけていました。
問題意識
Gunosyではユーザーに満足してもらうため、ニュース推薦アルゴリズムの改善を続けています。推薦システムにおいて指摘されている問題の一つに、過去のクリック情報などに基づいて偏ったアイテムが推薦される「フィルターバブル」があります。グノシーでは個人の興味にかかわらず話題性や公共性の高い記事が画面トップに表示されるようになっており、これらの問題に対処する施策の一つとなっています。一方で、近年の社会情勢が不安定になる変化に伴い「Doomscrolling」という言葉が使われるようになり、情報と健康の関わりという視点が注目されるようになりました。 Doomscrollingとはネガティブな情報を摂取し続ける行為を意味し、健康被害との関連性が指摘されています1 。我々の身の回りでも新型コロナウイルスや直近ではウクライナ情勢など、ネガティブでショッキングな報道に触れる機会が増加しており不安を抱える人も見受けられます。最近ではこのような社会情勢を鑑みてか、 惨事報道の視聴とメンタルヘルス が公開されました2。このガイドラインではメンタルヘルスの悪影響を抑制する方法として「惨事報道に接する量を最小限にする」「繰り返しの視聴を避ける」などが挙げられています。メディア・プラットフォーム事業者もこれらの問題に取り組んでおり、例えば2021年サイト訪問数世界一のTikTok3では、ネガティブコンテンツの過度な表示を避けるなど幸福追求を目的とする推薦の多様化に取り組んでいます4。
こうした背景を受けて、ニュースアプリにおいて推薦するニュース記事がメンタルヘルス面で悪影響を及ぼす可能性があるのではないかという仮説を元に分析を進めています。私達の研究開発目標は、ユーザーによってメンタルヘルス面を考慮した記事を推薦するシステム構築です。
発表内容
この発表ではネガティブニュース記事の推薦と消費についての分析をまとめ、発表しました。 簡単な要約としては、ネガティブ記事、ポジティブ記事のクリックされやすさについてはスポーツ/社会などカテゴリごとに違いが生じること、ネガティブ記事の推薦数はユーザによって偏りがあることがわかりました。 発表と質疑の時間やプラットフォームが異なる環境であったにもかかわらず、様々な方からコメントやアドバイスをいただきました。「フィルターバブルについて、対象記事のスコープを狭めるとよりわかりやすい結果が得られるのではないか」、「カテゴリごとに閲覧する記事数の傾向は異なる可能性があり、その傾向が認められた場合には今回の実験に加えることでネガティブ記事の消費傾向をより詳細に示すことができるのではないか」 などといった今後の研究に直結する指針をいただきました。質疑応答ブースにきてくださった方々、ありがとうございました。
研究発表② インターリービングにおける正確性と効率性の理論的考察
飯塚洸二郎 (株式会社Gunosy/筑波大学), 加藤誠 (筑波大学/JST さきがけ)
この発表では、飯塚がオンライン評価手法であるインターリービングについての発表を行いました。 インターリービングは効率的なオンライン評価手法として知られています。 既存のインターリービング手法は、実験的にその有効性が示されてきた一方で、なぜ・どのような条件のときに評価が正確で効率的であるかといった側面の解析が進んでいませんでした。 そこで本研究では、インターリービングを確率的にモデル化し、A/Bテストと比較することでインターリービングの正確性と効率性について考察を行いました。
質疑応答では、モデル化における事前前提についての質問をいただきました。 次に論文として投稿する際には、頂いた質問を反映してブラッシュアップしたいと思います。
発表紹介
ここでは私が個人的に興味を持った発表内容を紹介します。
Graph Convolutional Networkを用いた ソーシャルメディア上の偽情報の早期発見 G21-4
須藤広平 (岩手大学), 張建偉 (岩手大学)
- 概要
- 情報の出どころとなるツイート(ソースツイート)とそれをリツイートしたりリプライした関係をグラフで表現し、Graph Convolutional Network (GCN)に入力することで、偽情報かどうかを判別するモデルを構築
- フォロワー数やアカウント名などのユーザー情報①と、ツイートのポジ/ネガや感情値などの特徴からなるテキスト情報②をそれぞれGCNに入力し、①②より得られた特徴量をConcatenateして情報の真偽を予測
- 情報の出どころとなるツイート(ソースツイート)とそれをリツイートしたりリプライした関係をグラフで表現し、Graph Convolutional Network (GCN)に入力することで、偽情報かどうかを判別するモデルを構築
- 所感
- Twitter上で拡散している真偽不明の情報を確認する際には、ツイートに紐づいたリプライが参考になるケースがあります。しかしながら、そのような参考情報を含むツイートは影響力が小さく、埋もれてしまうケースも少なくありません。こちらの研究のようにソーシャルメディアのつながりや拡散のみを使用するのではなく、自然言語処理のように複数のアプローチを用いて判断するというアイディアは大変参考になりました。
書籍レビューの「いいね」予測の説明可能性に基づく ユーザに「刺さる」推薦フレーズの抽出 D33-3
江田怜央 (九州大学), 牛尼剛聡 (九州大学)
- 概要
- 本のレビューを入力とし、「いいね」を押す確率が最も高いユーザーを予測するモデルを作成。このモデルを機械学習の解釈手法であるLIMEで解析し、予測に寄与する文を抽出。これらを組み合わせてユーザーに推薦フレーズを提示する枠組みを提案
- 所感
- 書籍レビューを題材にした研究でしたが、この提案の枠組みをニュース記事の見出し生成等に応用するなど、様々な分野に発展させることができそうだと個人的に興味を持ちました。推薦フレーズの例には文章が長いものから簡潔に述べているものもあったりと、フレーズの長さについての視点が一つのポイントになりそうです。
ツイートにおける芸能人に対する感想のマイニング C34-4
野崎雄太 (筑波大学), 菅原琴絵 (筑波大学), 宇津呂武仁 (筑波大学)
- 概要
- 話題の芸能人に対する意見や関心の集約を目的とし、Twitterから感想を集めるための手法を提案
- 芸能人個人名と形容詞が両方含まれる投稿文、そして芸能人個人名の2つを入力とし、これらをBERTの質問応答モデルや読解モデルを用いて感想と関係があるかを判定
- 話題の芸能人に対する意見や関心の集約を目的とし、Twitterから感想を集めるための手法を提案
- 所感
- このような研究をもとに、誹謗中傷問題の研究がより学術的にも広がって欲しいという願望を抱きました。このテーマを研究するにあたっては、データセット収集がまず一つ目に遭遇する壁となります。センシティブなデータであったり個人を対象にしているという特性から、オープンデータの発見は私の観測範囲では非常に大変でした。そのため、このような枠組みが発展し、データの収集や構築が容易になった上で研究が広く行われるようになることを望みます。
さいごに
DEIMは初参加でしたが、様々な方からコメントをいただいたり他の人の発表を聴いたりと、今後の研究についての刺激をたくさん受けた良い経験となりました。今回の学会参加を踏まえて、引き続き研究を続けてゆきます。学会発表に関わってくださった皆様、どうもありがとうございました。
-
Doomscrolling during COVID-19: The negative association between daily social and traditional media consumption and mental health symptoms during the COVID-19 pandemic https://psyarxiv.com/s2nfg/↩
-
一般社団法人 日本トラウマティック・ストレス学会 https://www.jstss.org/ ↩
-
TikTok、グーグル抜く 今年のサイト訪問数世界一 (The Wall Street Journal) https://jp.wsj.com/articles/tiktok-was-the-internets-most-visited-site-in-2021-even-beating-google-11640211864↩
-
An update on our work to safeguard and diversify recommendations (TikTok) https://newsroom.tiktok.com/en-us/an-update-on-our-work-to-safeguard-and-diversify-recommendations↩