Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

DEIM2021で一般発表/技術報告とスポンサーを行いました

こんにちは、研究開発チームの飯塚です。3/1~3/3にオンラインで行われた、第13回データ工学と情報マネジメントに関するフォーラム(DEIM2021)に参加しました。 今年のDEIMは、現地参加と遠隔参加が選べるハイブリッド開催を予定しておりましたが、昨今のコロナウィルス感染症対策の観点から、今年も完全オンラインで行われました。 今回の参加者総数は、オンライン開催ということもあり1099人と過去最高だったようです。 Gunosy社としては、DEIMに2017年から参加しており、5年目の今年はスポンサーとしての協賛と一般発表/技術報告を行いました。

db-event.jpn.org

発表の振り返り

一般発表

ニュースキュレーションメディアデータを用いたユーザのイデオロギーの特定とそのユーザ閲覧行動傾向分析方式

本発表は東京財団政策研究所の機械学習チームとの共同研究として行われたものです。 当社と東京財団政策研究所は2019年から共同研究をスタートしており、本発表が初の外部発表になります。 せっかくなので、共同研究の実施に至った背景や、目指していることなどについても今回書かせていただきます。

この共同研究のきっかけは2018年の人工知能学会の全国大会で発表した「世代による政治ニュース記事の閲覧傾向の違いの分析」です。 この発表を見られていた方が内容を東京財団政策研究所の方にご紹介くださり、そこから共同研究と発展することになりました。 data.gunosy.io

東京財団政策研究所の機械学習チームは、政治学者の加藤創太氏を中心として政治学の研究課題に機械学習技術を用いてチャレンジをしているチームです。 2019年の全米政治学会(APSA)ではAugmenting Political Data through Generative Adversarial Networks (GANs)として、政治学研究のためのデータをGANを使ってData Augumentationを試みる研究を発表していたり、 6th IEEE/ACM International Conference on Big Data Computing, Applications and Technologies (BDCAT)では日本の首相動静の記事と機械学習の手法を用い、日本における政治的景気循環の実証分析した内容をTopic Variation Detection Method for Detecting Political Business Cyclesとして発表しBest Paper Candidateに選出されております*1。 このように政治学と機械学習の複合分野で成果を上げているチームです。

Gunosyがこのような研究をする背景には、ニュース記事の質やそのユーザの行動についての理解を深めることで、よりよいサービスを提供したいという意図があります。 ニュース推薦では滞在時間が長い記事を良しとする傾向がありますが、良さにはさまざまな観点があり、こうした仕組みの限界はどこかにあるのかなと思っています。 その中で政治学は非常に長く研究されてきた分野で、報道と人の行動そして社会との関係について非常に多くの知見を得ている分野です。 これらの知見をとりいれていくことによって、政治分野にとどまらずよりよい情報消費のためのユーザ体験を作っていくことを目指しています。

前置きが長くなりましたが、本研究ではニュースサービスのユーザのイデオロギーの推定を行おうということを目指しています。 イデオロギーとは、政治思想と呼ばれ、代表的なものとして「左派」「右派」といったものがあります。 「なぜイデオロギーを推定したいのか」ということについては、決してユーザのプライバシーを暴こうという意図があるわけではありません。 推薦システムにはフィルターバブルという、アクセスする情報が偏ってしまい、ユーザから多様な視野を奪ってしまう問題があると言われています。 このような背景の中で推薦システムは「多様な情報」を提供すべきだといわれていますが、この多様さというのは様々な側面があります。 政治の分野において重要とされる多様さのひとつがイデオロギーです。 我々はユーザのイデオロギーを推定し、そのユーザ行動を観察することで、多様な情報を提供するためになにが必要なのかを明らかにしたいと考えています。

今回の研究で我々は、「政治学の専門家によってラベル付けされた少数のニュース記事」と「ユーザが行った"いいね"アクション」によって、正確だと考えられるイデオロギーラベルをもったユーザ集合を得ることに成功しました。 "いいね"はクリックと比較すると非常に少数のデータですが、ユーザの意思をよりダイレクトに反映したデータとなっており、こうした活用ができたことは非常に有意義でした。 過去のイデオロギー研究は、主にユーザの自己申告をもとに行われてきましたが、我々のデータは実際の行動データに基づいたものなので、従来研究のユーザの自己申告では分からなかったことが分かる可能性があると考えています。 このユーザ集合をもとに、ユーザ行動の分析を詳細に行い、イデオロギーごとの行動特徴の分析、”いいね”を行っていないユーザのイデオロギー推定、ニュース記事のイデオロギー推定などさまざまなタスクを実施できることを期待しています。

ニュース記事の品質が広告消費行動に与える影響の調査

この発表では、Gunosy社が近年取り組んでいる「メディアの品質向上に向けた取り組み」の一部について研究成果として報告を行いました。 ニュースサービスは、限られた配信スペースの中で

  1. ユーザーに満足してもらえる記事を配信する
  2. 広告収益も同時に確保する

という2つの要件を満たすことが、長期的なサービス継続に不可欠になります。 既存研究によると、記事の品質はユーザーの満足度に影響を与えることが分かっていました。 一方で、記事の品質が広告の消費といった収益性にどのような影響を与えるかは未解明でした。 そこで、本研究では記事品質が広告の消費活動に与える影響の調査をA/Bテストを通して検証を行い、テストの結果を報告しました。 発表スライドを下記に添付したので、詳しい内容に興味のある方はぜひご参照ください。

技術報告

ニュースアプリケーションにおける推薦システムの構築と評価

ニュースサービスは、日夜蓄積されるニュースをユーザーに対して時間差なく配信するリアルタイム性が求められるため、配信対象の記事が頻繁に移り変わる特性があります。 このような制約の中で、精度の高い推薦システムを構築し、適切な評価を行うためには様々な工夫を行う必要があります。 今回の報告では、双曲空間を用いた埋め込みに関する推薦モデルを本番環境で検証を行った際の工夫について紹介しました。 これはDEIM2020で報告した内容*2の延長上にある内容です。 また、移り変わりの激しい推薦対象に対して、インターリービング手法*3を適用し、効率的に評価を行うためのアイディアを紹介しました。 こちらは目下研究を進めているトピックで、今後続報がご紹介できればと思っています。

なお、「ニュース記事の品質が広告消費行動に与える影響の調査」「ニュースアプリケーションにおける推薦システムの構築と評価」の発表内容に関しましては、筑波大学の知識獲得システム研究室(加藤研究室)*4の皆様をはじめ、加藤誠先生のご指導ご協力を受けており、この場を借りて感謝申し上げます。

まとめ

自身としては二度目のDEIMの参加も、運営者の方々のご尽力により、大変有意義なものになりました。 DEIMは企業からの参加者も多く、同じ社会人としても多くの刺激を受けることができました。 学術的な場において、社内の取り組みを発表することは、取り組み自体を深く理解するだけでなく、研究者の方の意見を頂ける貴重な場であると再度認識しました。 Gunosy社は、今後とも研究ならびに開発の知見を深めつつ、継続的かつ積極的に外部のコミュニティとの接続を行っていきたいと考えています。 今後ともどうぞよろしくお願いいたします。