Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

Tokyo Editors Labに参加してきました

こんにちは。データ分析部の荻原です。様々な動画を見過ぎて突然思い出し笑いをしてしまう事が最近の悩みです。 普段はグノシー動画におけるデータ分析やロジック開発などをしています。今回は4/21 ~ 22に開催された 「Tokyo Editors Lab」にデータ分析部所属の関、大曽根、荻原で参加してきたので、その模様およびどのようなサービスを開発したか 共有していきたいと思います。

Tokyo Editors Lab

f:id:ogiogi93:20180502183142p:plain Tokyo Editors Labはデジタルメディアの世界的組織であるGEN(Global Editors Network)が主催するハッカソンであり、今回はニュースメディアにおけるファックトチェック・フェイクニュース問題に焦点を当てた内容です。(去年は災害報道に関する題材だったとの事です) 今回のハッカソンにはGunosyの他にNewsPicks、フジテレビジョン、東京新聞、NHK、琉球新報、朝日新聞、Yahoo!、ニッポン放送からそれぞれ精鋭3名が参加する豪華な内容となっていました。

スケジュールの大まかな流れとして、初日の午前中にハッカソンの説明および First DraftのBen Docker氏、Google News LabのIrene Jay Liu氏、一般社団法人日本報道検証機構代表理事の楊井人文氏によるファクトチェック・フェイクニュース問題に関する講演が行われ、その後はひたすらプロトタイプを開発するという流れでした。

f:id:ogiogi93:20180511190419j:plain f:id:ogiogi93:20180511190454j:plain

アイディア

いきなり本題に入りますが、弊社チームはこの2日間で「Disruption Finder」と題するプロトタイプの開発を行いました。「Disruption」は分裂・分断という意味があり、情報の分断に焦点を当てたプロトタイプです。より具体的な背景及び問題提起として

  • 情報・メディアの多様化している
  • どのようにして分断が生じているのか
    • このニュース記事はだれが読んでいてだれが読んでいないのか?
    • 読まれ方に大きな違いがあるニュース記事はなにか?
  • パーソナライゼーションによる分断の拡大に対する懸念
    • ユーザーの興味のある情報しか集まらない世界

が挙げられ、これらの問題解決の一つの案として「ユーザーに対して幅広いニュースを読む事ができる環境・仕組み」をメディア側が創造していく事が大切ではないかと 考えました。 f:id:ogiogi93:20180502184540p:plain

作ったもの

このハッカソンの中では、弊社のサービスであるニュースパスの実データを元に以下のような観点・機能を持つプロトタイプを開発しました。

プロトタイプイメージ図: f:id:ogiogi93:20180502182700p:plain f:id:ogiogi93:20180502182712p:plain

具体的に以下のような機能を盛り込みました。

  • ニュースパスの行動ログデータから読まれ方に差のあるニュースを発見する(ランキング機能)
    • 男性(女性)がよく読むが女性(男性)は読まないニュース
    • 若年層(高齢者)はよく読むが高齢者(若年層)は読まないニュース
    • 興味関心の違い(興味クラスタ)によって読まれ方の傾向が異なるニュース
  • どのように違うかを可視化するダッシュボード

分断を発見するためのスコアの算出方法についてですが、今回は2日間と短い時間であったためユーザーの属性による確率密度関数の全体と対象記事との密度比から算出しています。この手法によりアプリ利用ユーザー属性の偏りがあった場合でも、差分を算出することができます。密度比に関することは過去記事でも簡単に紹介しているため、ぜひこちらも一読下さい。 data.gunosy.io

このプロトタイプによって例えば

  • 男性, 高齢者がよく読んでいる
    • 森友・加計問題のような政局に関する記事
  • 女性がよく読んでいるが男性は読んでいない
    • 財務次官セクハラ問題に関する記事
    • 本来は当事者である男性こそ読んでほしい
  • 若者・女性はよく読んでいるが男性・高齢者は読んでいない
    • 子育てに関する記事
  • 偏りなく読まれている
    • 北朝鮮情勢に関する記事
    • ミサイルは老若男女関係なく恐怖を感じている?

とユーザー属性によって大きな偏りが生じている事がわかります。このサービスにより、例えばニュースメディアは

  • ユーザー情報の偏りの是正
    • 偏りを前提にして編集方針の決定
    • 見ていないニュース記事を関連記事として提示
  • コンテンツの提供やアプローチを変える
    • わかりやすいタイトル・サムネイルの選択
    • 幅広く読んでもらえる工夫の実施
  • 影響の高いFakeNewsの早期発見
    • 読み手に偏りがあるニュース記事は発信されている内容にも偏りが可能性がある
    • 読む記事に偏りのあるユーザはFakeNewsを信じやすい可能性

などの様々な施策・対策を実施する事が可能になるのではないかと思います。

まとめ

フェイクニュース問題の要因の一つとして情報の分断があると考え、この分断を可視化するプロトタイプを開発しました。ハッカソンということで非常にシンプルな手法・ツールかつ、コンペの結果としては入賞することはできませんでしたが、多くの分断を発見する事ができたこと、そして普段直接的には関わることが少ないメディアの方々と議論・意見交換することができ、多くの知見を得る事ができました。 現在弊社ではパーソナライゼーションを全面に推し進めていますが、必ずしもユーザーの興味のある情報だけを届けていくのでは、ユーザーにとって真の意味で最適に情報を届けられていないのかも知れません。今回の学びを元に、引き続きサービスの改善に努めていきたいと感じました。

※ 余談 属性・コミュニテイによって情報が偏ることをエコーチェンバー現象と言うらしいです(GEN公式アカウントツィート)

f:id:ogiogi93:20180511190524j:plain