Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

Web IntelligenceとIEEE Bigdataで発表してきました

こんにちは、研究開発チームの関です。 夢眠ねむ卒業公演素晴らしかったですね。WWDBestで膝から崩れ落ちました。近年におけるアイドルのあり方として一つの完成形をみた気がします。夢眠ねむさんとでんぱ組さんの今後のご活躍を引き続き応援しています。

今回のブログでは2018年12月3日〜6日に行われたWeb Intelligence(WI) 2018と2018年12月10日のIEEE Bigdata 2018のWorkshopに参加&発表してきましたのでその報告をさせていただきます。 当社として、そして個人としてもはじめての国際会議参加&発表でした。とても良い経験になりました。

Web Intelligence 2018

Web Intelligence(WI)はウェブに関する国際会議の一つです。 セマンティックウェブとかソーシャルメディアとか推薦システムとか、応用よりで学際的な研究に焦点が当てられています。

今回の開催地はチリでした。日本からはトロントを経由しておおよそ24時間。時差は12時間、季節は夏と完全に裏側と言っていいでしょう。 南米に行くのは初めてで、治安が悪いのではという漠然としたイメージがあってビビっていたのですが、チリは非常に治安が良かったです。 英語がまったく通じなかったのですが、大体Google翻訳でなんとかなりました。Googleすごいですね。 Googleがなかった頃人類がどのように旅行していたかとかまったく想像がつきません。

f:id:Y_sekky:20181205104916j:plain
街のいたるところにでかい犬が寝ていて最初は怖いけど、結構慣れてくる

WIではWeb Personalization, Recommender Systems, and Social Media(WPRSM)というワークショップで発表しました。 投稿8件、採択4件、キャンセル2件でなんと発表は2件で、もう1件の発表は僕の論文の共著者である豊橋技科大の吉田先生だったので、 完全に身内感のあるセッションになってしまいました。*1 今回開催地がチリということで、取り下げが結構多かったみたいです。悲しいですね。

f:id:Y_sekky:20181203111134j:plain
WIでの発表

発表した論文はAnalysis of User Dwell Time by Category in News Applicationです。 こちらはクリックベイトを特定する研究の一環でニュースの滞在時間の傾向を調査した論文です。 滞在時間の短いウェブページが品質が低いのではないか、というのはよく言われています。 そのため滞在時間を活用してクリックベイトの特定をしたいのですが、滞在時間が短いことを考えるためには全体の分布を知らなくてはなりません。 この論文ではカテゴリという切り口で滞在時間の分析をしつつ、滞在時間の短いニュース記事の特徴についてアンケートベースで議論しています。 エンタメカテゴリのニュース記事は滞在時間が短いことが多いですが、その要因の一つに画像を見たいからというモチベーションがあるのではないか、という興味深い知見が得られました。 この内容については以前JSAIのランチセミナーで一部を報告しているので、興味のある方はそちらも御覧ください。

ieeexplore.ieee.org

初日にWorkshopでの発表を終えたあと本会議にも参加しました。 これまで国際会議の論文は数多く読んでいますし、最近では発表が動画でアップロードされるケースも多くあります。 なので特に現地にいく理由もないのかなと持っていたんですが*2、実際に現地で参加すると他の研究者がどのような点に注目しているのか、どういう議論が起こるのかということを感じることができ、非常に得られるものは多いなと思いました。 またよく「国際会議で日本人ばかりでつるんでいて意味がない」などという話も聞いていたのですが、同じ国際会議に参加する人は研究分野や研究モチベーションが非常に近い方が多く、国際会議で共に行動することでより深いコミュニケーションが取れますし、悪いことでもないのかなと感じました。*3 あと個人的には英語が苦手でめっちゃビビってたんですけど、まぁちゃんと準備すればなんとかなるというか、むしろ自分より英語ができない人も堂々とやっていて、そういう感じが大事なんだなと、少し気が楽になりました、

IEEE Bigdata

チリでの国際会議を終えてそのままリマ->LAを経由し、シアトルへ。 IEEE BigdataのWorkshopに参加し、Application of Big Data for Computational Social Science (ABCSS2018)というワークショップで発表してきました。 日本を基盤に活動している計算社会科学研究会が主催しているワークショップです。 こちらでAnalysis of Bias in Gathering Information Between User Attributes in News Applicationというタイトルで発表してきました。こちらも豊橋技科大吉田先生との共著になります。 投稿が24件で採択が16件で採択率は67%でした。

この研究は政治カテゴリのニュース記事の属性における読まれ方の違いを明らかにすることを目的とした研究です。 どのような違いがあるのかや、その意味については研究の中では議論せず、行動データにどのような特徴があるか、違いはどのような方法で発見できるかということを議論しています。 近年エコーチェンバー*4やフィルターバブル*5が問題になっています。 しかしこれらの議論は実際の人々の行動を元に行われているわけではありません。 推薦システムを用いたニュースサービスを提供している当社としては、このような問題がどのようなもので、どのように起こっているのかを知り、適切なサービスを提供する必要があると考えています。

f:id:Y_sekky:20190111175104j:plain
IEEE Bigdataでの発表

論文、発表については以下をご覧ください。

aminer.org

様々な質問をいただき、またこの発表を元にいくつか共同研究のお声掛けなどもいただきました。 ユーザの皆さんや記事を提供していただいているメディアの方々にとって良いサービスとなるべく、研究を続けていきます。

まとめ

今回2件の国際会議のWorkshopで発表しました。当社、そして個人としてははじめての国際会議発表で学びが多かったです。 当社は引き続き研究開発に力を入れ、トップ会議へ継続的に通せるような組織を数年掛けて作っていく方針です。 事業の中で研究開発を行っていくことに興味のある方はぜひお話しましょう!

おまけ

日程の関係でシアトルは土日を挟んだので、観光してきました。いくつか写真を貼ります。

f:id:Y_sekky:20181207161809j:plain
スタバ1号店。表参道みたいなところにあるのかなと思ったら築地みたいなところにあった。

f:id:Y_sekky:20181209104704j:plain
AmazonGo。本当にちゃんと買えた。すごい。

f:id:Y_sekky:20181209104849j:plain
Amazon本社。外からHelloWorldって見えるようになってる

f:id:Y_sekky:20181209151239j:plain
Living Computer Museumの階段。Perlでテンションがあがる。

f:id:Y_sekky:20181209161120j:plain
Living Computer MuseumにはCNNのデモがあって、カメラに物見せたら物体認識してた。中間層の中身も可視化してあった。

f:id:Y_sekky:20190111173037j:plain
町中のいたるところにブリュワリーがあって、様々なビールがたくさん飲めて良い

f:id:Y_sekky:20190111173046j:plain
牡蠣が名産。おいしい。

*1:チェアが「実質採択率がなんと2/8で25%です」とか言ってて苦笑い

*2:当社では海外での国際会議参加は発表を伴うものとしています。

*3:もちろんせっかくの国際会議なので他国の研究者と議論するというのはものすごく大事だと思います。

*4:意見を同じくする人や自分の意見と同じニュースばかりを読むことで意見が偏りやすくなってしまうこと

*5:推薦システムなどによって自らの関心のあるコンテンツばかりを見るようになり、世の中のことを知れなくなってしまうこと