Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

2020年の研究開発チームの振り返り

はじめに

こんにちは、研究開発チームの関です。 2020年もまもなく終わりを迎えますね。皆さんどんな一年だったでしょうか。 私にとってはアイドルのライブがほとんどなく、生きがいの一つがなくなって辛い一年でした。 オンライン特典会やライブ配信で名前を読んでもらうことを楽しみに生きる日々です。 空いた時間でリアル脱出ゲーム・謎解きに夢中になり、この一年で約40公演に参加しました。

本記事は、Gunosy Advent Calendar 2020 16日目の記事です。

昨日はQAチームakinkさんの 歴史と向き合い既存機能の棚卸しをした話 - Gunosy Tech Blog でした。

本エントリでは昨年に引き続き今年も研究開発チームの振り返りをしていきたいと思います。

昨年の記事はこちらです。研究開発チームの立ち上げの経緯なども書いているので、まだ読んでいない方はよろしければこちらも合わせてお読みください。

data.gunosy.io

今年の主な業績

  • Recsys Long Paper採択
  • WebIntelligence Long / Short Paper採択
  • DEIM 優秀オンラインインタラクティブ賞

今年度の主な業績としては、査読付き国際会議論文に3本採択、国内会議での受賞1件となりました。 昨年3本の国際会議採択があり、それを踏まえて今年はそれを継続し一発屋で終わらないようにすることを目標にしておりましたが、 それを達成することができて非常によかったと感じております。 後述しますが、今年は昨年に比べて国際会議への投稿数が増加しております。 国際会議へ通すことの難しさ、昨年の運の良さというのを痛感する一年でしたが、 その分チームとしての自力は上がった一年だったのかなと思っています。

Recsys2020 Long Paper: A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets

今年最も大きな成果はこちらだったといえるでしょう。 研究の経緯とか内容とかいつかブログにまとめます!って言ってたたら半年たってまだなにもしていませんでした。死。

秋に行われたRecsys2020読み会でそのあたりのこと話しててまとめてます。 内容や経緯について関心のある方はぜひ御覧ください。

あとDBSJ(日本データベース学会)のニュースレターに学会レポートを寄稿したので、そちらでも読めます。

archive.dbsj.org

情報処理学会の会誌にもまた別の原稿としてRecsysのレポートが出る予定です。 個人としては主著での国際会議採択は初めてだったのでそう言った意味でも大きな出来事でした。

Web Intelligence Long/Short Paper

Web IntelligenceにはLongとShortそれぞれ1件ずつの採択となりました。 Web Intelligenceには2018年のWorkshop採択、2019年のLong Paper採択と、これで3年連続の発表になります。 こちらは2件とも豊橋技術科学大学の吉田先生との共同研究に関するものです。 主著になった学生さんとは春頃から週に1回のペースでMTGをしながら研究活動を行っておりました。 当社の研究開発チーム発足時から、吉田先生とは共同研究を実施しているのですが、ようやく査読付き論文と言う形で成果を出すことができたのでよかったです。 まだ論文がリポジトリなどに載っていないので、詳しくは公開されたらそちらを参照いただけると幸いです。

www.wantedly.com

Long Paper: Analysis of Short Dwell Time in Relation to User Interest in a News Application

こちらは修士2年の本間さんとの共同研究で、ニュースの滞在時間の短さに着目した研究です。 WI2018のWSで発表した研究とも関係しています。 これまで滞在時間を扱った研究では、滞在時間が長いものが良く、短いものが良くないとされており、 滞在時間の長いものに関する分析は多くあるものの、短いものに対する分析はあまり行われていませんでした。

この研究ではユーザのクリック履歴をベースに特徴空間を作り、その上に記事と滞在時間をマッピングすることで、滞在時間の興味関心空間上での意味について考察しました。 そしてその結果として、短い滞在時間が必ずしもユーザエンゲージメントの低さを示すわけではないことを示唆しています。

Short Paper: The metrics of keywords to understand the difference between Retweet and Like in each category

こちらは修士一年の関本さんとの共同研究で、TwitterにおけるRTとLikeそれぞれの特徴となるキーワードを検出する指標を提案する論文です。 去年のWebDB Forumや今年のDEIMでも発表していた研究になります。

キーワードの検出というとTF-IDFなどがよく知られていますが、ツイートのような短く巨大な文の集合では十分な判定ができない側面がありました。 そこでカイ二乗検定のプロセスを採用し、単語が期待された頻度よりどの程度外れているかを評価することでキーワードを検出することを提案し、 ツイート集合からRTとLikeの傾向を測定することに成功しています。

DEIM2020: 双曲空間におけるニュース推薦のためのオンライングラフ埋め込み

こちらはポアンカレ埋め込みを用いたニュース推薦に関する研究です。 DEIM2020でのインタラクティブセッションで発表し、優秀オンラインインタラクティブ賞を受賞しました。 この時期はCOVID-19の影響がで始めたころであり、学会のオンライン化もかなり直前に決定したことであったことを記憶しており、 そのさなかでの優秀賞の受賞は素晴らしいと思います。

本研究はその後アップデートしながら、いくつかの国際会議に投稿をしているのですが、現状まだ採録には至っていません。 今後良い報告ができるといいなと思っています。

2020年に行ったこと

業績以外で2020年に新たに行っていたことについて以下に書いていきます。

人員の増加

ずっと社員は私ひとりだった研究開発チームですが、新たなメンバーとして飯塚さんがジョインしました。 元々機械学習チームでエンジニアをしており、昨年度のRecsysにはShort Paperが採択されています。 その後はリサーチとエンジニアのロールを50%:50%として働いていたのですが、 この春から弊社の社会人博士制度を利用して筑波大学の博士課程に進むことになり、正式に研究チームのメンバーとなりました。

www.wantedly.com

社会人博士制度は私が博士号取得後に、これから博士課程に進む方には働きながら取得できるようにしたいと思い作った制度でしたが、 これまでだれも適用される方がいなかったので、第一号の適用者がでてきて非常にうれしいです。

公募型リサーチインターンの実施

今年の新たなチャレンジとして、リサーチインターンを公募しました。

我々のチームにはインターンとして法政大学博士1年の北田さんが所属しており、非常に活躍をされています。

data.gunosy.io

www.wantedly.com

上記の記事にもある通り、北田さんはもともと学部時代からインターンをされていた関係でのスタートでした。

今回公募でリサーチインターンを募集した目的には、以下のようなものがあります。

  • 単純なリソース増加による投稿数の増加
  • リサーチインターンを実施しているということによる研究コミュニティへのプレゼンスアップ
  • 新たなメンバーの参加による異なる視点からの研究の実施
  • 社員メンバーのメンタリングスキルのトレーニング

この春は3名のインターンを1月から3月にかけて受け入れ、うち筑波大学の栗本さんは人工知能学会全国大会で研究発表を行いました。

speakerdeck.com

COVID-19の発生で、リモートワークなど想定とは違った形での実施にはなりましたが、 それぞれ異なるテーマで異なる得意分野をもった学生の方々と研究をさせていただき、私自身、非常に良い経験になりました。

2021年、リモートワーク主体の中でどのような実施形態があるのかというところで良い方がいれば、というフェーズなのですが募集はしておりますので関心のある方はこちらから応募いただくか、話を聞いてみたいという方は私にTwitter*1のDMなどで直接コンタクトしてみてください。

hrmos.co

投稿数の増加

2020年は採択件数こそ昨年と同じでしたが、共同研究先も合わせ、査読付き投稿件数が大幅に増加した一年となりました。

  • KDD: 1件
  • Recsys: 3件 (内1件採択)
  • SocInfo: 1件
  • WSDM: 2件
  • ICADL: 1件
  • WI: 2件(内2件採択)
  • ICWSM: 1件
  • IEEE Bigdata: 1件

私は採択は基本的に運の要素が強く、投稿数を伸ばして投稿し続けることが重要だと考えています。 そういう意味では昨年は非常に運がよく、今年は研究体制を拡充できたよい一年だったと思っています。 一方で、現状の体制だとこれ以上伸ばしていくのは限界があるなと感じており、次にどのような手を打っていくのかというのは悩みどころです。

オーガナイズドセッションの主催

新たな取り組みとして、人工知能学会全国大会においてオーガナイズドセッションとして「広告とAI」を企画し運営しました。

sites.google.com

オーガナイズドセッションは「萌芽的な研究テーマや学際的課題など、一般セッションには収まらないテーマについて深い議論を行う」ことを目的とした提案に基づくセッションです。 広告は機械学習技術の応用先としては最もビジネス的に成功している領域の一つであり、主要なトピックのひとつです。 しかし国内の研究コミュニティでは主要なテーマであると言えず、十分な議論ができていない側面がありました。 例えば2019年の人工知能学会全国大会では、「広告」で検索すると11件の発表がヒットしますが、バラバラのセッションに配置されていました。 そこで広告に関する機械学習研究についてより深い議論ができる場になればと思い、オーガナイズドセッションを企画・提案しました。

こちらはオープニングで用いたスライドで、上記のような課題意識について述べています。

招待講演では、国内からトップ会議に採択された広告研究を行った事例として、弊社でインターンをしている法政大の北田さん、サイバーエージェントの藤田さんに発表いただきました。

Zoomへの同時参加者は100名を上回っており、大会全体を通しても人気セッションであったといえると思っています。 Slackでの議論も非常に盛り上がりました。

2021年の全国大会でも提案が採択され「広告とAI」を実施する事になっています。 よりよい企画になるように頑張っていきますので、ぜひ投稿・参加をお待ちしています。

国際会議・国内学会への参加・スポンサード

COVID-19により最も影響を受けたのがこちらになります。 2020年はほぼすべての学会、研究会がオンライン化されたため、昨年までとは状況が大きく変わりました。 論文を通したのにRecsysの行われる予定だったリオデジャネイロにいけなかったのは本当に悔しかったです。。。。

主な実施内容は以下のとおりです。

  • 昨年スポンサーを行ったDEIM、NLP、JSAIへのスポンサー実施 *2
  • DEIM、JSAIでの発表
  • KDD2020聴講参加、Recsys発表参加
  • WI2研究会の専門委員に就任

オンラインでの学会・研究会の開催は徐々に運営側もなれてきており、さまざまな工夫が行われてきていると感じています。 一方で質疑や参加者間の交流などいまだ課題となっている面は多いです。 来年の開催でハイブリッド開催を目指している学会もいくつかあり、どのようになっていくのかを見守りつつ、貢献していきたいと思っています。

大学での講義

昨年同様、前期に早稲田大学、東京大学での講義を行いました。 今年はすべてオンラインで実施することになったため、昨年までと大きく状況が変わりました。 4月は緊急事態宣言下であったこともあり、授業の実施が行われず、講義の回数が減ったことでカリキュラムも大きな変更を余儀なくされました。 そうした中でもクオリティの高い講義を提供すべく努力したつもりですが、やはりオンラインでは色々制約が多いなぁという感想です。 特にグループワークを最終課題においた講義を提供しているため、そちらのコミュニケーションが非常に大変だったようでした。 一方でいずれの講義も昨年が一年目だったこともあり、それぞれの講義で課題となっていた部分については改善ができたので、それはよかったかなと感じています。 来年実施する際はオンライン前提でより準備ができますし、大学側がハイブリッドに対応しはじめているので、うまく活用しよりよい講義が提供できるようにしたいです。

オンライン化でよかった点としては以下の点があります。

  • 移動が減ったことで、時間的な負担が少なくなった
  • ゲスト講師のアサインがこれまでより簡単になり、幅広い方に講義いただけた
  • ライブコーディングのような座る座席によっては見づらい点が解消されている
  • グループワークに対するサポートを直接Zoomに入る等で行うことができるため、講義時間に縛られることがなくなり、サポートに使える時間は相対的に増えた

2020年の振り返り

最後に一年の取り組みについて総括をします。

よかったこと

昨年に引き続き、国際会議に論文を通す事ができたことが良かったかなと思います。 一発屋にしない、2年連続でやるぞ、というのはずっと思っていたので達成できてよかったです。 またそれに伴って投稿数を増やせたことは自信になりました。 締め切り直前はマルチタスクで目が回っていましたが、おかげでまたひとつ自分としてのスタイルを作れた気がします。 投稿数を増やす過程で、多くの人の研究を一緒にすることができ、様々な執筆スタイルを吸収できたのもよかったです。

課題と 2021年のチャレンジ

今年度投稿数を伸ばすことはできましたが、現状の規模感ではこれ以上伸ばすのはなかなか難しいなと考えており、 なにを具体的な課題として取り組んでいくべきかを見定めるというのが一番の課題かなぁと思っています。 研究チームの最も重要なミッションは論文を通すことなので、 この部分をより良くするための具体的なアクションが必要で、それを模索する年になりそうです。 また私個人のキャパシティがキャップになっている部分があるので、このあたりの権限移譲をしながらより柔軟に動けるようにしていきたいとも思っています。

チャレンジとしては投稿数を伸ばす状態はできてきたので、より事業に近い部分での研究テーマの策定、 事業を行っているチームに対するナレッジの提供を通した間接的な事業貢献、現場のエンジニアがより先端技術に触れやすい環境づくりなどに力を入れていきたいと考えています。 論文をかける研究チームを作ることが事業に大きな貢献をするということは、自分の中では確信があり、それを具体的な成果として示していけるように、「論文を書く」という軸足をぶらさずにいろいろな取り組みをしていきたいです。

おわりに

昨年の振り返りブログはいろいろ反響をいただいたので、今年もと思い書いてみましたが、 今年はあんまりブログを書いていなかったので大変なボリュームになってしまいました(約8,000文字)。 自分としてもよい振り返りになりましたし、いま人工知能学会の学会誌の方から産業界における研究開発の特集における原稿依頼をうけており、そういった意味でも良い整理になりました。

今年一年、いろいろな場面で議論させていただいた研究者の皆様、一緒に研究を進めた同僚、共同研究先の皆様、 なにより研究チームのあり方に理解を示し、応援してくださる社員の皆さんに感謝しております。 研究開発の組織づくりや事業における位置づけなどまだ模索段階ですが、よりよい研究開発組織を作ることを目指して来年も引き続き頑張っていきますので、 皆様引き続き、よろしくお願いいたします。

*1:https://twitter.com/YoshifumiSeki

*2:WebDB Forumは今年は実施なし、YANSはスポンサー募集なしでした