Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

2019年のGunosy研究開発チームの振り返りとこれから

はじめに

こんにちは、研究開発チームの関です。 いつのまにやら年末感が漂ってきましたね。今年もクリスマスは赤レンガ倉庫でカップルたちの中アイドルライブを見て過ごしました。*1 年越しはCDJででんぱ組と年越しを迎えるので、クリスマスも年越しも推しと過ごせて幸せです。

さて、この記事はGunosy Advent Calendar 2019の21日目の記事です。*2 この記事では研究開発チームのこの1年の振り返りと、今後について書いて行こうと思います。 自分なりの整理や、社内広報の役割も兼ねています。

f:id:Y_sekky:20191226101521p:plain

2018年までの研究開発

まずは簡単に今年以前にGunosyの研究開発がどのような形だったのかについてまとめます。

株式会社Gunosyは2012年11月に設立された会社ですが、 2011年に私を含む東京大学の大学院生3人によって開発されたニュース推薦システムを利用したメール配信サービスを元にしています。 創業者の3人は学部の同級生ですが、修士では全員異なる研究室に所属していました。 皆それぞれの研究室でウェブマイニングを研究していて、修士1年の夏季休暇を利用して本サービスの開発を行いました。 その頃の様子は以下のインタビューを御覧ください。みんな若いですね。

thebridge.jp

Gunosyは立ち上げのころから研究開発への取り組みと研究コミュニティへの発信を行っています。 2012年の人工知能学会では創業者の福島がサービスの開発過程で行った実験の結果を発表しています。*3 その後サービスでの実験結果は福島の修士論文にまとめられました。 また2012年のIPA未踏事業にも採択されており,福島と吉田はスーパークリエータの認定を受けています。*4 このころの実験をまとめた論文は言語処理学会の特集号に掲載され、2017年度の言語処理学会論文賞を受賞しました *5

各種学会へのスポンサーは2015年ごろから積極的に行っています。 人工知能学会、自然言語処理学会、データベース学会の関連イベントを中心にスポンサーを行っており、 各種学会のブース展示や、発表などを行っています。今年も同様に行っていく予定です。

また私は創業と並行して博士課程に進学をし,2015年以降継続的に対外発表を行っており,2017年3月に課程を修了し工学博士を取得しました。

博士号取得後、研究開発チームを立ち上げました。そのため2019年は研究開発チームの3年目となっています。 1年目はどこまでをサービス貢献とし、どこまでを研究とするかがうまく定まらず、かなり中途半端になってしまっていたと自分でも思います。 この時期はまだ研究専業ではなく、サービスの開発にも関わっていました。 このままでは中途半端になってしまうと思い、サービスの開発からは手を引き、2年目から研究発表数と投稿数、産学連携への貢献のみをKPIにする体制に変更しました。 その結果、発表数は増え、国際会議本会議への投稿もでき、Workshopではありますが、初めて国際会議での発表を行うことができました。

data.gunosy.io

2019年の主な活動

業績

さてこのような形で3年目を迎えた研究開発チームですが、今年は飛躍の年になりました。 3件の国際会議本会議採択、そのうち2つはトップカンファレンスと呼ばれる学会で、 もう1件もFull Paperの採択率は20%未満とCompetitiveな学会に通すことができました。

それぞれの詳細は以下のブログを御覧ください。

data.gunosy.io

data.gunosy.io

data.gunosy.io

学会・研究会への参加

採択された国際会議以外に国内でも多くの学会にスポンサー・参加・発表しました。 国際会議偏重になりつつ有る現在において、国内学会への位置づけについては色んな意見がありますが、 国内学会というカジュアルな発表の場が研究のマイルストーンとして有効であり、研究をブラッシュアップするいい機会になり、 国内コミュニティとのつながりの強化が研究の生産性を高めると考えており、積極的に国内学会・研究会に参加しております。

参加した国際学会(いずれも発表参加)

  • KDD2019
  • Recsys2019
  • WI2019

参加した国内学会・研究会

  • DEIM 2019 (発表参加)
  • NLP 2019 (発表参加)
  • JSAI 2019 (発表参加)
  • MIRU 2019
  • YANS 2019
  • 第241回自然言語処理研究会
  • WebDB Forum 2019
  • テキストアナリティクスシンポジウム
    • 依頼講演とパネルディスカッション
  • IBIS2019 (発表参加)
  • 第6回自然言語処理シンポジウム (発表参加)

スポンサーした学会

  • DEIM 2019
  • NLP 2019
  • JSAI 2019
  • YANS 2019
  • WebDB Forum 2019

参加レポート

こちらに参加レポートをまとめておきます。 手前味噌ですが、弊社ブログの参加レポートは、気になった発表まとめなど内容が充実しておりますので、よければ一読してみてください。

data.gunosy.io

data.gunosy.io

data.gunosy.io

data.gunosy.io

data.gunosy.io

data.gunosy.io

大学での講義

研究開発チームとしては産学連携にも力をいれており、論文執筆以外にも大学での講義をしておりました。 これまでもゲストの講義はしておりましたが今年度は初めて学期を通じての講義を2つ担当しました。*6 講義をゲストではなく1学期分担当するのは初めてだったのですが、非常に大変でプレッシャーも大きかったです。 先生方はすごいなと改めて思いました。

ウェブ工学とビジネスモデル

ひとつは東京大学での「ウェブ工学とビジネスモデル」です。 この講義は私の指導教員である松尾豊教授が担当されている講義であり、修士一年のときに私を含む創業メンバー3人が受講していた講義でもありました。 当時は世の中に多数存在するWebAPIに機械学習を組み合わせたウェブサービスを構築することを目指した授業でした。 Gunosyを作るきっかけになったものの一つといえるかもしれません。

昨年の10月ごろに松尾先生から「この授業の構成を見直したいので手伝ってほしい」というご相談をいただきました。 当時からみるとWebAPIを公開するというオープン化のブームはかなり小さくなりました。 またウェブサービスが大きなビジネスになるようになり、簡単に作ったものが世の中を大きく変えるような事例は少なくなっています。 ウェブサービスを作り、成長させるには様々な知識が必要になってきました。

こうした背景の中で、現代のウェブビジネスの知識を網羅的にインプットすることを目指した授業の再構築を行いました。 詳細は省きますが*7、ゆうこすさんによるインフルエンサービジネスの紹介や、Goodpatchさんによるデザインワークショップ、増島先生によるスタートアップの法務を取り巻く環境についての講義など第一線で活躍する方々から講義いただく非常に面白い内容になったと思います。 来年度も担当をさせていただくことになっており、今年度の反省をいかして実装周りの比重をより大きくした構成にすべくいろいろと取り組んでおります。

ウェブサービスにおけるデータ分析と機械学習

もうひとつは早稲田大学での「ウェブサービスにおけるデータ分析と機械学習」です。 こちらは当社の寄付講座として行いました。 この授業ではデータ分析や機械学習を実際のウェブサービスで活用するという観点から演習中心のカリキュラムを設計しました。 具体的には、弊社のログデータをサンプリングし匿名化したものを学生に配布し、 そのデータを集計・分析したり、機械学習の問題を設定し解くということを講義を通して学んでもらいました。

また最後にはより大規模なデータをクラウド環境を通して提供し、グループワークで分析や機械学習によってサービスの改善提案を行ってもらいました。 最終発表には事業の担当者や、社外の分析有識者にも審査員として加わってもらいましたが、 限られた時間の中で非常に面白い提案がでてきて、こちらとしてもとても驚きました。

来年度もこの講義は開設されることになっています。 こちらの講義も今年度の反省を生かしてよりブラッシュアップして提供する予定です。

2019年の振り返り

さて最後に2019年の振り返りをします。

よかったこととその要因

よかったことは、間違いなく国際会議論文を複数通せたことです。 この要因は投稿することに慣れたことにあると思います、 2018年はすべてRejectでしたが本会議に3本投稿していました。 この中でどうやって書いていけばいいのかわかってきましたし、クオリティを上げる方法もわかってきました。 Google翻訳でとりあえず埋めて英文校正を複数回活用するスタイルと、共著者と同期的に推敲を行う方法論を確立できたのは一番大きいなぁと思います。

論文が通ったことをうまく社内外の広報に繋げられたこともよかったことだと思います。 この結果社内外にむけて大きく存在感を示すことができ、新しいチャレンジがどんどんできるようになってきました。 研究の意義を認めてもらうことは非常に大事なところなので、そこについても引き続き続けていきたいです。

一発屋で終わらないように来年も継続的に成果をだせるように頑張っていきます。 論文が通る通らないは運の要素も大きいと思っていて、今年はめちゃめちゃ運が良かったところもあると思います。 なので粛々と、投稿する本数を増やしていくことをまずは目標に、焦らずにすすめていきたいと思います。

反省点

一番の反省は一通りの投稿が終わってから学会参加が終わるまでの7〜10月、CameraReadyや参加準備、実際の参加、レポート、その他細かい業務などに追われて、ほとんど自分の研究を進められなかったことですね。 論文は通ったあとも大変なんだなと思いました。このあたり来年はもっと効率よく進めていきたいです。

あとは主著での業績がないので、来年はこちらを強化したいです。 もちろん共著論文では分担して執筆や実際に実装・実験をしたりと、貢献度は比較的高い部類にはいると思っています。 しかしやはり研究者たるもの主著の業績で評価されるものだと思うので、その点についても貪欲に狙っていきたいと思います。 今年の結果、来年はますます他の研究者とのコラボレーションが増えそうであり、なかなか簡単にはいかないと思いますが、 限られた時間を有効に活用して行きたいと思います。

これからに向けて

最後にこれからのGunosyの研究開発についての考えをかいていきます。

なぜ自分が研究開発をこんなにやっているのかという話ですが、それは企業が継続的に成長するためには研究開発をやるべきだと思っているからです。 これについてはあまり根拠があるわけではなく、直感的なところなのですが、GoogleやFacebookなどの継続的に成長し続けている企業は強い研究開発組織をもっています。 彼らが一つのサービスを当てただけにとどまらず、そのサービスを継続的に成長させ続けているのは、研究開発が源泉にあるのではないかなと考えています。 最近はこのあたりについて、技術的なコストの見積もりに対する不確実性を下げる効果があるのではないかと考えています。*8 その結果他の会社より確信度が高い状態で難易度が高いタスクに取り組めるので、それが継続的な成長を生み出すのではないかなぁとなんとなく考えています。 やっぱりまだ国内では研究開発の位置づけがあまり良い状態ではないと思うので、そうした部分について結果で示していきたいなぁと思っています。

いまのGunosy研究開発チームの課題は明らかに組織が小さすぎて自分個人に依存しすぎているところかなと思っています。 実際に研究開発チーム専任で取り組んでいる社員は自分ひとりなので、これをもう少し拡張していかないとなと考えています。 特にやめるつもりはないのですが、自分がやめても研究や研究コミュニティへの貢献が続く形にしていかないといけないなというのがいま考えていることです。

おわりに

本エントリでは2019年の研究開発の振り返りをさせていただきました。 今年は大きな飛躍の年になったと思いますし、来年にむけていろいろな仕込みもできました。 すべては協力してくださっている共著者の皆さんを始めとし、 研究しやすいデータを作っていただいている開発チームの皆さん、 研究に理解を示していただきいつでも相談にのっていただだけるビジネスサイドの皆さん、 どんどん新しいことをやりたがる自分をしっかりと支えてくれる法務チームの皆様、 数多くの出張手配をいつもスムーズに行っていただいている総務の皆様 研究結果の外部発信をお手伝いいただいている広報チームの皆様、などなど本当に多くの人に支えられております。 なにより研究にこれだけ注力できる体制をいただいている会社に感謝しております。 来年もますますの結果で返せるように引き続き頑張っていきたいと思いますので、よろしくおねがいします。

*1:https://dempagumi.tokyo/news/2019/10/01/2019-12-25_live/

*2:大変遅れてしまったことお詫び申し上げます。

*3:福島良典,大澤幸生,“ソーシャルメディアを利用したセレンディピティな情報推薦,”第26回 人工知能学会全国大会,2012.

*4:https://www.ipa.go.jp/files/000050685.pdf

*5:関喜史,福島良典,吉田宏司,松尾豊,"多様性の導入による推薦システムにおけるユーザ体験向上の試み",自然言語処理, vol.24,no.1,pp.95–115,2017

*6:その他ゲスト講義もいくつか行っています。

*7:どこかで個人的なブログなどにまとめたい

*8:この辺もどっかでちゃんとまとめたい