Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

WebDB Forum 2019 運営&参加レポート

はじめに

みなさんこんにちは、研究開発チームの関です。 2019年9月8, 9日に行われたWebDB Forum 2019に参加してきました。 当社はゴールドスポンサーとして支援したほか、私が去年から産学連携担当委員として運営にも関わりました。 本エントリでは運営としての目線と、スポンサー・参加者としても目線からレポートさせていただきます。

WebDB Forumとは

WebDB Forumは日本データベース学会が中心となって運営しているイベントで、特に産学連携に重きが置かれています。 産学連携に力を入れたイベントは当時は非常に珍しいものでしたが、近年はIT人材需要の高まりを背景に、各種学会が産学連携に力を入れている他、学生と企業の交流の場は格段に増えています。 こうした背景の中でここ数年は本イベントのプレゼンスの低下が学生参加数の減少という形で現れていました。 それを踏まえ今年度は「Webとデータベースのこれからがわかる2日間」というテーマでいくつかの新しい取り組みを行いました。 会期が3日から2日短縮されたこと、台風直撃によってスケジュールが大きく変更になったにも関わらず、参加人数は昨年度ほぼ同数であり、学生の参加数が昨年度1.5倍程度まで増えました。

どのような取り組みを行ったのかを以下に示します。

査読付き論文の復活

WebDB Forumは以前は「当該分野における国内唯一の査読付き会議」として知られていましたが、2015年を最後に運営コストの増大を背景に廃止されていました。 その結果、本イベントにおける研究発表はTOD論文*1の招待と併設されている研究会の発表になっていました。 今回はプログラム委員長の牛尼先生を中心としたプログラム委員会の尽力の元で、査読付き論文が復活することになりました。採択率は57%だったそうです。

私見ですが学会イベントの本質は研究発表にあり、そのイベントの質を決めるのは研究発表のおもしろさだと思います。 研究者にとっては査読の有無は業績になるので、非常に重要なポイントです。 また2~4Pという規定は学生が初めて投稿するのにちょうど良く、学生の発表が増える一因となったと思います。 査読付きにしたことで、面白い研究が多く集まり、イベントの質が大きく高まったものと感じています。

ポスターセッションの新設

今回新設されたポスターセッションは、原稿が不要でタイトルとアブストラクトのみで投稿ができるセッションです。*2 これは私が学生参加数の増加施策としてかなり強く要望して新設してもらったものです。 昨年までの学生参加数の減少の要因として先生方から多く聞かれたのは「インターンで学生が忙しいから」ということでした。 しかし私がインターンがあるから参加しないのではなく、自分の発表がないから参加しないという理由のほうが大きいと考えていました。

そこで学生がより発表しやすいように、タイトルとアブストラクトのみで発表できるポスターセッションの新設、そしてそれを昼間の時間に実施することを提案しました。 昨年までのポスターセッションは懇親会と同時に夜に開催されていました。この形式の場合、ポスター発表がある学生は夜の懇親会だけ参加すればよく、企業ブースがある昼間の参加人数が、学生参加人数よりも少なくなっていたと考えています。 結果として一般発表でポスターを希望した発表も含め107件のポスター発表があり非常に盛り上がりました。

先端研究セッションの新設

今年度は招待講演を先端研究セッションとして、ウェブとデータベースに関係する有名国際会議に採択された論文を著者本人に紹介してもらう形で行いました。 国際会議に採択された研究ということで、魅力的で質が高い発表が多く、本セッションを目的にイベントに参加された方も多かったように思います。

Gunosyからの技術報告・ブース展示・ポスター発表

GunosyはWebDB Forumにゴールドスポンサーとして参加し、ブース展示・ポスター発表・技術報告を行いました。

f:id:Y_sekky:20190908121047j:plain

ブース展示では、シールなどのノベルティの配布のほか、今年度国際会議に採択された3つの論文をまとめたポスターと、論文を印刷して配布していました。 論文自体を配布する試みは初めてだったのですが、多くの方が興味を持って持って帰っていただきました。 「グノシーってアプリは知ってるけど研究こんなにしてるんですね」という声を多くいただきました。 ポスター発表でも同様の内容で掲示を行っていました。

f:id:Y_sekky:20190908163537j:plain

技術報告では、「Gunosyにおけるニュース記事推薦」と題して、推薦システムの変遷と現在の推薦システムの仕組み(WI'19に採択)、そしてそのオンライン実験のためのマルチリービングについて紹介しました(Recsys'19に採択)。 質疑の時間では、ニュース推薦特有の課題について議論がありました。 発表資料はこちらを御覧ください。

ポスター企業賞

今年度から新設されたポスターセッションに関連して、ポスター企業賞も新設され、当社からは2件の発表を表彰しました。

有価証券報告書の分析に基づく重要な新着ニュースの発見 - 米田 宏生 (兵庫県立大学)

f:id:Y_sekky:20190909184127j:plain

こちらの研究は有価証券報告書を用いて経済ニュースにおける重要単語と思われる表現を抽出し、その表現を用いて重要な経済ニュースを発見しようという試みでした。 有価証券報告書からニュースの発見に役立つ表現を得るために泥臭い手法をたくさん試していました。 近年深層学習の影響で、End-to−Endなモデルが隆盛となっていますが、実務ではこのような目的に合わせた泥臭い手法が有効に働くケースが多くあります。 米田さんの研究は、重要なニュースの発見という目的に対して様々なアイデアをひとつひとつ実装し、検証していた点が素晴らしいと思いました。 より各アイデアがどのような意味を持ち、どのように効いているのかが明らかになってくると良いと思います。

Twitterの反応を用いたニュース全体像の理解支援のための可視化手法 - 池田 将 (九州大学)

f:id:Y_sekky:20190909184532j:plain

こちらの研究はニュースのTwitterでの反応を用いて、よりニュースの理解を深めることを目的とした研究です。 Twitterの引用ツイート、リプライから、そのニュースを表すと考えられる表現を獲得しています。 Twitterの分析やニュースの分析には様々な手法がありますが、「ニュースの理解」というところに絞って適切な手法を提案していた点が良かったと思いました。 実際にニュース記事内には出てこないものの、ユーザの反応からそのニュースを表す特徴語を獲得できていた点が興味深かったです。

気になった発表

ここで研究発表の中で興味を引いた発表をいくつか紹介します。

モバイルヘルスアプリデータを用いた実世界人間行動のモデリング

  • 講演者: 倉島 健(NTT)
  • 紹介者: 桾澤 優希
  • 概要
    • 個人の日常行動を行動分析しモデル化することで健康改善等のヘルスアプリに適用を試みた論文。
    • 人間の行動の種類を短期的な行動連鎖(例:食事の後に飲み物を飲む)、長期的な行動連鎖 (例:出勤時にチャリを漕いだら退勤時にもチャリを漕ぐ)、時間による影響(例:毎朝7時に起きる)の3つに分けてポアソン過程によって人間行動をモデリングする。
  • 所感:
    • 行動を分解してモデリングすることでモデルを理解することが用意でどのアクションがどのようなタイミングで起きやすいのかがわかりやすくなっている
    • ヘルスアプリにのみならず、弊社であれば行動に合わせて適切な時間にニュースを届けるといったアプローチにも活用できそうだと思った

広告効果を報酬とした強化学習に基づく広告文の自動生成

  • 著者:上垣外 英剛, 張 培楠, 高村 大也, 奥村 学
  • 紹介者: 関 喜史
  • 概要
    • 配信ページの本文、配信キーワード、検索クエリを入力として、検索連動型広告のタイトルと説明文を出力するタスク
    • Seq2Seqを使う、各featureは特殊なトークンで分割することで一つのRNNで表現できる
    • 報酬は広告効果の推定値、言語モデルスコア、SentenceBLEUを使う
    • サイバーエージェントと東工大奥村研の共同研究
  • 所感
    • 問題設定がよく練られていると思った、一つのSeq2Seqでこうした解き方をするのは事例があるのだろうか
    • Copy機構を使っているけど、系列が長くなりそうなので情報損失は気になるところ

企業人が運営として学会イベントに関わるということ

今年のWebDB Forumは運営として関わって2年目となりました。 自分自身の事務仕事のできなさによって他の委員の皆様やスポンサー企業担当者の皆様にはご迷惑をおかけしました。 昨年度運営に関わって感じた問題点について、改善するため方法を去年の振り返りの段階から提案し、それが実現できたこと、数値として成果を残せたことは非常に良かったと感じています。 もちろん実現できたことは実行委員長の鈴木先生を始めとした運営委員の皆様のおかげです。本当にありがとうございました。

学会イベントの運営というのは、多くの場合研究者のボランティアによって運営されています。*3 最近、IT系においては学会が採用・広報の場として注目されるようになってきており、多くの企業がスポンサーとして参画してきています。 支援する企業が増えるのは良いことである一方で、元々学会の文化や運営形態に慣れていない方がスポンサーとして参画していることも多く、そのあたりの期待値のズレを感じているケースも多いようです。 また学生を取り巻く環境は近年大きく変化してきており、運営を行っている研究者の方々がその変化についていけていない側面もあります。

こうした状況の中で、我々のような新しい企業のメンバーが運営に入り、そうしたギャップを埋めていくことでよりよい学会イベントの形を探っていけるのではないかと感じています。 実際に今回のWebDB Forumでは研究者の方々が、「インターンの影響」としていた参加者減少を、発表機会の増加によって改善することができました。 これは実際のインターンの環境や、学生の意向に直接触れているような立場だからこそ提案できたことだと思っています。 営利企業が実施している就活イベントではなく、コミュニティとして運営しているイベントなので、その中でコミュニティに参加しより良い形に汗を欠きながら変えていくことが必要だと思っています。

委員として関わることは、決して簡単ではありませんが、結果として会社に良い影響をもたらすと考えています。 今回クロージングの閉会の挨拶において、副実行委員長の灘本先生から直接名前をあげていただきました。 もちろん他の産学連携委員のメンバーの力があってのことですが、非常に嬉しかったです。 学会というコミュニティの力というのは思っているより大きく、コミュニティの研究者の方々とより密な関係を築くことができますし、それによって様々な機会に恵まれるようになります。 このエントリを読まれてWebDB Forumの産学連携委員に興味が出た方はぜひご連絡ください。*4

まとめ

運営として自画自賛しますが、今年のWebDB Forumは運営、発表内容含め非常に良いイベントだったと思います。 台風の直撃という緊急の自体にも適切に対応していた運営委員の皆様には頭が上がりません。*5 運営として関わっていて非常にいいチームだったと思います。お疲れさまでした。 今後ともGunosyはデータベースコミュニティに微力ながら支援を続けていければと思っています。

加えて発表やブースに足を運んでいただいた皆様、ポスター発表で議論させていただいた皆様にお礼申し上げます。非常に有意義な時間を過ごすことができました。 引き続きよろしくおねがいたします。

*1:情報処理学会論文誌 データベースに掲載された論文

*2:YANSの形式を参考にした。

*3:最近規模の大きい学会では、細かい事務作業などを外注するところも増えているようです。

*4:2020年度は東京オリンピック、VLDB2020の東京開催などの影響で開催されるかはわかりませんが。

*5:産学連携はスポンサー募集と特典の提供でほぼ終わっており、特に対応することがなかったのでここについてはノーバリューでした。