Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

人工知能学会(JSAI2019) in 新潟 に参加し、研究発表してきました!

はじめに

Gunosyとして、JSAI2019に参加してきたので、発表の概要とイベントについて、紹介いたします。

JSAI2019について

2019年6月4日(火) ~ 6月7日(金)の4日間、新潟にて開催された2019年度人工知能学会全国大会(第33回)に参加してきました。Gunosyからは、関、飯塚、桾澤、川口の4名で参加しました。当社はゴールドスポンサーとして協賛させていただき、インダストリアルセッション1件、主著発表2件、共著発表1件、スポンサー展示をいたしました。

今年度は朱鷺メッセというすごく規模が大きい会場で、新潟駅からバスで10分ほどの位置にありました。今回の人工知能学会の参加人数は2,500人を超えており、 このくらいの会場規模ではないとこの学会は開催できないのだなと規模の大きさを改めて実感した次第です。

https://niigata-kankou.or.jp/image/rendering/attraction_image/2963/trim.900/3/2?v=e5a8c900075255a9646c1d7e90ceadaf77a7ba8b

発表について

今回、3件の発表がありましたので、内容について紹介させていただきます。

[インダストリアルセッション] Gunosyにおける研究開発

スポンサーをしている賛助会員企業への特典としてインダストリアルセッションでの発表枠があり、そこで発表をしてきました。 内容としては当社の研究開発に関する発表で、なぜ当社が研究開発に取り組んでいるのか、どのようなトピックに取り組んでいるのかといった内容について発表させていただきました。

当社はニュースアプリを提供する会社としてのイメージが強いため、研究開発に力を入れているということをアピールしたいという目的で、このような発表をしました。 インダストリアルセッションは企業の発表セッションで、実例の報告が多くなりそうだなと思ったので差別化を図るという目的もあります。

「Gunosyってこんなに研究やってるんだ」という反応をいくつもいただき、目的が達成されてよかったです。 直近では業績もあがってきておりますので、引き続き取り組んでいきつつ、発信にも力をいれていきたいと思います。

[1I2-J-5-05] 政治ニュース記事クラスタに対する属性ごとのユーザ行動の分析

JSAI2019/Analysis of user activity of politics news cluster by user attributes

現代のニュースメディアを取り巻く環境は大きく変化しています。 テレビや新聞と比較して、ウェブではユーザが得る情報を取捨選択する裁量が大きく、ユーザごとに得る情報が違うという状況が普通になりました。 こうした急速な変化の中で「エコーチェンバー」、「フィルターバブル」と呼ばれるような問題が指摘されていますが、 このような問題が実際にどのような形で表れているのかはまだ不透明な状況です。 そこで我々は弊社が提供しているニュースサービス群のユーザ行動データを分析し、このような問題を定量的に理解することをめざしています。

過去これらの成果は、JSAI2018, IEEE Bigdata Workshop ABCSS 2018で発表してきました。

第32回人工知能学会全国大会(jsai2018)に参加し、研究発表を行いました - Gunosyデータ分析ブログ

Web IntelligenceとIEEE Bigdataで発表してきました - Gunosyデータ分析ブログ

今回JSAI2019ではIEEE Bigdataで発表した結果のアップデートを報告しました。 以前は偏りのあるトピックを発見することを目的として、偏りのあるキーワード抽出することを提案していました。 しかしキーワードはかなり限定的なトピックしか抽出できず、話題の全体感を掴むことも難しかったです。 そこでクラスタリングを用いて、全体の中でのトピックとそのトピックごとの属性ごとの偏りを可視化することを試みました。 キーワードを用いたときと比較して、話題の全体的感を掴むことができ、また人手での調整が少なくなったため、より客観的な分析が可能になりました。

今後はユーザ属性についても興味関心ベースを自動的に分類すること、時系列な分析を行うこと、 そしてその分析結果から政治学・社会学の知見をもとに、より強い示唆をえることを目指していきます。

f:id:Y_sekky:20190617184532j:plain
政治ニュース記事クラスタに対する属性ごとのユーザ行動の分析

ニュースアプリケーションのパーソナライゼーションアルゴリズムに対するマルチリービング手法の比較

パーソナライゼーションは様々なウェブサービスで重要な役割を担っています。弊社においても複数のニュース形式のアプリケーションでパーソナライゼーションを行っております。 パーソナライゼーションアルゴリズムが生成するランキングの良し悪しは、A/Bテストによって計測されることが多いかと思います。しかし、A/Bテストは効果測定に必要なユーザー数がどうしても多くなってしまうという欠点がありました。

近年そのような状況の中で、インターリビング/マルチリービングを使用することで少ないユーザー数でランキングの効果測定が行えることが明らかになってきました。 本研究では、ニュースアプリケーション特有の性質を持つランキングに対して、複数のマルチリービング手法を比較する実験を行いました。 既存のマルチリービングでは計算負荷の関係でオンライン実験が行えないため、定式化を変形することで対応しました。 今回の実験では、クリック数のみをメトリクスとして効果測定を行いましたが、マルチリービングの結果がNDCGやAUCなどといったランキングメトリクスとどの程度整合性がとれているか調査するのが今後の課題として挙げられます。

質疑応答では、マルチリービングの短所について議論しました。 一般にマルチリービングによる効果測定は、ユーザーをバケットごとに分けるという操作をしないため、ランキングが間接的に影響するメトリクス(例えばユーザー継続率や広告売上)を測定するのはA/Bテストに比べて困難であると言えます。 それを踏まえた上で、A/Bテストの前段階でマルチリービングを挟むことで、パラメーターチューニングの探索の枝刈りをすることが、現状効果的なマルチリービングの使用法ではないかという話をさせていただきました。

f:id:zer4:20190605145727j:plain data.gunosy.io

スポンサーブース

今回Gunosyはゴールドスポンサーとして参加し、スポンサーブースでは弊社におけるデータ分析部の業務についてと、研究開発への取り組みについてを展示しました。

f:id:gumigumi4f:20190610181634j:plain

特に研究開発への取り組みではKDD2019に論文がAcceptされたこともあり、より一層興味を持ってもらえた印象を受けました。

計4日間の間に様々な方がブースを見ていってくれたのですが、ポスターには描ききれない内容を説明する機会が多かったため、次回は研究についてより詳しく記した冊子を用意することで、様々な方々に私たちの取り組みが伝わるようにしていきたいと思います。

f:id:gumigumi4f:20190610181626j:plain

論文紹介

今回の人工知能学会には興味深い論文が多くありましたので、弊社参加者が気になった論文をいくつか紹介します。

ECサイトにおける商品タイトルからの商品名抽出

  • 著者: 張 培楠 (株式会社サイバーエージェント)
  • PDF
  • 紹介者: 川口
  • 概要
    • ECサイトのプラットフォーム化に伴う検索エンジン最適化(SEO)対策のために、商品タイトルへの情報付加が多く行われている。この商品名の情報付加されているタイトルから商品名を抽出する。名詞、名詞句が多く通常の文のような文法性がなく、商品名、型番なでの未知語が多く頻出する上、出品者特有のスペースや漢字かななどの使用頻度に依存しており、統一性がない文字列に対して商品名抽出を行なっており、難易度の高いタスクに取り組んでいる。このタスクに対して、単語・文字をBidrectional LSTM(BiLSTM)を用いて得られた内部表現に対してCRFでラベルを予測する手法を用いるこよで商品タイトルを推測するアルゴリズムを提案し、TF-IDFやCRFより高い精度で推測できることを実証している。
  • 所感
    • 統一性のない文字列に対しての商品タイトルの推測に対しての取り組みの論文は珍しく、かつ、実用性のあるタスクに取り組んでおり、非常に興味深く拝見しました。純粋に貴重語を取り出すだけだと型番などの情報をピックアップしてしまうところを、非常にうまく調整している手法であると感じました。

単語埋め込みにおける複数視点の対義語判定

  • 著者: 中村 拓、田 然、佐々木 翔大、乾 健太郎 (東北大学、産業技術総合研究所、理化学研究所AIPセンター)
  • PDF
  • 紹介者: 川口
  • 概要
    • 単語の意味をベクトル空間に埋め込む単語埋め込みは自然言語処理の幅開いタスクに応用されている。通常の単語埋め込みでは、似た文脈で出現する単語同士がベクトル空間内において近い位置に埋め込まれてしまい、対義語のような異なる極性を持つ単語においても、ベクトル空間内にて近い位置に埋め込まれてしまい、対義関係を区別できない可能性がある問題がある。この問題に対して、単語埋め込みのベクトルを変えずに、極性を識別する識別面を学習する手法を提案している。ポジティブ/ネガティブの単一の分離軸ではなく、対義語・同義語ペアに極性ラベルを設定する。ラベル付きの訓練データが少ない場合においても分類精度を向上させる手法であるTransductive SVMを応用して、対義識別面をもとめることにより、対義語の推定を行なった。
  • 所感
    • ベクトル空間にさらに極性ラベルをつける手法においての一つのアプローチとして興味深く拝見しました。今回のデータセットではある程度整形されたデータを用いてますが、様々単語のデータセットにおいての応用も考えられており、今後の進捗も拝見させていただきたいと思いました。

多様なデータの統合に基づくマルチドメインナレッジベース構築システム

  • 著者: 山崎 朋哉、真壁 拓也、西 賢太郎、西本 智浩、岩澤 宏希 (ヤフー株式会社)
  • PDF
  • 紹介者: 飯塚
  • 概要
    • ナレッジベースを実サービスで活用する際の課題を明らかにし、その課題を解決する手法を提案している論文。 既存研究との差分としては、「Web文書のような半構造化データからも情報抽出を行う機構をシステムに組み込んでいる点」「ナレッジベース内の誤った情報の修正や削除のために、人手で修正した情報を取り込む機構もシステムに組み込んでいる点」が挙げられる。 論文中では、日々規模が拡大しているナレッジベースの数値や誤った情報の削除を行った際の数値の遍歴が時系列で報告されている。
  • 所感:
    • 多くの企業でデータ統合のプロジェクトが進行している中で、日本でおそらく最も大規模なナレッジベースシステムの活用と運用について述べられており参考になる論文だと感じます(飯塚が前職でお世話になっていたチームの論文でした)

グラフ上の問題に対する難しいインスタンスの自動生成

  • 著者: 佐藤 竜馬、山田 誠、鹿島 久 (京都大学、理化学研究所 革新知能統合研究センター、JST さきがけ)
  • PDF
  • 紹介者: 飯塚
  • 概要
    • グラフ問題の難しいインスタンスを生成する問題を最適化問題として定式化し、最適化問題を解くことで難しいインスタンスを生成する手法を提案した論文。三彩色問題や最大クリーク問題など理論上・応用上重要なグラフ問題を用いた実験では、提案手法が一貫してランダムベースの手法よりも数倍から数桁難しいインスタンスを生成できた。特に、提案手法は三彩色問題において専門家の考案した規則ベースの生成方法より優れた性能を示した。
  • 所感:
    • 強化学習を非凸な目的関数の探索手段として用いていた部分が興味深かった。少し話がそれるかもしれまんせんが、本論文で言及されている計算困難な問題はSATに帰着されるはずで、そのSAT自体で難しいインスタンスを自動生成する研究はあるのかなと気になりました。

深層強化学習を用いたWeb サイト内行動のレコメンド

  • 著者: 蓑田 和麻、阿内 宏武、川頭 信之、石川 信行 (株式会社リクルートテクノロジーズ、私的著者)
  • PDF
  • 紹介者: 桾澤
  • 概要
    • Webサイトにおいて直接的なCVの予測に基づくレコメンドやアイテムのソートではなく、検索行動等を含めたユーザーの行動ログを元にユーザーの検索条件のレコメンドを行った論文。問題を解決するための強化学習アルゴリズムとしてDDPGを用いて複数アクションのレコメンドに対応している。実験によって既存の手法よりもCVRを高められることを確認した。
  • 所感:
    • 一連のユーザー行動をエピソードと考え強化学習を適用することが実際に有効であることを確認できたのは面白かった。従来では予測にあまり使えなかったところのログを活用できるため、同手法の適用はより良いユーザー体験につながる可能性があると感じた。

Domain Adaptation Neural Networkを用いた広告クリック予測

  • 著者: 谷口 和輝、安井 翔太 (株式会社サイバーエージェント)
  • PDF
  • 紹介者: 桾澤
  • 概要
    • オンライン広告における訓練データ上のBiasをDomain Adaptation Neural Networkを使って解決を試みる論文。従来では入札によって表示された広告のみが訓練データとして用いられるが、入札で負けた広告も勝った負けたを予測するような形で取り入れることでBiasの影響を少なくすることができる。実験の結果オフラインの評価にてベースラインのモデルよりもより良いLogLossを記録した。
  • 所感:
    • 広告にはこれらのBiasを含めてPositionBiasなど様々なBiasが含まれており、それらのうちの一つの影響が減ることは非常に嬉しいことである。一方でリクエストに対して素早いレスポンスが求められる広告分野においては規模の大きいネットワークを用いた実験が難しいため実用には工夫がいると感じた。また、CTRではなくCVR予測になった場合のドメインの分割方法も検討が必要そうである。

多様なソーシャルネットワーク構造を用いたcyber-predator予測分析

  • 著者: 西口 真央、鳥海 不二夫 (東京大学)
  • PDF
  • 概要
    • cyber-predator=> インターネット犯罪者を発見しようという研究
    • SNS「ひま部」のデータを用いて、アカウントが停止されたユーザの予測をネットワークを用いて行うことを試みる
    • フォロー、フォロー保留、足跡、ブロックなど、ユーザの様々な行動によってネットワークを構築
    • ネットワークの分散表現であるLINE[Tang15]とRandom Forestを用いてCyber-Predatorの予測を行い、比較した。
    • 足跡によるネットワークが最も精度良く予測でき、通報が低かった
  • 所感
    • データセットと、タスク設定が興味深い
    • 足跡のような一見関係がなさそうなデータが高く、通報という直感的には寄与しそうなデータで低いのが意外だった
    • 分散表現なのでデータ数の多さが寄与していることは想像できるが、足跡のようなノイズが大きそうなデータから通報対象者が予測できるのは驚き

インターネットテレビのニュース番組におけるコメント内容の分析

  • 著者: 西 朋里、小川 祐樹、服部 宏充、高 史明、高野 雅典、森下 壮一郎 (立命館大学、神奈川大学、株式会社サイバーエージェント)
  • PDF
  • 概要
    • AbemaTVのコメントを、ハードニュース、ソフトニュースの観点から比較
    • 単語ベクトルをもとにコメントがハードニュースについたものか、ソフトニュースについたものかを分類するロジスティック回帰モデルを学習
    • 回帰係数のオッズ比元に、ハードニュースに関連がある単語か、ソフトニュース関連がある単語化を分類した
    • ハードニュースは出演者に関する内容のコメントが多く、ソフトニュースには批判的や過激な発言が多い
  • 所感:
    • ハードニュース、ソフトニュースという切り口は新鮮に感じた。
    • 社会心理学の方が共著に入っているからか、ソフトニュース・ハードニュースに関するリファレンスが充実しており、勉強になることが多かった。
    • ハードニュースにニュースの内容に関するものではなく出演者に関するものが多いのは意外だった。

まとめ

昨今、一般的にも人工知能やAIという言葉が馴染み、応用分野に多く注目されていると思いますが、基礎から応用までの幅広い分野にわたる論文や公演があり、弊社としても興味深く聴講いたしました。 今後とも、弊社としては、この学会に積極的に参加し、学会を盛り上げていきたい所存ですので、皆さまご参加の際には、ご気軽に訪問、聴講いただければ幸いです。

f:id:makuramoto1:20190618143756j:plain

大いに蛇足

筆者は、初めて新潟に訪れたのですが、飯が安くてうまくて驚きましたね。東京だと4000円くらいかなーって飯が3000円くらいだったりして、満足度が非常に高い食事ばかりでした。

個人的な蕎麦好きも相まって、へぎ蕎麦を多く食べました。コシが強めの蕎麦でするする食べれちゃいます。が、意外と量が多めにでてくるので注意してください。

f:id:makuramoto1:20190610110212j:plain

また、定番のたれかつ丼を初めて実食しました。たれに浸しているヒレカツを丼に載せてある丼ぶりなのですが、衣が湿ってしまっているのだろうと思いきや、意外と衣がサクサクしていて、たれもしつこくないので、さっぱり食べられておいしいかったです! f:id:makuramoto1:20190610110410j:plain