Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

NLP若手の会 (YANS 2018) で発表 & スポンサーしました

こんにちは。データ分析部アルバイトの北田 (shunk031) です。最近よく聞く曲は「高速に回転するGPUファン」の曲です。

8月27日から8月29日の期間で開催されたNLP若手の会 (YANS) @ 香川県高松市に、Gunosyから関、久保、北田の3名で参加してきました。

YANS2018

NLP若手の会 (YANS) シンポジウムは自然言語処理関連の若手研究者・若手技術者のアクティビティを高めることを目的としたコミュニティで、2006年から毎年この夏の時期に開催されています。今年は香川県高松市の喜代美山荘 花樹海が開催場所でした。

f:id:shunk031:20180904130702j:plain

yans.anlp.jp

今回スポンサーのポスター発表と、インターン中に行った研究をまとめたポスターの発表を行いました。 また久保は運営委員としてYANS運営業務を行いました。

スポンサー・ポスター発表

Gunosyにおける自然言語処理・機械学習への取り組み

関 喜史, 久保 光証 (株式会社Gunosy)

YANSではスポンサーがポスター展示を行うことができます。 今回は当社から関係の発表が一般枠で2件あったことから、当社の推薦システムの仕組み、 及び研究開発の全体像を知っていただくことを目的としたポスターを作成しました。 当社の取り組みについて知っていただける良い機会になったと思います。

ポスター発表

私はGunosyと共同で行っていた研究について、以下のポスター発表を行いました。

広告クリエイティブ自動生成に向けた単語レベルでの評価手法の検討

北田俊輔 (法政大), 関喜史 (株式会社 Gunosy), 彌冨仁 (法政大)

f:id:shunk031:20180904111315j:plain

Gunosyでは広告クリエイティブの自動生成を目標に研究開発を行っております。今回の発表はこうして生成したクリエイティブ、および既存のクリエイティブを配信する際に事前にクリエイティブを評価したいというモチベーションのもと進めた研究になります。

そこで今回はグノシーの広告データを用いて、コンバージョン されているされていない クリエイティブの2値分類を行うことでクリエイティブの品質推定を行おうというのがモチベーションです。

f:id:shunk031:20180904194729p:plain

また、品質推定を行う際のモデル (ロジスティック回帰やattention機構付きLSTM / GRU)などに対して可視化を行うことにより、コンバージョンに寄与する単語の抽出を行いました。

詳しくは発表したポスターを見ていただきたいのですが、精度よくクリエイティブの品質推定を行いつつ、コンバージョンに寄与する単語を機械的に抽出することに成功しました。

ポスター発表時にはたくさんの方々とディスカッションを行うことができ、特に企業の方々から注目していただきました。広告クリエイティブの運用は人手で行われており、短期間に膨大な量を扱うための運用改善サイクルを回すのが難しいことが知られています。こうした問題に対して我々が提案したシステムで広告入稿の手助けができるのではないかという意見をいただきました。

ポスター紹介

ここからは私自身、個人的に気になったポスター発表を紹介させていただきたいと思います。

yans.anlp.jp

クリックベイトの基礎研究における既存データセットの検証

長尾拓弥 (豊橋技科大), 関喜史 (株式会社Gunosy), 吉田光男, 梅村恭司 (豊橋技科大)

  • [スライド], [ポスター]
  • 概要
    • クリックベイトを検出するタスクに対して用いられるデータセットに疑問を持って検証した研究
      • こちらの研究についてもGunosyとの共同研究になります
    • 従来評価に用いられていたデータセットを詳細に分析した結果、データセットの構成に偏りが生じていたり、アノテーションに疑問が残る点が数多く発見された
  • 所感
    • 広く評価に使われているデータセット自体に疑問を持って分析を行っており、結果的にクリックベイト評価に不適切であることが簡潔に示されていました。クリックベイト評価はタスク自体、個人の感覚が違うので定量的に評価するのは難しいと感じた次第です。

テキスト平易化における難易度の制御

西原大貴, 梶原智之, 荒瀬由紀 (阪大)

  • [スライド], [ポスター]
  • 概要
    • 既存研究ではWikipediaを簡単化したSimple Wikipediaをもとに、難易度を考慮せずに平易化のための学習を行っていた
    • テキストと難易度を入力とした2入力のMNTを用いてテキスト平易化を行う際に文の難易度を制御する試みである
    • BLUEおよび難易度の正解も考慮したSARIで既存研究のスコアを更新し、難易度を考慮した平易化を可能とした
  • 所感
    • テキストとその難易度を示すデータを用意することで、さまざまなタスクに応用できそうだと感じました。具体的には比較的読者に難しい記事に対して難易度を指定してこのモデルを適用することにより、読者にあった言い回しの記事を生成できるのではないでしょうか。

五感に基づく言語表現における個人のバイアスとその補正

大葉大輔 (東大), 吉永直樹 (東大/生産研), 赤崎智 (東大), 豊田正史 (東大/生産研)

  • [スライド], [ポスター]
  • 概要
    • 大局的な文書群で単語表現を学習し、その後これらの単語表現を初期値として、個人レベルの文書群から再度単語表現を学習することで、各個人が示す語のブレを適切に捉える
    • Ratebeer.com のデータセットに対して提案手法を適用すると、個人が用いる単語にバイアスが存在することが示された
  • 所感
    • 特に特徴的な語に対して複数の意味が含まれるようなデータにおいて、fine-grainedな特徴を捉えることができそうです。初期値として大域的な単語分散表現を学習しておいて、対象ごと(個人ごと)に単語分散表現を学習させてパーソナライズに使えそうだと感じました。

画像から抽出した複数種の特徴量を組み込んだニューラル機械翻訳の検討

平澤寅庄, 松村雪桜, 山岸駿秀, 小町守 (首都大)

  • [スライド], [ポスター]
  • 概要
    • 画像とテキストを用いたマルチモーダルな翻訳を実現する試み
    • 従来のseq2seqモデルに加えて、ResNet (local / global feature) + NASNet (classification) + SSD (object detection) をAttentionを用いて特徴選択をしている
    • 画像系モデルをfreezeした状態では性能はtext onlyに劣るが、fine-tuningする場合は精度向上するとのこと
  • 所感
    • 最新のモデルから得た特徴をattentionによって擬似的に選択し、後段に渡していくモデルは個人的に興味を持ちました。画像特徴を与えることでより細かい物体を認識して翻訳することが可能になっているのが良かったです。

スタイル変換のためのリファレンスなし
教師あり学習

三浦びわ, 梶原智之, 荒瀬由紀 (阪大)

  • [スライド], [ポスター]
  • 概要
    • 文中のスタイルを学習する際に複数のevaluatorを用いて学習を行う枠組みを提案
    • evaluatorは以下の3つを想定し、seq2seqモデルの目的関数に組み込んで学習を行う
      • 目的のスタイル文を生成したか評価する formality evaluator
      • 流暢な分を生成したか評価する fluency evaluator
      • 入力文と同じ意味の文を生成したか評価する adequacy evaluator
  • 所感
    • 1つの評価軸ではなく複数のevaluatorを用いた評価軸でさまざまな特徴を考慮した学習の枠組みはさまざまなタスクに応用できそうな雰囲気でした。今後に期待の研究だと思います。

番外編

うどん & デザート紹介

香川県といえばもちろん うどん ですね。番外編ではYANS期間で食べたうどん&デザートを紹介します!

中西うどん

https://tabelog.com/kagawa/A3701/A370101/37000040/ f:id:shunk031:20180904131623j:plain

  • 茹で前の麺が出てきて、セルフで麺を茹でて最後にダシをかけるタイプのお店。香川で最初のうどんだったのでテンションが上ってしまい、完成図を取るのを忘れてしまいました。とても美味しかったです。

手打ち十段うどんバカ一代

https://tabelog.com/kagawa/A3701/A370101/37000242/ f:id:shunk031:20180904130756j:plain

  • 釜バターうどんです。もはやうどんを超越した美味しさで、学会中様々な人におすすめしました。とても美味しかったです。

手打ちうどん麦蔵

https://tabelog.com/kagawa/A3701/A370101/37000874 f:id:shunk031:20180904130833j:plain

  • かしわ天ざるです。サクサクのかしわ天ともちもちのうどんです。とても美味しかったです。

さぬき麺業 高松空港店

https://tabelog.com/kagawa/A3701/A370101/37000064/ f:id:shunk031:20180904130902j:plain

  • おろしかしわうどんです。こちらもかしわ天がサクサクでとても美味しかったです。

ジェリテリア いちご畑

https://tabelog.com/kagawa/A3701/A370101/37003434/ f:id:shunk031:20180904131232j:plain

  • デザートのジェラートです。とても美味しかったです。

おわりに

YANSは様々なバックグラウンドの方でも参加しやすく、若手の言語処理研究者が集まって活発に議論する雰囲気がとても好きです。 こうした雰囲気づくりや学会期間中に行われる交流企画は、YANS企画運営の方々のおかげです。ありがとうございました。 特に自然言語処理の研究を始めたばかりの大学生や大学院生はぜひ来年のYANSに参加して、雰囲気を感じてほしいです。

またGunosyではこのようにアルバイトの研究発表も奨励しています。 研究開発を企業でどのように行っているのか知りたい方、企業独自の課題・データを使って研究をしてみたい方はぜひお声掛けください!