Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

言語処理学会第25回年次大会(NLP2019)に一般発表とスポンサーで参加しました

こんにちは、研究開発チームの関です。 でんぱ組.incの推しである相沢梨紗さんと、妄キャリの推しだった桜野羽咲さんのコラボユニットが本格的に活動を開始しました。 生きてるといいことありますね。ステージ上の目のやり場に困っています。

今回3/12 ~ 3/15に名古屋大学で開催された言語処理学会第25回年次大会に一般発表とスポンサーとして参加しました。 言語処理学会年次大会へのスポンサーは今年で4年目になりますが、一般発表は初めてになります。 (昨年は論文賞をいただき、招待講演をさせていただいておりました。)

data.gunosy.io

一般発表

一般発表では、Gunosyで研究開発チームでインターンをしている北田 (shunk031) が「広告クリエイティブ自動生成にむけたマルチタスク学習とConditional AttentionによるCVR予測」という題目で発表を行いました。予稿はこちらで公開されています。

f:id:Y_sekky:20190403182148j:plain

Gunosyでは配信効果の高い広告クリエイティブの自動生成を目標に研究開発を行っております。 YANS2018でポスター発表した「広告クリエイティブ自動生成に向けた単語レベルでの評価手法の検討」に引き続き、クリエイティブの評価にフォーカスした研究内容となっています。

data.gunosy.io

広告クリエイティブはテキストとバナー画像の構成ですが、バナー画像は入れ替えることが難しく、固定の場合が多いです。こうした反面、テキストは容易に入れ替え可能である点から、クリエイティブテキストに焦点を当てた取り組みです。

f:id:Y_sekky:20190403175714p:plain

デジタル広告において、一般的に商品の購入等の行動である「コンバージョン」は不均衡なデータであり、大部分が0を占めます。こうした不均衡なデータに対して正確な予測を行うことは非常に難しいです。

自然言語処理のタスクに対してattention*1*2*3をベースとした深層学習モデルを適用することは今では当たり前となっています。クリエイティブ評価に際して、こうしたattentionによる予測時の重要単語の可視化を行うことで、モデルの解釈性向上が期待できます。 またクリエイティブに設定されているクリエイティブのジャンルや配信対象といった属性値を活用したfine-grainedなクリエイティブテキストの作成支援も可能であると考えています。

本研究ではこうした困難や可能性に対して、

  • 不均衡データであるコンバージョンと同時にクリックを予測するマルチタスク学習の導入
  • Conditional attentionによるクリエイティブ属性値に応じたattentionの設定

を新たに提案し、モデルの構築と定性的な評価を行いました。

f:id:Y_sekky:20190403175751p:plain

口頭発表時には会場が満席となり、広告 x 機械学習の分野の注目度の高さを認識しました。 質疑応答の時間では不均衡データに対するハンドリングの仕方や、クリエイティブ評価およびその解釈性を中心に議論させていただきました。 今回はクリエイティブのテキストにフォーカスしたクリエイティブ評価を行いましたが、バナー画像を合わせて用いたクリエイティブモデルの構築や、これらを用いた広告の自動生成を中心とした研究を進めています

スポンサーブース展示

今回、Gunosyはゴールドスポンサーとして参加し、スポンサーブースでは、Gunosyにおける自然言語処理や機械学習を活用した取り組みについて、ポスター展示を行いました。

f:id:Y_sekky:20190403182041j:plain

現在、Gunosyの各種メディアで用いられているオンデマンドな推薦システムの仕組みについて解説した他、 各種学会で発表している研究内容について大まかに説明させていただき、興味を持った参加者の方と様々な議論をさせていただきました。

  • パーソナライズされたニュース推薦におけるマルチリービングの適用 (JSAI2019で発表予定)
  • エコーチェンバー、フィルターバブルに関する分析 (WI, IEEE BigDataで発表, JSAI2019で発表予定)
  • 広告クリエイティブの評価予測 (NLP2019で発表)
  • クリックベイトの分析 (DEIM2019で発表)

最近はかなり発表事例も増えてきており、多くの事例が紹介できるようになってきました。 引き続きがんばっていきます。

招待講演紹介

今回の年次大会でもおもしろい招待講演がいくつもありました。

その中の一つ藤村先生の「探究と協同を通じた子どもたちの「深い学び」」は普段あまり自分が関わることの少ない、教育学・心理学の視点から学ぶということに関して「できる学力」と「わかる学力」の違いを例にわかりやすく説明された講演でした。

日本の児童・生徒は解決方法が一つに定まる定形問題に対して、特定の手続き的知識・スキルを適用して解決する「できる学力」の能力は世界的に見て高い傾向にあるが、一方さまざまな解答方法や解釈が可能な非定型問題を解決、探求する「わかる学力」に関しては世界的に見て低い傾向にあることが示されていました。

「わかる学力」とはこれまで日常生活や学習を通じて獲得してきた知識と新しい知識を結びつけたり、すでにある知識同士の新たな結びつけを行うことがその形成に非常に重要であるとのことでした。 たしかに自分のことを思い出してみても単に天下り的に覚えた知識はあまり応用が効かず、手を動かして導出したり自分の体験とリンクしていたものは忘れにくく、また他の機会に応用が効いたような気がします。講演中では具体的な教育現場での例もあげられていて、「わかる学力」をどう培っていくかの具体例もありとても興味深いものでした。講演内容含む詳しい内容についても藤村先生の下記の本によくまとめられておりおすすめです。

協同的探究学習で育む「わかる学力」:豊かな学びと育ちを支えるために

協同的探究学習で育む「わかる学力」:豊かな学びと育ちを支えるために

  • 作者: 藤村宣之,橘春菜,名古屋大学教育学部附属中・高等学校
  • 出版社/メーカー: ミネルヴァ書房
  • 発売日: 2018/03/10
  • メディア: 単行本
  • この商品を含むブログを見る

論文紹介

BERTによる日本語構文解析の精度向上

  • 著者: 柴田知秀, 河原大輔, 黒橋禎夫 (京大)
  • 紹介者: 小澤
  • 概要
    • BERTを利用し、日本語構文解析の精度向上を試みた論文。日本語Wikipedia全文を使ってpre-trainingし、京大コーパスを使ってfine-tuningする。実験の結果、KNPやBiLSTMのモデルより高い性能がでた。構文解析のカテゴリごとの解析精度でも全てのカテゴリでBiLSTMより高い精度を示した。また、pre-trainingモデルのコーパスサイズ、epoch数、Transformerの層数はいずれも大きいほど性能が高くなった。
  • 所感
    • 話題のBERTの強さを改めて認識した。pre-trainingモデルを作っておけば、他への応用もしやすくいろんな分野でさらに広がっていくんだろうなと感じた

Yahoo!ニュースにおける建設的コメント順位付けモデルの導入

  • 著者: 田渕義宗 (ヤフー), 小林隼人 (ヤフー/理研), 村尾一真 (ヤフー)
  • 紹介者: 小澤
  • 概要
    • ニュース記事におけるコメントはUI上全てのコメントを表示することはできないため、順位づけが必要となる。ユーザの評価を利用する順位づけでは、多数派の意見に影響されやすかったり、表示位置によるバイアスがあるという問題がある。そこで、建設的度合いによる順位づけを行なった。実験の結果、現行のモデルより、建設度合いを考慮したモデルの方が編集者評価やオンラインA/Bテストでも良好の結果を得た。
  • 所感
    • ユーザのコメントの評価を、評価用ボタンなどのユーザからのフィードバックではなく、建設度合いという指標を使って行なっており、長期的なユーザの満足度やサービスのことを踏まえてランキングできているのが良いなと感じた

ありがちでない歌詞生成に向けた曲調と歌詞の関係に基づくベクトル空間モデル (pdf)

  • 著者: 渡邉研斗, 後藤真孝 (産総研)
  • 紹介者: 関
  • 概要
    • Skip Gram Negative Samplingを拡張し、同一空間上に埋め込まれる曲調ベクトルと歌詞の単語ベクトルを教師なし学習するMM-VSMを提案
    • MM-VSMが曲調と歌詞の関係性を学習できていることを確認
    • MM-VSMをベースに曲調と単語の関係性を学習するようにContext2Vecを拡張したHybrid-VSMを提案
    • Context2VecにはNegative Samplingが組み込まれており、頻出単語を負例とすることでありがちでない歌詞生成が期待できる
  • 所感
    • メタルにKill、R&Bにsweetなど、直感的に正しい語がベクトルを空間上に近くなっており、非常に直感的な埋め込みが行われていた
    • またそれだけで終わるのではなく、Context2Vecを利用して生成にもつなげている。
    • このように様々な要素間の距離を測れるといろいろなことが出来ると思うので、参考にしたいと感じた

ライティング支援を想定した情報補完型生成 (pdf)

  • 著者: 伊藤拓海, 栗林樹生 (東北大/Langsmith), 小林隼人 (ヤフー/理研AIP), 鈴木潤, 乾健太郎 (東北大/理研AIP)
  • 紹介者: 関
  • 概要
    • 非ネイティブの論文執筆サポートをめざしている
    • ACLに投稿された論文に出現する文をGoogle翻訳し、その文を英訳するタスクをクラウドソーシングに投げて非ネイティブによる英語文を収集する。わからない単語は<mask>にすることを許している
    • クラウドソーシングから訓練可能なレベルのデータを集めることは高コストで現実的ではないので、訓練データは自動生成する。クラウドソーシングの結果は評価に用いる。
    • 誤り付与モデル、文体変換モデル、含意文生成モデル (これによって情報が落ちる)、乱択削減モデル(ランダムで単語を<mask>に置き換える)によって元の文を変換し、学習用データを生成する。
  • 所感
    • タスク設計がうまく、クラウドソーシングを活用する部分と、自動で生成する部分が明瞭で、納得感があった
    • クラウドソーシングでどのようにデータを集めるべきかという点がしっかり整理されていてよかった
    • 例えば、 in our knowledgeが to the best of our knowledgeの言い換えができていたり、専門用語の生成ができているなど、タスク特化の学習がうまくできていた。
    • タスクに特化したデータがほしいときに非常に参考になる実験プロセスだと感じた

その他

NLPは期間中様々なイベントが行われております。 例えば初日の夜はフットサル大会と、スプラトゥーン大会が行われ、弊社メンバーも参加していました。

f:id:Y_sekky:20190403181630j:plain
NLPフットサルの様子。毎年恒例になっている。

f:id:Y_sekky:20190312205423j:plain
今年初開催となったNLPスプラトゥーン。フットサルに対抗してe-sportsをやろうという試み。

3日目にはYANS懇という、自然言語処理若手の会主催の交流会も開かれていました。 YANS懇ではLTもさせていただき、弊社の研究開発体制について紹介させていただきました。

また過去弊社でインターンを経験した皆さんともいろんなところで再会しました。 正確には数えていないですが、10名以上の方が会場には来ていたようで、今後もNLPコミュニティの繋がりを強めて行きたいと感じました。

おわりに

今回の参加者は過去最大の1,249人だったそうです。その中で非常にスムーズな運営が行われておりました。 このような機会を設けていただいている運営の皆様に感謝申し上げます。 こうした国内の学会にはNLP関連の研究をしている多くの大学から、または業務でNLP関連の技術を活用している企業の方が多く集まり、互いに研究の紹介・意見の交換などをでき、有意義な時間を過ごせました。 来年度は水戸での開催予定だそうです。来年もまた会社として参加させていただくつもりです。よろしくおねがいいたします。

弊社では自然言語処理、機械学習の研究開発を通じて、今後もサービス改善に取り組んでいきます。自然言語処理、機械学習を使ったサービス開発に興味のある方は気軽にお声がけください。

*1:[1409.0473] Neural Machine Translation by Jointly Learning to Align and Translate https://arxiv.org/abs/1409.0473

*2:[1703.03130] A Structured Self-attentive Sentence Embedding https://arxiv.org/abs/1703.03130

*3:[1706.03762] Attention Is All You Need https://arxiv.org/abs/1706.03762