はじめまして、データ分析部の小澤(id:skozawa)です。
3月12日(月)〜3月16日(金)に開催された言語処理学会第24回年次大会(NLP2018) @岡山コンベンションセンターに、Gunosyから、関、久保、茂木、桾澤(インターン生)、小澤の5名で参加しました。
スポンサー発表
今回、Gunosyはゴールドスポンサーとして参加し、スポンサーブースでは、Gunosyにおける自然言語処理や機械学習を活用した取り組みについて、ポスター発表しました。
具体的には、以下のような発表をしました。
- 記事・動画閲覧ログを利用したニュース・動画配信の最適化
- 記事・動画閲覧ログを利用した広告配信の最適化
- クリックベイトの分析
- クリックされやすいがユーザの満足度を伴わないコンテンツの調査・定量化
- DEIM 2018でも発表(タイトルと画像が一致しないニュース記事による クリックベイトの文析, 関, DEIM2018)
言語処理学会論文賞受賞
2017年度、言語処理学会に投稿された論文誌の中から優れた論文誌に授与される言語処理学会論文賞を、データ分析部研究開発チームの関らの以下の論文が受賞しました。
- 多様性の導入による推薦システムにおけるユーザ体験向上の試み, 関喜史, 福島良典, 吉田宏司, 松尾豊, 言語処理学会論文誌24巻 (2017) 1号 p. 95-115
論文賞の受賞を受け、言語処理学会において招待講演を行いました。概要と資料は以下の通りです。
受賞した論文は、ニュース推薦システムに多様性を導入した際のユーザ行動の変化を分析したものになります。 手法自体は既に提案されているものですが、実際のサービスにおけるユーザ行動の変化を明らかにしたという点が新規性です。
本発表は論文賞の招待講演ということで、論文以外のことも発表に盛り込みたいと思い、 論文の中では触れていない研究自体のグランドデザインや、ビジネスとの関係性について述べたり、 受賞の意義について企業研究者の立場からの見解を述べさせていただきました。
今後、こうした企業内での事例ベースの研究がより増えていくといいなと思っています。
論文紹介
弊社参加者が気になった論文をいくつか紹介します。
中間層の利用によるRNN言語モデルの表現力向上
- 著者: 高瀬翔, 鈴木潤, 永田昌明 (NTT)
- 紹介者: 小澤
- 概要
- RNN言語モデルは既存の様々なタスクで高い性能を達成しているが、出力する行列のランクが小さいため、表現力が低い可能性がある。先行研究において、隠れ層の最終層で複数の確率分布を計算し、その重み付き平均を最終的な確率分布とし、出力する行列のランクを大きくすることで、言語モデルの表現力が向上することが確認されている。この論文では、先行研究の一般化手法として、最終層のみならず中間層でも確率分布を計算する手法を提案している。実験の結果、言語モデルの表現力が上がり(Perplexityが下がる)、ヘッドライン生成タスクで性能向上することを示した。
- 所感
- 言語モデルを行列分解とみなして、真の分布を表現するためにランクを上げるアプローチが面白かった。どの層をどの程度のランクにするかは自明でないので、ハイパーパラメータの調整は大変そうだなと思った。
関連記事判定のためのニュース記事キーフレーズ抽出
- 著者: 大倉俊平, 小野真吾 (ヤフー)
- 紹介者: 小澤
- 概要
- 記事から抽出したキーフレーズ判定を用いて関連記事判定をする場合、関連記事でも同じキーフレーズが抽出されていることが求められるが、従来のキーフレーズ抽出は記事固有のキーフレーズを抽出しようとするので、関連記事判定には必ずしも向いていない。関連記事判定に適したキーフレーズ抽出のため、キーフレーズ共有性という新たな評価指標を提案し、キーフレーズ抽出手法においては、文書群全体を代表するキーフレーズを抽出するために、RNNを用いた手法を提案し、キーフレーズ共有性が向上することを示した。
- 所感
- 大量の記事のなかから即時に関連記事を出す場合、複雑な手法は難しく、キーフレーズでインデックスされていることが重要になるので、キーフレーズ共有性はよい指標になるし、すごく実用的なアプローチだと感じた。
深層コード学習による単語分散表現の圧縮
- 著者: 朱中元, 中山英樹 (東大)
- 紹介者: 茂木
- 概要
- 単語の分散表現は各単語独立のベクトルが割り当てられるため、パラメータ数が膨大になる。この論文では、ニューラルネットワークを用いて、単語の分散表現を基底ベクトルの和で近似する手法を提案している。感情分析タスクおよび翻訳タスクで提案手法を評価した結果、既存の枝刈り法と比較して、高い圧縮率と高いスコアを示した。
- 所感
- モデルの精度を悪化させず冗長化を削減しているのに加えて、冗長性を減らしたほうが元の分散表現よりも高いスコアを達成しているケースが存在するのが興味深い。
- 冗長化を減らした際の analogy を見てみたい気がする。
ニューラルヘッドライン生成における誤生成問題の改善
- 著者: 清野舜 (東北大), 高瀬翔, 鈴木潤 (NTT), 岡崎直観 (東工大), 乾健太郎 (東北大/理研AIP), 永田昌明 (NTT)
- 紹介者: 茂木
- 概要
- エンコーダーデコーダーな手法は要約生成のタスクの強力なベースラインとして用いられているが、同じ単語を繰り返したり、関係のない単語を出力したり、重要な単語が欠損することがある。このような誤生成を解決するために、出力文の単語を予測すると同時に入力文の単語を予測することで、入力文と出力文の単語の対応をモデル化する。実験の結果、提案手法のスコアが既存手法のスコアよりも高いことが確認された。
- 所感
- 既存手法のアテンションでは、入力と出力の対応関係が正確ではないが、提案手法では、入力と出力が高い確度を持ってアラインされていることが可視化されているのが興味深い。
サンプリング戦略に基づく単語ベクトルの意味成分とスタイル成分の分離
- 著者: 赤間怜奈 (東北大), 横井祥 (東北大/理研AIP), 渡邉研斗 (東北大), 小林颯介 (PFN), 田然 (東北大), 乾健太郎 (東北大/理研AIP)
- 紹介者: 桾澤
- 概要
- 対話の応答文生成などの文生成タスクでは、話者の性別や年齢、敬意、感情、性格など、文のスタイルを制御する研究が増えている。既存研究では敬意表現などスタイルの一側面を限定的にモデル化しており、スタイルとして考えられる多種多様な特徴をトップダウンに網羅できていない。「分布仮説」と「発話内のスタイルの一貫性」に基づき、単語の意味成分とスタイル成分を捉えたベクトル空間を、大規模発話コーパスを用いた教師なし学習により獲得することを試みた。
- 所感
- 対話において相手がどんな口調なのかは対話を継続する上では重要であると考えられ、それらの特徴を教師なしで獲得することができる手法は有用であると感じた。
- 「発話内の一貫性」を拡張して同文章中のトピックを考慮できるようなモデルの構築に期待をしたい。
敵対的生成ネットワークを用いた機械翻訳評価手法
- 著者: 松村雪桜, 小町守 (首都大)
- 紹介者: 桾澤
- 概要
- 機械翻訳の評価には一般的にBLEUが用いられているがら、BLEUはn-gram 適合率に基づき精度を評価する手法であり、文の意味を考慮した評価はできていない。敵対的生成ネットワークDiscriminatorに注目し、Discriminatorが予測する正解データらしさを機械翻訳の評価手法として用いることを提案した。
- 所感
- 敵対的生成ネットワークの波が言語処理にも確実に来ており、Discriminatorに注目したこの研究は様々な応用が効くように感じた。
- グノシーにおけるCTRの予測や記事の質の評価などに活用ができそうである。
サブワード正則化: 複数のサブワード分割候補を用いたニューラル機械翻訳
- 著者: 工藤拓 (グーグル)
- 紹介者: 久保
- 概要
- ニューラル言語処理でよく使われる単語分割手法にサブワード化というものがあるが、複数のサブワード候補の曖昧性をわざと解消せずに、学習のイテレーションごとにそれらのサブワード候補の中から1つの分割をサンプリングすることで、分割の曖昧性やノイズに頑健になることが確認された。特に小規模のコーパスであるほど有効性は高かった。サブワードについての詳しい説明は工藤さんのQiitaの記事がわかりやすい。
- 所感
- dropoutや画像認識における回転や拡大・縮小との類似性という点も非常に興味深く、対話や要約など他のニューラル言語処理でも幅広く応用できそうでいろいろ試してみたい。
自然言語処理における解釈可能な敵対的摂動の学習
- 著者: 佐藤元紀 (NAIST), 鈴木潤 (NTT), 進藤裕之, 松本裕治 (NAIST)
- 紹介者: 久保
- 概要
- 画像処理の分野では小さな摂動(ノイズベクトル)を加えることで、分類システムの汎化性能が上がることが報告されており、自然言語処理の分野でもそのような事例は報告されているが、自然言語処理における入力は画像と違って連続的ではなく離散的であるので、入力画像に摂動を加えた画像は人間に解釈できるが、入力単語ベクトルに摂動を加えた単語は人間で解釈しづらいという問題がある。そこで摂動を加える方向を実際に単語が存在する方向に限定することで、摂動を加えたデータを人間が解釈可能しやすくなることを目指している。
- 所感
- DNNで学習されたテキスト分類器の性質は人間による解釈が難しい傾向にあるが、本研究によればどのようなサンプルが分類機の予測を誤らせるのかの観測が容易になる。敵対的サンプルを利用する手法は今後自然言語処理でも研究開発が進みそうであり要注目の論文である。
おわりに
言語処理学会24回年次大会は過去最大の1000人弱の参加者となり、NLP関連の研究をしている多くの大学から、または業務でNLP関連の技術を活用している企業の方が多く集まり、互いに研究の紹介・意見の交換などをでき、有意義な時間を過ごせました。
弊社では自然言語処理、機械学習の研究開発を通じて、今後もサービス改善に取り組んでいきます。自然言語処理、機械学習を使ったサービス開発に興味のある方は気軽にお声がけください。