Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

言語処理学会第28回年次大会 (NLP2022) に参加しました

こんにちは!GunosyTechLab MediaMLチームの大竹です。普段の業務ではグノシーアプリにおけるニュース記事配信ロジックの開発や記事推薦モデルの開発を行っています。今回の記事は、3月14日〜18日にかけて開催された言語処理学会第28回年次大会 (NLP2022)の参加レポートになります。今年はGunosyからの発表はありませんでしたが、スポンサーとして全5日の日程に参加しました。

NLP2022について

言語処理学会は人工知能の一分野である(自然)言語処理を専門とする学会です。今年は昨年、一昨年に引き続き、チュートリアル等一部のプログラムを除いてオンラインでの開催となりました。今年の参加者数は1700人を超え、歴代最高の参加者数となりました。

ニュースキュレーションアプリと自然言語処理の関わり

ニュース記事推薦システムにおいては、ユーザーの興味のモデル化に加えて、ニュース記事そのもののモデル化、特にニュースの内容理解が大きな鍵となります*1。ニュースの内容は主にタイトルや本文に自然言語で書かれているため、自然言語処理はニュース記事推薦と最も関わりの深い分野の一つであり、言語処理学会には毎年複数のメンバーが参加しています。

論文紹介

以下では、Gunosyのメンバーの視点から特に印象に残った論文・発表の紹介をしていきたいと思います。

[C4-3] Transformer モデルのニューロンには局所的に概念についての知識がエンコードされている
  • 著者:有山知希(東北大学), Benjamin Heinzerling(理化学研究所/東北大学), 乾健太郎(東北大学/理化学研究所)
  • 紹介者:大竹
  • 概要

    • BERTに代表される事前学習済み言語モデルには、「iPod TouchはAppleの製品である」や「モーリシャス共和国の公用語は英語である」といった世界知識が何らかの形で保存されていることが複数の研究によって示唆されています。著者らは「子猫」や「キーボード」といった概念についての知識に注目し、帰属法と呼ばれる手法を用いることで、それらの知識がTransformerのFF層の中に局所的にエンコードされていることを明らかにしています。
  • 所感

    • 事前学習された言語モデルの中にどんな種類の知識がどの程度入っているのか、またそれらがどのような形態で保存されており、どのように取り出すことが可能なのかという課題は個人的に興味を持っていたテーマだったこともあり、非常に面白く聴かせて頂きました。「子猫」についての知識に対応すると考えられるニューロンの活性値を抑制すると「子猫」についてのプロンプトが解けなくなり、逆に増幅した場合には「子猫」についてのプロンプトの正解確率が上昇するという実験結果も興味深く、説得力がありました。そういったパターンに従わない概念も存在したとのことで、違いがどういった部分にあるのかが気になりました。発表の中でも今後の課題として挙げられており、これからの展開が楽しみです。

[D2-2] 言語処理的アプローチによる better off 構文の定着過程の説明

  • 著者:永田亮(甲南大学), 大谷直輝(東京外国語大学), 高村大也(産業技術総合研究所), 川崎義史(東京大学)
  • 紹介者:大竹
  • 概要

    • 英語における"better off"の新しい用法はどのような経過を辿って定着したのか?という問いに対する言語学的な仮説を、自然言語処理の技術を用いてコーパスからデータドリブンに検証しています。具体的にはコーパス中の用例をクラスタリングすることで"better off"の用法の変化を定量化し、言語学的な仮説に一致するかどうかを確かめています。検証結果は従来の言語学的仮説を大枠で支持する一方で、派生するいくつかの可能性を示唆するというものでした。
  • 所感

    • 直接ニュース記事推薦に関わるトピックではありませんが、大変興味深く聴かせて頂きました。言語処理の分野側から新しい仮説を示唆するような結果を提示したり、新しい研究課題を提示したりしていて、分野横断的な協力によってひとつの仮説検証が強力に進んでいる印象を受けました。新用法が出現した時期をジャンル別(フィクション・新聞・映画など)に見ていくと、最初に新用法が出現したのは全て文学作品であるとの分析も非常に面白く、他の新語についても同様の分析(ある新語がどのようなドメイン・ジャンルで最初に広まるのか)をしてみたくなりました。
[D8-4] 記事に忠実ではない訓練事例も活用した見出し生成モデルの忠実性の改善法
  • 著者:植木滉一郎, 平岡達也, 岡崎直観(東京工業大学)
  • 紹介者:大竹
  • 概要

    • ニュース記事の本文から見出しを自動生成するタスクにおいては、忠実性(生成された見出しが伝えるすべての事柄が元記事に基づいているか)が重要な課題になっています。既存研究では、含意関係認識器によって訓練データ中に含まれる"記事が見出しを含意しないような見出し"を排除することで忠実性が改善する一方、訓練事例の減少により生成される見出しの品質が低下するという問題が明らかになっています。著者らは記事に忠実ではない訓練事例も活用するための工夫として、マスク付き言語モデルを用いて忠実性の低い見出しを忠実性の高い見出しに書き換える手法、タグを入力に与えることにより見出しの忠実性を制御する手法、の2つを提案しています。新聞記事の本文と見出しからなるデータセットであるJNC, JAMULを使用した実験で、両手法共に既存手法と同程度の忠実性を保ちながら見出しの品質の低下を抑制できることを示しています。
  • 所感

    • ニュースキュレーションアプリにとっては、今後(記事見出し生成を含む)自動要約の技術の重要性はますます高まっていくものと思われます。そういった応用先を考える中で生成結果の忠実性は重要な問題であり、既存研究も含めた見出し生成の忠実性改善に対するアプローチそのものが非常に勉強になりました。提案している2手法について、人手評価ではタグ制御による見出し生成が忠実性・重要度・理解しやすさの観点でバランスの取れた手法だったとのことで、encoder-decoderモデルにおいてタグを追加情報として与えるアプローチの汎用性の高さが印象に残りました。
[招待論文] テキストベクトルの重みづけを用いたタスクに対する単語分割の最適化
  • 著者:平岡達也(東京工業大学), 高瀬翔(東京工業大学), 内海慶(デンソーアイティーラボラトリ), 欅惇志(デンソーアイティーラボラトリ), 岡崎直観(東京工業大学)
  • 紹介者:飯塚
  • 概要

    • 自然言語処理における従来の単語分割処理は、後段のタスクとは独立に前処理として行われていました。そのため、後段のタスクを性能評価したときにはじめて前処理の単語分割が適切であったかがわかる仕組みでした。そこで本研究では、後段のタスクの学習と同時に適切に単語分割を行う手法を提案しました。この手法は、文書分類などの文ベクトルを計算に用いるタスクに適用可能で、実験によって感情分類やTextual Entailmentなどのタスクの性能向上に寄与することを確認しました。
  • 所感

    • 情報推薦の分野においても、単語分割の技術は頻繁に活用されているものの、当然のように前処理として行われていたため本研究のアイディアは示唆に富んでいると感じました。追加研究によって、文書分類以外の他タスクへの適用も広がっているとのことで、インパクトの高さが伺えました。また、研究のアイディアや実験などの研究自体の質の高さに加えて、プレゼンテーションが非常にわかりやすく魅力的であったことが印象に残っています。聴衆に対してここだけは集中して理解してほしいなど発表に強弱をつけることで、聞き手側としては研究における重要なポイントの理解の手助けになりました。
[招待論文] 訓練事例の影響の軽量な推定
  • 著者:小林颯介(東北大学/Preferred Networks), 横井祥(東北大学/理化学研究所), 鈴木潤(東北大学/理化学研究所), 乾健太郎(東北大学/理化学研究所)
  • 紹介者:飯塚
  • 概要

    • 機械学習モデルの挙動の解析において、各訓練事例がモデルに与える影響を理解することは重要です。各訓練事例がモデルに与える影響を理解するための単純な手法としては、データセットから解析対象となる訓練事例を一つ除いて訓練し、モデルの変化を解析することが考えられます。しかしながら、この解析手法では、計算量が大きくなるため多くのパラメータを含むニューラルネットワークモデルへの適用が困難でした。そこで本研究では、計算量が少ない訓練事例の影響を推定する手法を提案しました。この手法は、各訓練事例ごとに影響を受けない固有のサブネットワークを構築するdropoutをベースとした手法です。訓練が終わった後に各事例ごとの固有のサブネットワークを抽出することで、影響の推定に活用します。
  • 所感

    • 情報推薦の分野においても、各訓練事例がモデルにどのような影響を与えたかを解釈することは重要であるため、大変興味深く拝聴しました。提案手法もシンプルであり、かつ計算量が少ないため容易に活用できそうだと感じました。個人的に、推薦システムのモデルのテストケースを生成することに課題を感じていたため、本手法は関連研究として参考になりそうです。
[F5-4] ニューラル言語モデルによる一対多関係知識の記憶と操作
  • 著者:長澤春希(東北大学), Benjamin Heinzerling(理化学研究所/東北大学), 乾健太郎(東北大学/理化学研究所)
  • 紹介者:suchida
  • 概要
    • ニューラル言語モデル(NLM)には、一対多の関係知識を記憶させることができるのではないか、といった研究です。本稿では、その調査方法のデザインについてと、これまでの結果として、NLMに一対多関係知識を記憶させることは一定程度可能であるが、集合操作をさせるには別途特別な学習の枠組みが必要であるという示唆を述べています。
  • 所感
    • 関係知識の取り出し方として分類問題と生成問題の2パターンを検証していて、前者の手法ではかなり精度よく複数の目的語を取得できており興味深く感じました。また、クエリの細かいニュアンス(e.g. "Who is the son (child) of S?")も捉えられている部分が改めてNLMの凄さを感じました。 実験では独自の学習データでfine-tuningして調査しているので、この部分が人手の介入なしに精度良く学習できるようになれば、知識グラフなどの構築コストの大きい知識情報が、教師なし学習で獲得できるのかなと期待しています。

まとめ

今回の記事では、言語処理学会第28回年次大会 (NLP2022) の参加レポートを論文紹介を主軸にお届けしました。会期中は様々なセッションを飛び回り、多くの興味深い発表を聴くことができました。こうした聴講の方法はオンラインだからこそできたものですが、一方で対面でのディスカッションや懇親会での雑談など、やはりオフライン開催でしか味わえない魅力もあると感じました。来年の言語処理学会は沖縄での開催とのことで、3年ぶりのオフライン開催ができるようになることを切に願っています。