Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

#NLP2023 で平易な要約の生成について発表しました

こんにちは、GunosyTechLab の濱下、森田、大竹、飯塚、久保です。 今回の記事は、3/13〜3/17 の 5 日間にかけて開催された言語処理学会第 29 回年次大会(NLP2023)の参加レポートになります。

NLP2023 について

言語処理学会は人工知能の一分野である(自然)言語処理を専門とする学会です。今年はコロナ禍以降初となる、大規模な対面でのセッションを含むオフライン・オンラインのハイブリット開催で、現地会場も大いに賑わっていました。参加者数は 1828 人、発表件数は 579 件、スポンサーは 80 団体となり、いずれも歴代最高となりました。

Gunosy からは、「P12-5 語彙制約を間接的に用いた平易な要約の生成」という内容でポスター発表をおこないました。 詳細は以下のブログを参照ください*1data.gunosy.io

発表での議論をまとめると以下のようになります。

  • 要約生成に利用する語彙を漢字を習う学年で分けると、難しい漢字でも読める場合があるので頻度を考慮するべき
    • 今回は分析のしやすさをとって学年で分けましたが、たしかにその通りで、読者にとっての難しさを考慮して利用する語彙の制限をするのが良かったと思います。読者にとっての親しみのある語彙は人それぞれ異なるので、語彙レベルからパーソナライズするというのは今後の目標の一つになると思います。
  • 要約と平易化のモデルを分けたほうが利用できるデータが増えて、制御もしやすくなるのでは
    • 平易化と要約のデータがそれぞれ利用できる方が現状利用できる学習データは多くなるため、一般的には精度的には高くなるはずです。(これは後出しですが)今後サービス化することを考えると、データを作ったりフィードバックを受け取るなど実データを利用しやすいE2Eの方がやりやすくなると考えています。部分タスクのデータを利用する手法はいくつも提案されているので、そういった手法を利用する手もあります。

論文紹介

以下では、Gunosy のメンバーの視点から特に印象に残った論文・発表の紹介をしていきたいと思います。

[H4-2] 入力文章の内容に沿った新たな歌詞を生成する作詞支援システムと剽窃リスクを下げる歌詞生成手法

  • 著者:渡邉 研斗, 後藤 真孝(産総研)
  • 紹介者:大竹
  • 概要
    • 「歌詞にしたい内容(例:情景や心情)は決まっているが、それを具体的にどのような歌詞のフレーズとして表現すればいいかわからない」といったユーザーの課題を想定した作詞支援システムを提案しています。ユーザーは歌詞の内容を表すような文章(例:海岸で車を運転する)を入力し、システムは入力された内容に沿いながらも、字面が似ていない歌詞(例:海辺のハイウェイを走りたい(改行)ハンドルを握る君とならば)を出力します。こういったタスクを解くモデルとして、入力文書から直接歌詞を生成するようなエンコーダ・デコーダモデルが考えられますが、入力文書と歌詞の大規模ペアデータは存在しないため、データ作成から始める必要がありコストが大きいです。また、この問題に対して自動要約などのモデルを応用して歌詞から入力文章を生成して擬似教師データとする手法も考えられますが、このようにして生成された歌詞は元の入力文書と似通ったものになってしまう可能性が高く、実現したいシステムの目的に合致しません。そこで、本研究ではまず入力文書から中間表現となる画像を text-to-image の生成モデルによって作成し、別に用意した画像から歌詞を生成するエンコーダ・デコーダモデルに作成された画像を入力することで、「入力文章の内容に沿いつつ字面が似ていない歌詞」の生成を試みています。
  • 所感
    • 表現したい歌詞内容をエンコードする中間表現に画像を使うというアイディアが非常に面白かったです。また、モデルが既存の歌詞や web 上に存在する小説などの表現を意図せずそのまま生成してしまう剽窃リスクの課題に真剣に向き合い、複数の工夫を通して剽窃リスクを低減させており、実用的なシステムの実現への情熱を感じました。加えて、 Stable Diffusion と呼ばれる画像生成モデルを、入力文書からの画像生成、および画像から歌詞を生成するモデルの学習データ作成に使用しており、強力な画像生成モデルの応用の一例としてとても勉強になりました。

[H4-5] 人間とシステムの議論に基づく NLP タスクの問題に対する予測

  • 著者:金子 正弘(東工大), Graham Neubig(CMU), 岡崎 直観(東工大)
  • 紹介者:大竹
  • 概要
    • 人間同士が共通の問題に取り組む際は、双方向の議論を通じてお互いに考えの説明や同意・反論を行い問題解決を目指すという点に注目し、機械学習モデル(本論文では GPT-3 )と人間が議論することで、より正確な推論・予測を目指すシステムを検証しています。題材として Natural Language Inference(NLI)の問題を取り上げ、まず人間がある問題に対して予測を行い、その結果について人間同士が議論して最終的な予測を決定するようなデータを学習・評価用に作成しています。この議論データを問題の説明や問題例と一緒に few-shot 学習の context に加えることによって、議論データを用いない場合よりもモデルと問題解決に向けた有益な議論が行えることを実験的に示しています。また、議論例のデータを context として追加で与えることで、与えない場合と比較して純粋な NLI タスクの性能も向上することが示されており、議論の事例によってモデルが問題への理解を深め、結果として正解率が向上したことが示唆されています。
  • 所感
    • 人間と大規模言語モデルが協力して問題解決を行う未来を感じさせる研究で、非常に面白く聞かせていただきました。議論能力の評価実験においては、 few-shot で与える事例の設定(議論例を入れる or 入れない等)を変化させたモデルと人間の議論結果により設定間の比較をしていましたが、人間同士が議論をした場合と比較するとどういった結果になるのか(例えば、人間とシステムが協働する場合と比較してどの程度の差があるのか)が気になりました。

[P1-1] 文分類における精度と解釈性向上のための近傍事例の活用

  • 著者:村岡 雅康, 趙 陽(日本アイ・ビー・エム株式会社 東京基礎研究所)
  • 紹介者:濱下
  • 概要
    • prompt を用いた zero/few-shot 評価に大規模言語モデルの特徴量を用いた k 近傍法を適用し、文分類問題において性能向上を達成した。
      • 提案手法は予測した確率分布に対してバイアス除去をおこなったものと、大規模言語モデルの特徴量を用いて k 近傍法を適用し計算した確率分布を線形補間したもの
        • バイアス除去*2は、無意味な文字列に対する予測確率は一様分布が望ましいといったものを反映させたものであり、無意味な文字列(空文字列、 N/A[MASK])を入力とし、出力された確率分布の逆数を補正項として元の予測確率に乗じるもの
        • k 近傍法は、大規模言語モデルの特徴量から近い k 個の訓練事例を予測の計算に使用するもの
      • 6 つのデータセットに対して文分類問題の評価実験をおこなったところ、kNN を用いた場合に平均 26.7 ポイントの向上が見られた
        • モデルは事前学習済みの roberta-base*3 を用いている
  • 所感
    • 実験結果を見ると、 k 近傍法を用いずに in-context learning をおこなう場合、ほとんどの場合デモンストレーション数を増やすたびに性能劣化が起きていました。一方で GPT-3 などのパラメータ数が大きなモデルでは in-context learning が有効であることが報告されていることから、 roberta-base ではパラメータ数が少なく、うまく解釈できていないのではないかと思いました。
      • 上の結果から GPT-3 などパラメータ数が大きなモデルに対して実験したときに、どの程度 k 近傍法がうまくいくか気になりました。
    • k 近傍法を用いることで、誤って予測した原因がわかりやすく、試行錯誤/性能改善のループを回せるのは良さそうでした。

[C2-5] 最長一致パターンに基づく高速・高精度な日本語形態素解析

  • 著者:吉永 直樹(東京大学生産技術研究所)
  • 紹介者:濱下
  • 概要
    • 最長一致法に基づく形態素解析器(Jagger)を提案
      • 入力テキストの先頭から後続する表層文字列と前文脈品詞に対して特徴列パターンを繰り返し適用し、決定的に単語分割、品詞タグ付け、見出し語化を行うもの
        • 特徴列パターンは単語分割、品詞タグ及び見出し語が付与された学習データと単語がとりうる品詞タグ・見出し語を 定義した形態素解析辞書を入力として、逐次的に特徴列パターンを学習データから抽出する
    • 京都大学テキストコーパス(Kyoto)と京都大学ウェブ文書リードコーパス(KWDLC)で実験をおこなったところ、MeCab や Vaporetto*4 と同程度の F1 値で、 MeCab の 16-21 倍、 Vaporetto の 3-9 倍の速度で形態素解析をおこなうことができ、消費メモリも小さくなった
  • 所感
    • Vaporetto が発表された時に MeCab より高速な形態素解析器が出てきて驚いた記憶がありますが、精度がそれに比べて遜色なく、さらに高速な形態素解析器が出てきて驚きました。
    • 一方、ブログ執筆時点で Jagger の実装が公開されていなかったため、Vaporetto の作者が Rust で追実装*5し、 BCCWJ と UniDic に対して実験したところ、Vaporetto と比較して速度は 2-5 倍程度早く、F1 値は若干悪くなっていました。
      • 入力する文によっては精度や分割速度が異なる*6ことが示唆されており、同一データセットでの比較も見てみたいと思いました。

[H5-2] クエリ指向要約におけるクエリと要約の統合的な生成

  • 著者:服部 翔, Youmi Ma, 岡崎 直観(東京工業大学)
  • 紹介者:飯塚
  • 概要
    • クエリ指向要約は、ある特定のクエリ(質問)に対して要約を生成するタスク
    • しかし、ユーザーにとって未知の文書に対してクエリを考えることは容易ではない
    • そこで本研究では、要約タスクにおいてクエリも含めて自動生成するクエリ推薦付き要約を提案
      • タスクと評価方法の設計し、文書の特定の部分(スパン)からクエリ・要約を生成する手法などを提案
    • 事前に文書の不要な部分を予測し除去することによってクエリ・要約の生成精度が向上した
  • 所感
    • ChatGPT の隆盛によって、文書を要約するアプリケーションが増えており、出力として様々な要約パターンが考えられる中で、どのような要約をユーザーに提示するかはユーザーの情報要求に基づくクエリが必要だと考えられます。
    • しかし、本論文で指摘されているとおり、一般ユーザーがクエリを生成することは慣れるまでは時間が要するタスクで難しいのではないかと私自身も感じていました。
    • 本研究はこの問題に対して、クエリを生成してユーザーに推薦するという実現可能かつウェブサービスにとって魅力的なアプローチを取っており、非常に興味深く発表を拝聴しました。
    • 本研究を参考に、ユーザーの情報要求に合う要約をユーザーに抵抗の少ない形で出力するタスクは今後取り組んでいきたいです。

[A1-5] ニューラル分類器の予測の解釈に基づく 翻訳が難しい表現の検出

  • 著者:坂口 典三, 村脇 有吾, Chenhui Chu, 黒橋 禎夫(京都大学)
  • 紹介者:森田
  • 概要
    • この発表では、機械翻訳で原言語側を翻訳のしやすい表現に書き換えることを目的として、翻訳の難しい表現の自動検出をタスクとしています
    • 日本語話者に特徴的な表現(和訳文には出現しない表現)≒ 翻訳の難しい表現という仮説のもとに、日本語原文と和訳文の分類器を学習して、原文と和訳文の分類の手がかりとなる表現を日本語話者に特徴的な表現として検出する手法を提案しています
    • 日本語の原文らしさと翻訳精度の間には負の相関があることから仮説の妥当性がしめされ、正しく翻訳される場合も散見されるものの、翻訳の難しい表現が検出できていることが確認されている
  • 所感
    • 翻訳の難しい表現を検出するというタスクの新しさや面白さもありながら、特定の文集合に特徴的な表現(対)を検出するというのは実は応用先の広い技術なのではないかと感じます
    • 例えば、専門用語、専門的な言い回しや逆に平易な表現、トピックの分析などにも利用可能なのかなと思いながら発表を聞いていました

まとめ

今回の言語処理学会は、久しぶりのオフライン参加で非常にインタラクティブなやり取りができて楽しかったです。 来年は神戸で開催されるようです。また皆さんとお会いできるのを楽しみにしています。