Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

言語処理学会第27回年次大会(NLP2021)にポスター発表・ワークショップ登壇で参加しました

こんにちは、株式会社Gunosy新卒一年目の谷口です。3月15日〜3月19日に開催された言語処理学会第27回年次大会(NLP2021)に弊社からも「ポスター発表」・「スポンサーイブニング」・「ワークショップ登壇」という形で参加しました!本記事ではそちらについて述べていきます。

今年も一般参加者が集まるのは難しいということで、前年に引き続きオンラインによる開催でした。私自身、オンラインの学会に参加するのは初めてのため少し緊張と不安があったのですが、運営の方々のご尽力のおかげで滞りなく参加することができました。しかし、開会式でがらんとした会場が映し出されたときは何とも複雑な感情がこみ上げてきました。いつか皆さんと画面を通さずにお会いできることを心待ちにしております。

ポスター発表

扇情的な記事判定に向けた定義作成とアノテーション」というタイトルで論文を投稿し、ポスター発表で参加しました。ニュースキュレーションアプリにおける「扇情的な記事」(性的・攻撃的・クリックベイト的な記事)の自動判定を目指して行った定義の作成およびデータセットの構築について述べています。なお、この判定を用いて、アプリ内での「扇情的な記事」の表示を抑制し、長期的なユーザー満足度につなげることを想定しています。この試みの一部は私の別記事でも解説していますので、ご参照ください。

ポスター発表はzoomで行われました。各発表にzoomの部屋が割り当てられているという仕組みであるため、部屋を回遊されている方の目に止まらないという特徴があります。そのため、「あまり人が来られなかったらどうしよう」と懸念していましたが、全ては杞憂に終わり、多くの方に聴講・質問・コメントをしていただきました。誠にありがとうございます!コメントは、「直接的なユーザーアンケートをとることで評価できるのではないか」、「攻撃的な記事について、ヘイトスピーチの研究が参考になりそう」、「クラウドソーシングを利用することは考えているか」など、私たちの今後にとって有益なものばかりでした。

この発表を通じて、私たちの目指すところや想いが多くの方に伝わったと確信しています。実際、私たちの問題について「共感する」と何度も言っていただけたように思います。また、社内で議論を進めてきたプロジェクトに対して外部からのフレッシュな意見をプラスし、改めて客観的・柔軟に捉えるということはとても大切だと思います。さらに、これは個人的なことですが、初対面の方々に発表を行う力は、機会がないとどんどん鈍っていく気がしたので、こういった場で積極的にトライしていきたいと感じました。

なお、今後も弊社では「扇情的な記事」を判定する取り組みを続けていきます。皆さんのコメントを参考にしつつ、定義の見直し・データの拡張などに着手し、ひいてはユーザー体験の向上・ニュース配信の新しい形の提案につながることを目指していきます。

ポスターは以下です。

f:id:MCtaniguchi:20210323172434p:plain
ポスター「扇情的な記事判定に向けた定義作成とアノテーション」

ワークショップ登壇

最終日に行われたワークショップ「若手研究者交流のニューノーマルを考える」において、研究開発チーム上席研究員の関が登壇しました。 このワークショップは若手研究者の研究に対するナレッジの共有を目的としており、 関は「企業における研究・開発から、学生が研究をする利点についてと研究生活について」というセッションで登壇しました。 発表では「スタートアップの開発サイクルに学ぶ 研究活動の進め方」と題して、自身の研究の進め方についてこれまでを振り返り、 スタートアップの成長期における「Lean Startup」との類似性を踏まえて、評価指標とタスクを決めた上で、細かくアウトプットをしながら研究を進めていくことの重要性、そのために国内の学会や研究会を活用していくことについて話しました。 そして、これからの世の中において研究者がどのような役割を担っていくべきか、どのようなことを求められていくかということについても私見を述べました。

発表資料は以下です。

ワークショップでは様々な立場の方から研究に対する姿勢や経験談が語られ、Slackでの議論も非常に盛り上がりました。 普段であれば懇親会で行われるような議論を行うことができましたし、名前は知っているものの交流がなかった研究者の姿勢や考え方にも触れられる良い機会でした。

論文紹介

弊社参加者が気になった論文をいくつか紹介します。

事前学習とfinetuningの類似性に基づくゼロ照応解析

  • 著者: 今野颯人 (東北大), 清野舜 (理研/東北大), 松林優一郎 (東北大/理研), 大内啓樹 (理研), 乾健太郎 (東北大/理研)
  • 紹介者: 上村
  • 概要
    • ゼロ照応解析タスクにおいて、Transformerベースのモデルでの事前学習タスクをfine-tuningタスクと擬似的に統一することで、事前学習段階で照応関係を学習して、タスクに必要な知識を獲得する。
  • 所感
    • 元々難しいゼロ照応解析のタスクを、大規模なWikipediaデータから学習することによって得られる知識を応用して解決しようというモチベーションが面白かったです。また、実験において多くの観点やからモデルの分析を行い、評価を行っていたのも良かったと思います。タスク自体が難しく、文を跨いだ照応解析は特に複雑ですが、事前学習のデータセットの改善や、詳細な事例分析で得られる統計的知識もあるような気がするので、今後も注目していきたいです。

オープンドメイン質問応答における解答可能性判別の役割

  • 著者: 鈴木正敏 (東北大/理研), 松田耕史, 大内啓樹 (理研/東北大), 鈴木潤, 乾健太郎 (東北大/理研)
  • 紹介者: 谷口
  • 概要
    • オープンドメインQAにおいて、「答えの単語は含まれているが正解とはいえない」場合を含む、既存の問題よりも難しい制約をつけたタスクに対して、文書検索・パイプラインではなく同一のモデルによる解決を試みる。
  • 所感
    • 納得感のある問題を自ら定義し、必然性の高い手法を検討していく、いわゆる「山を作って山を登る」研究は本当にすごいと思います。「『情報源に正解となる言葉は含まれていても、質問に対する答えであることが示されていない』場合、答えとは言えない」ということに着目しているのが面白かったです。SQuADなどの既存のタスクとの差が明確でした。本研究の前段として、「答えであることが明示されているかどうか」のデータセットもご自身で作られているようです。より間違って拾ってしまうことが許されないような場合に有用な気がしました。

フェイクニュース検出データセットにおける通時的バイアス

  • 著者: 村山太一, 若宮翔子, 荒牧英治 (NAIST)
  • 紹介者: 小澤
  • 概要
    • フェイクニュースのデータセットには、オバマ大統領や米国大統領選挙など、データセットを構築した時期に起きているトピックに依存しやすい。これを通時的バイアスと呼び、固有表現に注目し、固有表現をマスキングすることで、通時的バイアスの緩和を行った。
  • 所感
    • 通時的バイアスは、我々が発表した研究でも同様のことが起こりうるので、固有表現をマスキングするのは参考にしたいと思いました。一方、フェイクニュース検出自体はまだ発展途上な印象なので、別の研究発表(「ファクトチェック支援のための含意関係認識システム」)であったような含意関係認識として解くべきなのかも含め今後も注目していきたいです。

単語埋め込みの確率的等方化

  • 著者: 横井祥 (東北大学/理研AIP), 下平英寿(京都大学/理研AIP)
  • 紹介者: 濱下
  • 概要
    • 単語埋め込み空間の歪みを補正することで、良いパフォーマンスが得られることが知られている。しかし歪みの補正方法の多くは暗黙的に単語頻度を一様だと仮定しており、これが歪みを補正できない原因となっている。本論文では単語頻度を考慮して期待値計算することで正しく歪みを補正し、後段タスクの性能が向上することを示した。特に GloVe に対して単語頻度で重み付けを行った方向白色化を行うと、文類似度タスクにおいて uSIF という強力なベースラインを上回った。
  • 所感
    • シンプルな手法にも関わらず、性能が大きく向上していて驚きました。
    • 今まで単語埋め込み空間の歪みについてあまり意識していなかったのですが、我々の業務においても応用できそうなので試してみようと思いました。
    • 質疑や Slack で活発に議論が行われていて非常に面白かったです。

企業情報を考慮したキャッチコピーの自動生成

  • 著者: 昇夏海, 平岡達也, 丹羽彩奈 (東工大), 西口佳佑 (サイバーエージェント), 岡崎直観 (東工大)
  • 紹介者: 柯
  • 概要
    • キャッチコピーの企業のイメージに関連する語を異なる企業の関連語と置き換えてキャッチコピーを生成する。手法は従来のテンプレートベースではなくBERTで生成、PPLMを用いて指定した企業の関連語を出せるように制御する。従来手法は事前に作った単語リストの単語に限定され、非文法的なキャッチコピーを生成しやすい欠点がある一方、提案手法は単語に制限がなく文法も壊さない。なお、パラレルコーパスも不要。
  • 所感
    • 企業関連単語の抽出は、自動分類・タギングの参考になると思って聴講しました。本研究の関連語の抽出では、入力として企業情報を使うのではなく、出力側で企業分類させるようにマルチタスク的な手法を使っていました。非常に面白いです。

おわりに

本大会は言語処理学会2回目のオンライン開催でしたが、発表も聴講もとてもスムーズに行えました。このような素敵な場を用意していただき誠にありがとうございます。オンライン開催ということで、コミュニケーションは主にチャットツール上で行われていましたが、発表後の質問のしやすさや見返しやすさなど、オンラインならではの良さもたくさんあるなと感じました。またチャットにおいて、「これからこういう工夫もやってみたらどうかな」といった、今後のオンライン開催に向けた意見も挙がっており、運営と参加者の皆さんが一丸となっている形が印象的でした。引き続き、こういった機会には弊社の取り組みを伝えていこうと思いますので、皆様よろしくお願いします!