こんにちは、データサイエンス部の大竹、R&D チームの森田、久保、新規事業開発室の鈴木、岡田です。
今回の記事は 3/11 ~ 3/15 の 5 日間にわたって開催された言語処理学会第 30 回年次大会 (NLP2024) の参加レポートになります。
NLP2024 について
言語処理学会は人工知能の一分野である(自然)言語処理を専門とする学会です。
記念すべき 30 回目である今年は、昨年に引き続きオフライン・オンラインのハイブリッド開催となり、神戸市の神戸国際会議場がオフラインの会場となりました。
参加者数は 2,121 人(前回より 16% 増)、発表件数は 599 件(3% 増)、スポンサー数は 89 団体(11% 増)といずれも過去最多を更新し、会場は大いに賑わっていました。 Gunosy は ゴールドスポンサーとしてスポンサー展示を行い、Gunosy における自然言語処理の取り組みを紹介しました。 会期中は多くの方にブースを訪れていただき、様々な意見交換を行うことができました。
企業ブースとポスター紹介
企業ブースでは以下のポスター展示を行いました。
R&D チームが行なっている研究の成果や、新規事業として開発している業務支援特化の生成 AI サービスであるウデキキのデモを交えた紹介、ニュースキュレーションアプリにおける記事推薦の仕組みなどを紹介しています。
論文紹介
以下では、Gunosy のメンバーの視点から特に印象に残った論文・発表の紹介をしていきたいと思います。
[C3-2] 長文生成の多面的評価:人手評価と自動評価の向上を目指して
- 著者: 鴨田豪 (東北大), 浅井明里 (ワシントン大), Ana Brassard (理研/東北大), 坂口慶祐 (東北大/理研)
- リンク: pdf
- 紹介者: 大竹
- 概要
- 大規模言語モデル (LLM) は様々なタスクにおいて成功を収めていますが、情報検索クエリに対する長文応答のような長文生成を必要とするタスクにおいては生成結果の評価が難しいという課題があります。本研究では、長文生成を必要とするタスクの一種である Long-form QA の評価に焦点をあて、網羅的な評価基準を定めた上で人手評価結果を収集し分析を行うことで、総合評価に最も影響を与える重要な評価軸を明らかにしています。また従来の評価手法を人手評価との相関で凌駕する LLM を利用した自動評価手法を提案しています。
- 所感
- 企業においても様々な課題が長文生成を必要とするタスクとして定義可能で、実際に LLM を利用したシステム構築を検討する場合も多くあります。そのようなシステムを構築する場合に問題となるのがやはりシステムの評価で、Long-form QA を題材に長文生成タスクの評価の方法論を示している本研究は大変興味深かったです。多面的人手評価の結果を LLM を利用した自動評価に組み合わせるというアプローチは他の様々な長文生成タスクにも適用可能だと思われ、非常に参考になりました。
[A5-4] 文献理解のための人間の応答を利用したプロンプト最適化
- 著者: 今川涼平 (筑波大), 守山慧, 楊明哲, 馬場雪乃 (東大)
- リンク: pdf
- 紹介者: 森田
- 概要
- LLM が各種タスクで性能を最大限発揮するには、適切なプロンプトを設計する必要があります。LLM の応用範囲のタスクは幅広く、個々のタスクに人手で適切なプロンプトを設計するにはコストが問題となります。人手でプロンプトを作成する代わりに正解ラベル付きのデータを用意してプロンプトを自動的に最適化する研究がこれまで行われてきていますが、正解ラベル付きデータの作成も結局のところ専門性が求められるコストの高い作業です。
- この研究では、正解ラベル付きデータの代わりに、出力に対するユーザからのフィードバックを利用することを検討しています。具体的には、論文からのタグ抽出をタスクとして、抽出したタグとその根拠となる文が正しいかどうか二値のフィードバックをプロンプト生成に利用しています。
- 所感
- 評価はできても正解を用意できないタスクは意外とあちこちにあります。たとえば、読書感想文を生成することを考えると、本の内容と矛盾するような明らかな不正解はあっても正解は無数にありえます。実際のプロンプトの設計でも、設計時に理想的な出力は想像がついておらず、プロンプトを設計しながら理想的な出力を探索するようなケースは良くあるかと思います。性能的な向上はまだこれからという段階ですが、応援したい研究です。
[C6-4] 金融分野における言語モデル性能評価のための日本語金融ベンチマーク構築
- 著者: 平野正徳 (株式会社 Preferred Network)
- リンク: pdf
- 紹介者: 鈴木
- 概要
- LLM が一般的なタスクでどの程度の性能をだせるかは分かってきていますが、分野に特化したモデルの場合にはどの程度性能を発揮できるかは評価が必要です。本研究では、金融分野に特化してベンチマークの構築し評価しています。
- 所感
- 結果としては GPT-4 が一番性能が良かったのですが、Qwen という中国の LLM が次点に来ている点が面白かったです。LLM のモデル Qwen が今回のベンチマークで良い結果を出している理由の一つに金融のテキスト(教科書)を学習させている可能性があるためと考察しています。LLM モデル学習におけるドメイン知識の重要性が感じられ、参考になる研究でした。また、実験結果が GitHub にアップロードされており、テスト方法が確認できるのも良いと感じました。
まとめ
今回の記事では、言語処理学会第 30 回年次大会 (NLP2024) の参加レポートをお届けしました。
全体としてやはり LLM を扱った研究の勢いを感じた大会で、LLM を使用した自社内でのプロダクト改善やサービス開発に活かせる取り組みを多く知ることができ、企業からの参加者として非常に有意義でした。 来年の NLP2025 は長崎での開催ということで、現地にてまた多くの方にお会いできることを楽しみにしています。