はじめに

NLP若手の会第14回シンポジウムと連続開催の第241回自然言語処理研究会に参加してきました。

はじめに
YANS2019
第241回自然言語処理研究会
おわりに

YANS2019

2019年8月26日(月) ~ 8月28日(水)の3日間、新札幌にて開催されたNLP若手の会第14回シンポジウム (YANS2019)に参加してきました。今年度は新札幌駅付近のホテルエミシア札幌(http://www.hotel-emisia.com/)というホテルで行われました。今回の参加人数は200人を超えており、過去最高の参加人数となったそうです。特に学生の参加数が昨年よりも約50人増え、それに伴って発表数も増加したそうです。本イベントは萌芽的な研究を集まっていることもあり、ポスターが公開されてないものも多数ありますので、イベントに焦点を絞り、紹介いたします。

YANSとは、Young researcher Assosiation for NLP Studiesの頭文字を取ったもので、自然言語処理や計算言語学の若手の研究者のコミュニティです。年1回シンポジウムを開催しており、各研究者が自身の研究をポスターにまとめて、ディスカッションすることにより、各々の研究を高め合うことを目的としております。そのため、学会のように成果が必ずしも出ている内容を発表するわけでなく、成果がでていない構想段階の研究も共有/ブラッシュアップできるという利点があります。また、若手の会というだけあり、学生が主体となっている印象を受けました。

Gunosyからは、関、川口の2名で参加しました。当社はシルバースポンサーとして協賛させていただき、ポスター発表をいたしました。本イベントへのスポンサーは2015年から5年目になります。

f:id:makuramoto1:20190902172413j:plain

タイムテーブル

三日間の合宿形式の学会となっております。全体的にフランクな雰囲気で行われており、参加者の交流が促されておりました。三日間の大まかな流れとしては下記のようになりました。

シンポジウム1日目：8月26日(月)

ハッカソン説明
招待講演 (1)
ポスター・デモ発表
懇親会
ナイトセッション

シンポジウム2日目：8月27日(火)

ポスター・デモ発表
招待講演 (2)
ポスター・デモ発表 (4)
懇親会 in サッポロビール園

シンポジウム3日目：8月28日(水)

ポスター・デモ発表
ハッカソン発表・ハッカソン賞投票

上記でわかりますように、大半がポスター・デモ発表が占めており、研究内容についてのディスカッションが盛んに行われました。またハッカソンも同時に行われており、参加者の方々はポスター発表の合間や1日のイベント終了後にハッカソンの作業を行い、最終日に成果発表するというなかなかハードな日程となっておりました。

弊社も最終日にポスター発表を行いました。現地で印刷する予定だったのに、月曜日に業者のポスター印刷機が故障するというトラブルがありヒヤヒヤしましたが、無事発表できてよかったです。ここ最近国際会議に通している論文3件の中身についてポスターにまとめて発表しました。さまざまな方に興味を持ってもらうと同時に、業績についてお褒めやねぎらいの言葉をいただくことも多く、非常に励みになりました。

f:id:Y_sekky:20190828100448j:plain

招待講演

シンポジウムの1日目と2日目に日本の自然言語処理界での著名な研究者の方々からの講演が行われました。著者が聴講した内容をものすごくざっくりまとめましたので、雰囲気を知りたい方は参考にください。(※個人が視聴し内容を纏めているのでやや講演内容とのずれがある可能性があることをご了承ください) 発表内容については資料が後日ウェブページに公開されるそうなので、興味を持たれた方はそちらも御覧ください。

トップカンファレンスへの論文採択

トップカンファレンスへの論文採択に向けて（NLP研究分野版）/ Toward paper acceptance at top conferences (NLP research field version) from JunSuzuki21
www.slideshare.net

講演者: 鈴木潤氏（東北大学大学院情報科学研究科）
概要:
- 1年以内の期間で自然言語系のトップ国際会議への論文を通す！ここでいう国際会議とはACL, EMNLP, NAACL etc...
- 真に良い研究ではなく、まずは実績を作る研究から始めて行く。実績がないと界隈に相手にされなかったりすることが多々あり、また、研究をやっていくなかで面白さを見出す可能性があるので、実績を作る研究を初めて行った方が良いという気持ちを持とう
- 良い師匠を見つけることが大事である。師匠とは教授や企業の研究期間に在籍している博士のことであり、その方達に熱意と誠意を伝えよう
- 研究内容としての理想と現実がある。理想としては世の中の心理を解き明かすような課題を明らかにすることであるが、現実としては同分野の研究者が困っていることを解決した方がよいかも

いまとこれからの言語処理を考える

講演者: 松本裕治氏（奈良先端科学技術大学院大学先端科学技術研究科／理化学研究所革新知能統合研究センター)
概要:
- 現在のNLPは表現学習や埋め込み表現に関する研究が主だって行われてる。さらに、Attensition machanismの提案によりユーザへの直接的な情報を取得可能になった。また、特定の目的/ドメインに関してEnd-to-Endもモデルも研究されている
- 自然言語を分解して行くと単語、系列、文、文脈といった要素で構成される傾向にあり、これらのどの要素もまだまだ研究の余地があり、発展途上な分野である
- 自然言語はベクトル化して扱われることが多いが、問題点も多くあることを懸念すべきである。一つの単語に対して一つの表現しかできないため、文脈によって単語表現を動的に獲得しなければならない。しかし、本当にベクトル表現でいいのかという疑問も持ち続けるべき
- 自然言語処理の発展の流れを知ることで、研究の促進に繋がる可能性もあるかもしれない。解けてない問題や障害は無数になるので是非積極的に研究に取り組んでほしい

鈴木様が研究を行う上での全体的なアドバイスを教授してくれており、松本様が自身の自然言語処理の研究の経歴を活かし研究の歴史を纏めて踏み込んんだ研究のアドバイスしていただいた印象でした。お二方共に、自然言語処理の新米であり著者にとっても、わかりやすい講演内容となっておりました。ありがとうございました。

ハッカソン

今回、下記の3つのハッカソンが行われました。希望者の中から3-5人のチームに分担され、各々のハッカソンに共同作業で挑む形でした。

Kaggleハッカソン
アノテーションハッカソン
自由テーマハッカソン

Kaggleハッカソン

本ハッカソンは、Kaggleの内容に近い内容でデータ解析を行われており、最終的な予測精度のスコアにて競争が行われました。課題内容としては、2つの質問が同じ質問か否かを分類するタスクであり、既存のKaggleの課題を抜粋/修正した内容となっておりました。このハッカソンがもっとも人数が集まっておりました。やはり、NLPのタスクとして認識しやすさが人気の要因かのように思われます。チーム戦ではあるためチーム内の情報共有は行われていたものの、各々が好きなモデルを学習させて類似判定を行なっておりました。結果としてはRoBERTa+fine-tuneを取り入れたチームが優勝しておりました。どのチームもBERTを意識したモデルを構築しておりましたが、中には特徴エンジニアリングを用いて堅実に問題を取り組んでいるチームもあり、若手研究者の様々なアプローチを拝見しました。

アノテーションハッカソン

本ハッカソンは、チームに別れてアノテーションの品質を競争するハッカソンでした。チームに分かれて学習データをアノテーションして、それを共通の学習スクリプトにてモデルを学習し、テストデータに対する性能スコアで競われるという内容でした。おそらくMLを携わるものが、大事だとわかってはいるものの辛さも同時に理解しているアノテーション作業を、ハッカソンとして取り入れる新しい試みでした。温かみのある人の手でアノテーションをする方とNERエンジンや辞書情報などをもちいて自動でアノテーションをしている方々がいました。結果としては、ある1チームが人の手によるアノテーションにより非常に低いスコアを叩き出した方がいて、必然的にもう1チームが繰り上がったのは、正直笑ってしまいました。寝る間も惜しんでいたので、疲れていたのだろうと著者は思っております。

自由テーマハッカソン

本ハッカソンは、各自自由になにかしらのタスクを解決するという完全に自由のハッカソンでした。こちらは2チームが参加し、両チームともに非常に個性が溢れるタスクを解決しておりました。結果として、優勝したチームは「きららジャンプ」判定機を作ったチームでした。「きららジャンプ」とは、まんがタイムきららシリーズのアニメのオープニングで頻繁に行われる主人公と仲間たちがジャンプするシーンの総称です(チームの発言を抜粋)。写真を入力すると、きららジャンプか否かを判定させるという、プライベート全開のユーモア溢れるプロダクトでした。

f:id:makuramoto1:20190903091551j:plain

懇親会

懇親会がメインのイベントなんじゃないかってくらい盛り上がっていましたね。1日目はホテル内の宴会場で、2日目はサッポロビール園という、著者が愛するサッポロ黒ラベルの生ビールとジンギスカンが振舞われました。研究の話やそれ以外の話も大いに交えながら、みなさま人脈を広げておりました。

二次会も行われており、ホテルの一室にてボードゲームをお酒を酌み交わしながら行われておりました。同じ自然言語を研究するものとはいえ、多種多様な考え方をもった方々による知能戦争がくり広がっておりました。

f:id:makuramoto1:20190905173144j:plain

まとめ

著者は初めてYANSイベントに参加させていただきましたが、交流と知識が深まる場でした。最近の自然言語研究は何が行われているのか、トレンドとなっているのかを体感できました。自然言語関連の研究を悩んでいる方、自然言語の研究をすることは決まったが、何を研究したらいいか迷っている方などは是非参加してみてください。

大いに蛇足

著者としては、北海道といえばジンギスカンとスープカレーでございまして、ジンギスカンは懇親会にて堪能したので、スープカレーを個人的に行ってきました。野菜も肉もすべてが新鮮な食材から生み出されるスープカレーはとても絶品ですね、札幌駅近くの奥芝商店駅前創成寺、ごちそうさまでした！

retty.me

第241回自然言語処理研究会

概要

自然言語処理研究会とは、通称NL研と呼ばれており、情報処理学会傘下で運営されている研究会です。その名の通り自然言語処理に関する研究発表が行われる研究会です。年4回行われており、今回241回目となる歴史ある研究会です。今回はYANSシンポジウムと連続した日程で小樽での開催となり、YANSと同様の内容の投稿も歓迎されていました。 YANSは若手中心でポスターセッションでの活発な議論が行われるのに対し、NL研では国内トップクラスの研究者による深い議論が行われ、それぞれのコミュニティの特色を感じることが出来たと思います。本稿では気になった発表について紹介させていただきます。原稿は情報処理学会の情報学広場で見ることができます。

発表紹介

鏡映変換に基づく埋め込み空間上の単語属性変換

著者: 石橋陽一, 須藤克仁, 吉野幸一郎, 中村哲(NAIST)

word2vecなどに代表される単語埋め込みでは、king - man + woman = queenといった演算が成立することが知られています。このような演算を行うにはkingが性別というカテゴリで男性という属性をもつ単語であることを知らないといけない。（例えばking - woman + manだと計算ができない）こういった知識がなくても属性の変換ができるように著者らは鏡映変換という方法を提案している。実験結果では、性別属性をもつ単語の変換と、性別属性を持たない単語が変換されないことが示されていた。

本研究はYANSでも発表され奨励賞を受賞しており、今回のNL研でも優秀研究賞を受賞されていました。どのように評価するかなど、いろいろ難しい点は多そうですが、非常に今後の発展が楽しみになってくる研究発表でした。

スタイル変換のための折り返し翻訳に基づく事前訓練

著者: 梶原智之(大阪大学), 三浦びわ(株式会社 AI Samurai), 荒瀬由紀(大阪大学)

スタイル変換という、文章の意味を保持しながらスタイルを変換することを目的とした研究です。一例として平易化があり、文章を簡単な表現に変換するというものです。近年言語処理研究ではEncoder-Decoderによる言語生成の発展が目覚ましく、こういったタスクは大量の文対（文章のペア）があればある程度のところまでしかし文対を作るには非常に大きなコストがかかります。そんななかで本研究第一著者の梶原さんは、擬似的に文対を生成することで平易化を行う手法を提案し、今年３月の言語処理学会で論文賞を受賞していらっしゃいます。

本研究は折返し翻訳という手法を用いて少ない分対を用いて大量の文対を生成するモデルを作ることで、スタイル変換を行おうという試みです。折返し翻訳はその名の通り、ある言語Aからある言語Bに翻訳を行った後、その結果をもう一度言語Aに翻訳することです。これによって、意味が等価であり、文法が正しい文章を生成するモデルを学習することを目指しています。そしてこのモデルに対して、スタイルの文対を用いて再訓練し、スタイル変換器を獲得します。結果として、このモデルによって生成された文対を用いることで、様々なモデルで高精度なスタイル変換を行えることを示しました。

本研究はNL研の若手奨励賞を受賞していました。弊社はニュースを扱っておりますが、私はその中で各媒体社に現れる言語のスタイルというものに高い関心をもっています。このような文対データが少なくても実現できる例は、さまざまなトピックに活用できるのではないかと考えています。今回は懇親会で梶原さんと直接議論されていただき、こちらの研究アイデアに対してヒントをいただくこともできました。引き続き、スタイル変換に関して様々な研究を行われていくということで、非常に注目しています。

英日同時翻訳のためのConnectionist Temporal Classificationを用いたニューラル機械翻訳

著者: 帖佐克己, 須藤克仁, 中村哲(NAIST)

この研究では、文の入力がすべて終わる前に翻訳を開始する同時翻訳というタスクを扱っています。このタスクではどの程度入力されたときに翻訳を開始するかということが課題の1つです。既存研究では、翻訳を開始するかという分類モデルを強化学習で解くモデルと、常にk-token待つWait-kというモデルが知られていいます。強化学習で解くモデルは、部分文字列を翻訳するというタスクに最適化しておらず、翻訳精度が甘いという課題があり、 Wait-kモデルはシンプルで強力ですが、長い文章でうまく訳ができないケースが報告されています。

そこで目的言語側の語彙にというメタトークンを追加して、良い訳ができないタイミングではトークンを出力することで適応的に訳出タイミングを決定する方法を提案しています。またLossに入力と出力の系列長さが違うときに用いられるConnectionist temporal classificationを言語モデル向けに工夫して導入し、さらに遅延が大きくなることにペナルティを与えるようなLossも含めてモデルを提案していました。結果として適応的な遅延を実現し、一定の翻訳精度を実現しています。

この研究もNL研の若手奨励賞を受賞していました。同時翻訳というタスクは今回はじめて知ったのですが、一般の翻訳と異なる課題があり、またそれに対して今回のアプローチは非常に直感的で、Loss関数の工夫も含めて非常に面白かったです。

生成型文要約のための抽出性に着目したデータ選択

著者: 長谷川駿, 上垣外英剛, 奥村学(東工大)

生成型文要約は、Encoder-Decoderを用いた要約手法であり、近年注目を集めている。その中で本研究はGenerator-Pointerと呼ばれる手法に注目したものである。 Generator-Pointerとは、その名の通り、単語を生成するか、抽出（Point）するかという機構を用いたものである。要約のような同一言語間における文生成では、sourceの文と同じ単語がtargetに出現することは珍しくない。そこでDecoder側で生成を行うとき、source文から抽出するかどうかを選択し、必要なときはsourceの単語を用いることで精度を高めることを実現している。

この研究はPointする単語の数が多い文だけを使ってモデルを学習しようというシンプルなアイデアによるものです。実際に生成されたようやくモデルは多くの単語を抽出しているのに対して、訓練データには抽出が少ない物が多いそうです。そこで、抽出が少ない訓練データはノイズなのではないかという仮定の元で、抽出率に基づいて訓練データの選択を行い、これまでの研究より少ないデータでより高い精度を実現できることを示しています。

この研究もまたNL研の若手奨励賞を受賞していました。私は生成型要約については以前から関心を持っていて、別の勉強会でサーベイ発表をしたこともあります。今回の成果はシンプルなアイデアで、高い成果を実現されていて驚きました。

参加しての感想

YANS、NL研と続けて参加しましたが、YANSが若手研究者中心にポスター形式でざっくばらんな議論が行われていたのに対し、 NL研では、国内一流の研究者たちによってより深い議論が行われていたのが印象的でした。両方のコンセプトの異なるイベントを経験できたことは非常に良かったです。全体として40名程度の比較的小さな会なので、多くの方と深くコミュニケーションがとれたのもよかったです。次回はいま抱えているテーマの結果を出して、発表者として議論に加わることができればと思います。

おわりに

まずはイベントの運営に関わられた皆様お疲れさまでした。ハイシーズンの北海道での開催であり、また規模が急拡大する中での運営の苦労など多々あるかと思いますが、素晴らしい会に参加することができ、感謝です。引き続き弊社としても、微力ではありますが自然言語処理コミュニティに様々な形での支援を行っていければと考えています。

そしてなにより会議中、研究の議論に付き合って頂いた皆様、そして楽しくお酒を飲ませていただいた皆様に感謝申し上げます。引き続きよろしくおねがいします。