Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

自然言語処理×ジャーナリズムな研究まとめ ~ EMNLP2017 Workshopより ~

いつものやつ

この記事は Gunosy Advent Calendar 2017、18日目の記事です(AoE基準ならセーフ)。

qiita.com

はじめに

データ分析部研究開発チームの関です。 年末に行われるでんぱ組.incの復活ライブにむけピンチケ現場でリハビリをしています。

Gunosyではこの春から研究開発チームを立ち上げ、当社の取り組みについて学会での研究発表を積極的に行っております。 現在はクリックベイト対策を大きな目的として、ニュースとユーザ行動の関係についての分析を中心にしており、 今年はテキストアナリティクスシンポジウム、ウェブサイエンス研究会で研究発表を行い、また共同研究も開始しました。 来年も引き続き取り組みを進めながら、査読付き論文誌や国際会議にもチャレンジしていく予定です。

ci.nii.ac.jp

internet.watch.impress.co.jp

gunosy.co.jp

当社の試みは自然言語処理とジャーナリズムに関する研究であるといえます。 先日行われた自然言語処理のトップカンファレンスの1つEMNLPではNatural Language Processing(NLP) meets Journalismというワークショップが開催され、19件の研究発表が行われました。

http://nlpj2017.fbk.eu/nlpj2017.fbk.eu

そこで本エントリでは19件の研究すべての概要を紹介します。 自然言語処理とジャーナリズムという分野において、どのようなことが課題として認識されており、どのような取り組みがなされているのかを知っていただき、 興味のある研究に出会うきっかけとしていただければと思います。

各研究の分類

今回のワークショップで報告された研究を以下のように分類して紹介します。

  • ニュースの価値に関する研究
  • ニュースとユーザとの関係に関する研究
  • ニュースの分類に関する研究
  • ジャーナリズムに関する研究
  • ジャーナリスト・メディアを補助するためのツール・可視化に関する研究

以降で、図表は特に断りのない限り該当論文からの引用です。 各論文のPDFはこちらからダウンロードできます。

ニュースの品質に関する研究

ニュースの価値に関する研究とは、FakeNewsやクリックベイトを特定するような研究を含みます。 NLP meets Journalismは2016年につづいて2回目ですが、1回目ではFakeNewsというキーワードは登場していませんでした。 ここ1年で新たに登場した分野であるといえます。

Predicting News Values from Headline Text and Emotion

Maria Pia di Buono; Jan Šnajder; Bojana Dalbelo Basic; Goran Glavaš; Martin Tutek; Natasa Milic-Frayling. [pdf]

ニュースの価値を推定したいという論文。 データセットはSemEval-2007のTask14で、大手ニュースサイトの見出しに、6つの感情(Anger, Disgust, Fear, Joy, Sadness, Surprise)が付与されている。 このデータセットにNews Valueのラベルを付与している。News Valueの種類は下記論文を参考にしている。

http://www.tandfonline.com/doi/full/10.1080/1461670X.2016.1150193

この論文では15のNews Valueを定義していた。 その中からアノテーションを行うには複雑だという理由でAudio-Visuals, News Organization Agendaの2つを、アノテーションを行った結果、ラベルが付けられた数がすくなかったのでExclusivity, Relevanceの2つ除いた11の項目を利用する。 項目はBad News, Celebrity, Conflict, Drama, Entertainment, Follow-up, Good news, Magnitude, Shareablity, Surpurise, Power elite。

f:id:Y_sekky:20171219151858p:plain

テキスト情報と感情ラベルからNews Value各項目を2値分類で予測する。 FeatureはGoogle Newsで訓練したskip-gram-with-negative-samplingの埋め込みベクトルと、SemEvalの感情ラベル。 CNN-for-NLPを用いて、最終層で感情ラベルを結合。SVMと比較。 結果として感情ラベルを含めると精度が向上すること、CNNのほうが精度が高いことを示した。

Incongruent Headline: Yet Another Way to Mislead Your Readers

Sophie Chesney; Maria Liakata; Massimo Poesio; Matthew Purver. [pdf]

内容と見出しが一致しない問題に対するレビュー。 具体的な手法の話はなく、現在起こっている問題と、NLPタスクとの関連、現在存在しているデータセットについてまとめている。

Deception Detection in News Reports in the Russian Language

Dina Pisarevskaya. [pdf]

FakeNews抽出をロシア語でやる。 48のトピックで、各トピックにTrue/Falseを同数にした174記事をコーパスとして用意し、SVMで分類を行った。 手法として目新しいところは特にないが、すでに公開されている取り組みの多くは英語のものであり、 ロシア語でやってみて、どのような課題があるかを述べるという内容。

Fake News Detection using Stacked Ensemble of Classidiers

James Thorne; Mingjie Chen; Giorgos Myrianthous; Jiashu Pu; Xiaoxuan Wang; Andreas Vlachos. [pdf]

FakeNewsChallengeのデータを使った取り組み。Leaders Board 11位のチーム。 5つの異なる分類器を作ってBoostingをしている。

From Clickbait to Fake News Detection: An Aproach based Detecting the Stance of Headlines to Articles

Peter Bourgonje; Julian Moreno Schneider; Georg Rehm. [pdf]

FakeNewsChallengeのデータセットを使った取り組み。Leaders Board 9位。 タイトルと本文の類似度を計算し、それがしきい値以上かどうかで判断するシンプルなアプローチを採用。 (当社の試みと方向性は一致) FakeNewsChallengeのunrelatedを予測するタスクとして、 類似度を計算する手法と、それ以外のラベルを予測するモデル、それらの重み付けモデルによって検証した。

ニュースとユーザとの関係に関する研究

ニュースの閲覧や、ニュースに対するコメントといった、ニュースとユーザの関わりをモデリングした研究。

Predicting User Views in Online News(Best Paper)

Daniel Hardt; Owen Rambow. [pdf]

オンライン上でのニュース閲覧行動の分析。 使ったのはユランズ・ポステンというデンマークの日刊紙のオンラインポータルサイトのデータ。 アクセスログにはページIDと、ユーザがもし登録していればユーザID、リファラーがある。 2015年7月のデータで、64,401記事と213,972,804件の閲覧データがある。

予測タスクは、binsを2~4にして、topになるものを予測する分類タスク。 つまりそのニュース記事は閲覧数が上位50%か?,上位33%か?上位25%か?を予測している。 手法はロジスティクス回帰。 素性は、ニュースの使い方と、テキスト情報の使い方の組み合わせ。 タイトルのみ、タイトルと概要、本文、タイトルと概要と本文の4パターン。 テキスト情報はBag of Words, Word Vector(平均を使う), Text Length

結果として、Textの長さやWord Vectorを使うことは大きく寄与しなかった。 (一方でテキスト数が5万程度と大きくないことや、ただ平均を使ったことが悪影響を及ぼしている可能性がある) また仮説としては本文はユーザから見えないので、クリック数には寄与しないと考えていたが、寄与していた。

Improved Abusive comment Moderation with User Embeddings.

John Pavlopoulos; Prodromos Malakasiotis; Juli Bakagianni; Ion Androutsopoulos. [pdf]

RNNを用いてユーザのモデリングをし、危険なコメントをするユーザを特定・予測したい。 そこでコメントがリジェクトされるかどうかをRNNで予測するというタスクを考える。 コメントをRNNでモデリングしたEOSの隠れ層と、ユーザ情報を使って、リジェクトされるかをモデリング。 ユーザを埋め込みベクトル化することで、コメントのみの場合より予測精度が僅かに向上した。 またその埋め込みベクトルが、ユーザのリジェクト率を表現できていることを確認した。 リジェクトされたコメントを書いた割合の高低でユーザを分類し、予測に用いる手法を提案していたが、埋め込みベクトルの表現力が高いことから、埋め込みベクトルにしたほうがより良い結果になっていた

Using New York Times Picks to Identify Constructive Comment

Varada Kolhatkar; Maite Taboada. [pdf]

ニュースについたコメントの中からconstructiveなコメントを特定したい。 NYTではNew York Times Picksという良いコメントを掲載するサービスがある。 このコメントを正解データとし、負例にはヤフーニュースのコメントデータで、ラベル付されているものを用いた。 ヤフーニュースのコメントデータはスレッドに対して、constructive or notをラベル付したものであり、 unconstructiveなスレッドの中身はunconstructiveなコメントであると仮定している。 SVMを使ってFeatureをいろいろ変えたときの精度の変化を確認した。

ニュースの分類に関する研究

ニュースの分類の方法に関する研究。単純な分類アルゴリズムではなく、 ニュース特有の課題や、構造を反映した仕組みを提案している。

Unsupervised Event Clustering and Aggregation from Newswire

Swen Ribeiro; Olivier Ferret; Xavier Tannier. [pdf]

ウェブからクロールしたニュースを教師なしでクラスタリングするために、2段階の方法を提案している。 まずAFP Newsのような通信社のニュースでクラスタリングを行う。 次にそのクラスタに対して、ウェブからクロールしたニュースを割り当てる。 これによって直接ウェブからクロールしたニュースをクラスタリングするより、正確にクラスタリングを行えることを示した。

A News Chain Evaluation Methodology along with a Lattice-based Approach for News Chain Construction

Mustafa Toprak; Özer Özkahraman; Selma Tekir. [pdf]

ニュースの相互関係の良さ評価するための評価指標として提案されている”minedge”と”dispersion coefficient”について、 共通のデータセットと様々な手法で、その特性を評価している。

ジャーナリズムに関する研究

コンピュータサイエンスの研究者と、ジャーナリズムの研究者が共同で書いているケースが多い。 ジャーナリズムの問題に対して言語データを使ったアプローチを提案している。

Tracking Bias in News Source Using Social Media: the Russia-Ukaine Maidan Crisis of 2013-2014

Peter Potash; Alexey Romanov; Mikhail Gronas; Anna Rumshisky; Mikhail Gronas. [pdf]

Social Mediaを用いてロシアのウクライナ効きにおける報道バイアスを検証する取り組み。 ダートマス大ロシア学部の人が著者に入っている。 ロシア最大のSNSであるVKontakteのデータを使用。 アンチマイダンとユーロマイダンそれぞれの最大のグループをseedとし、 収集した他のグループの管理者がどちらのグループに所属しているかかを元に、ラベル付をした。 47のユーロマイダンのグループ、2,445,661人のユーザ、51のアンチマイダンのグループ、1,942,918人のユーザを収集。 それぞれのグループから5000ずつリンクを収集し、どちらのグループに投稿されたリンクかを当てるタスクとして、その予測結果を分析した。

Comparing Attitudes to Climate Change in the Media using sentiment analysis based on Latent Dirichlet Allocation

Ye Jiang; Xingyi Song; Jackie Harrison; Shaun Quegan; Diana Maynard. [pdf]

イギリスメディアの気候変動に対する姿勢を感情分析を使って比較したい。ジャーナリズムの研究者が著者に含まれている。 LexisNexisからイギリスの主要4メディアの記事で、Climate Changeが最低3回出現する記事を対象とした。 トピック数は20としてLDAを適用。 感情分析にはSentiWordNet(日本語で言う感情極性辞書にあたるもの)

各トピックごとの感情について分析。

f:id:Y_sekky:20171219131658p:plain
コペンハーゲンサミットに関する各紙の感情値

図はコペンハーゲンサミットに関する各紙の感情データ。

分析自体はなんか良くブログで見るレベルの解析ではある(LDAでトピック作って感情極性辞書適用しただけ) 一方でジャーナリズムの研究者と共同で研究し、意味付けを行っている点はおもしろい。

‘Fighting’ or ‘Conflict’? An Approach to Revealing Concepts of Terms in Political Discourse

Linyuan Tang; Kyo Kageura. [pdf]

東大の図書館情報学研究室、影浦先生の取り組み。影浦先生はメディア研究者 目的はファクトチェック。 政治演説の語義曖昧性分析を行い、言葉の一貫性を分析する。 安倍首相の講演の中で”とは”, “と定義”という発言と共起する語を分析する。 「積極的平和主義」「存立危機事態」「立憲主義」を分析し、 「存立危機事態」という言葉の使い方に一貫性がないことを示したと主張している。

An NLP Analysis of Exaggerated Claims in Science News

YINGYA LI; Jieke Zhang; Bei Yu. [pdf]

科学論文がニュースになるときに不正確になる問題に対して、 科学論文とニュースの分類モデルを作り、 その特性を分析することによって、科学論文とニュースがどのように異なるのかを明らかにする試み。

ジャーナリスト・メディアを補助するためのツール・可視化に関する研究

可視化やイベント検出が多い。 筆者の個人的関心は薄いので、簡単な紹介に留める。

What to Write? A topic recommender for journalist

Alessandro Cucchiarelli; Christian Morbidoni; Giovanni Stilo; Paola Velardi. [pdf]

イベント検出、クラスタリング、特徴語のアラインメントなどを通して、 ジャーナリストに何を、なぜ書くべきかを推薦するシステムの提案

Language-based Construction of Explorable News Graph for Journalisit

Rémi Bois; Guillaume Gravier; Eric Jamet; Emmanuel Morin; Pascale Sébillot; Maxime Robert. [pdf]

ニュースを言語ベースでグラフ化し、イベントに関係するニュースを、検索し可視化できるツールの提案。

Storyteller: Visual Analytics of Perspectives on Rich Text Interpretations

Maarten van Meersbergen; Piek Vossen; Janneke van der Zwaan; Antske Fokkens; Willem van Hage; Inger Leemans; Isa Maks. [pdf]

ニュース特有のデータ構造定義して、様々な可視化をできるようにした話

Analyzing the Revision Logs of Japanese Newspaper from Article Quality Assessment

Hideaki Tamori; Yuta Hitomi; Naoaki Okazaki; Kentaro Inui. [pdf]

ニュースの校正履歴を分析した話。朝日新聞と東北大乾研の共同研究。

Semantic Storytelling, Cross-lingal Event Detection and other semantic Services for News Content Curation Dashboard

Julian Moreno-Schneider; Ankit Srivastava; Peter Bourgonje; David Wabnitz; Georg Rehm. [pdf]

編集者が用いるための、多言語におけるイベント検出&可視化を行うダッシュボードを作った話。

おわりに

以上、NLP for Journalismの研究発表まとめでした。 ここの研究が目覚ましい成果を上げているわけではありませんが、 現在のNLPとジャーナリズムの関係性や、今後の課題を考える上で非常に重要なワークショップであると思います。

ウェブの時代になり、誰もが情報を発信できるようになった結果、人間がニュースをすべて読んでフィルタリングすることは不可能な時代になりました。 その中で、世の中の動きを知るためには自然言語処理のような技術を用いて計算機を活用していくことが不可欠です。 またウェブの双方向性によって、ニュースを語る上ではユーザとの関係性は無視できないものになってきました。 ユーザとの関係性を分析し、システムによってよりよいものにしていくことは、これからのメディアにとって重要だといえます。

一方でニュースの世界にはジャーナリズムという重要な蓄積があり、計算機科学の知見のみではわからないことが多くあります。 ジャーナリズムの研究者と、計算機科学の研究者が協調して成果を作っていくことはこれからますます重要になってきます。 加えてサービス事業者が、データと知見を提供する形で関わっていくことが今後必要になってくるでしょう。

f:id:Y_sekky:20171219153548p:plain

当社は今後もサービス提供・研究開発を通じて、現代の情報環境を良くしていくような取り組みを行い、発信していくことを目指していきます。