Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

画像の認識・理解シンポジウム (MIRU2019)に参加して来ました!

はじめに

7/29~8/1の4日間、MIRU2019に参加してきたので、発表の概要とシンポジウムについて紹介いたします。 私達はこれまで人工知能学会、言語処理学会、データベース学会の関連イベントを中心に参加してきました。 それは私達の技術の注力領域がニュース記事の推薦システムであり、 ウェブマイニング、自然言語処理、推薦システムといった学術領域が主な領域だったからです。

しかし、近年私達のサービスでも画像が中心となったニュース記事や、動画コンテンツがサービスの中でも重要度を増してきており、 こうしたコンテンツを「最適に届ける」ために、画像処理技術の導入を進めています。 こういった背景から、画像認識・理解領域における技術のキャッチアップと国内の研究動向の把握を目的として、会社としてはじめて、森本と関が参加してきました。

MIRU2019について

f:id:moyomot:20190730134009j:plainf:id:moyomot:20190730134016j:plain

MIRU2019とは2019年7月29日(月)~8月1日(木)の4日間グランキューブ大阪で開催された、情報処理学会コンピュータビジョンとイメージメディア(CVIM)研究会が主催する画像の認識・理解に対するシンポジウムです。 論文投稿後、評価のプロセスをもって口頭発表が選ばれることから、非常に質の高い口頭発表と、萌芽的な研究への議論ができるポスター発表の2つが中心です。 チュートリアル、特別講演、企業イベントなど多岐にわたり、本年は産学連携強化の背景もありシステム論文枠というセッションも新設され企業の取り組みに対する研究発表もありました。 企業イベントではコンピュータビジョン分野で活躍する企業の刺激的な展示等がありました。
臨時託児室が併設され、子連れの方にも配慮したシンポジウムとなっていました。 今年の参加者は1000人の大台を突破しており、非常に勢いのあるイベントです。

f:id:moyomot:20190801181032j:plain

チュートリアル講演

(担当: 関)

初日には4つのチュートリアル講演が行われました。 画像認識・理解シンポジウムのチュートリアルということで、画像に関する技術が中心になるのかと思っていましたが、 より基礎的な技術を説明したものが多く、ハードではありましたが非常に勉強になる時間でした。

Generative Adversarial Networksの基礎・発展・応用

MIRU2019最初のコンテンツはNTT研究所の金子さんによるGANについてのチュートリアルでした。 資料は金子さんのウェブページに掲載されています。

www.kecl.ntt.co.jp

金子さんは画像・音声双方のGANを用いた生成モデル研究に取り組んでおられ、 両方の分野でトップカンファレンスで多くの研究発表を行っておられる、日本のGAN研究のトップランナーの一人です。

発表では基礎としてAR、Flow、VAEなどの深層生成モデルと比較したGANの位置付けを示し、 発展として近年登場した様々なモデルが、どのようなコンセプトで、どのような課題を解決しているのか、 そして応用として、どのようなことができるようになっているのかを説明されていました。 GANの研究は数多くあり、それぞれ「こんな画像が生成できるようになったよ!」というようなわかりやすい成果が強調されがちです。 このように他の生成モデルとの比較や、各手法のコンセプトや発展の流れの全体像を学ぶことができ、 GANという技術の位置付けと研究の動向を大まかにつかむことができる非常に良いチュートリアルだったと思います。 GANについては大まかなコンセプトやいくつかの手法名は知っていたものの、詳しくはよくわからない人間だったので、 このチュートリアルは非常に役立ちました。

近似最近傍探索の最前線

続いて東大生産研の松井さんによる近似最近傍探索についてのチュートリアルです。 資料は公開されています。

近似近傍探索は当社でも関連記事を生成する際に用いられており、探索空間が大きく、高速なレスポンスが求められる際に非常に強力技術であるといえます。

data.gunosy.io data.gunosy.io

発表では近似近傍探索のアルゴリズムを、データ圧縮の有無と対象となるデータ規模から分類し、それぞれの強み・弱みについて丁寧に説明されていました。 またライブラリでの実装の状況や、その使い勝手、世の中での流行り、技術選定のポイント、システム化など実装面についての話も多くありました。 近似近傍探索は使うところは多いものの、その最先端に触れる機会は多くはないため、非常に有意義な時間になりました。

グラフ信号処理〜基礎から応用まで〜

農工大の田中先生によるグラフ信号処理についてのチュートリアルです。 資料は田中先生のウェブページに掲載されています。

tanaka.msp-lab.org

グラフ信号処理処理とは、その名の通り、グラフ上の信号に対するデータ分析のことです。 グラフとはノードとエッジによって表現されるデータ構造のことであり、信号は時間や空間に伴って変化する量のことを指します。 つまり各頂点の値が時間的、空間的に変化するようなデータに対するデータ分析を行う手法を指します。 このようなデータ構造は、例えばセンサネットワーク、交通網、ソーシャルネットワークなど様々な分野で表れています。 こういったデータを例えばフーリエ変換してローパスフィルタをかけてノイズ除去するようなことが、グラフ信号処理では可能になります。

グラフデータの分析や、信号処理の分析自体は知識がありましたが、 その複合分野としてのグラフ信号処理については今回始めて学ぶことができました。 かなり新しい分野ということで、これからどんどん応用事例が出てきそうな気がします。

『視覚は孤立に存在しない!』からグラント獲得スキルまで教えます

初日最後は、阪大の浅田先生によるチュートリアル講演でした。 この講演は技術的なトピックスというより、浅田先生の半生を通じて研究者として生き抜くためのTipsを示すような内容でした。 浅田先生の若い頃の研究や、ロボカップ立ち上げの話、そして近年の研究活動などを面白く紹介しており、 ここまで3件のハードなチュートリアル講演で疲れた頭で聞くには非常にちょうどよい内容だったと思います。

特別講演

(担当: 森本)

f:id:moyomot:20190801181340j:plain

7/31の特別講演ではGunosy創業者 関、吉田の恩師である松尾豊教授による「人工知能における画像認識の重要性」という講演が行われました。 Deep Learningの歴史を振り返り、最近の研究(下記リンクの参照)の紹介からはじまり、

arxiv.org

deepmind.com

arxiv.org

Deep Learningの重要性について説明されました。例えば、Deep Learningを利用して作成したモデルでは一定の予測ができる。一方で多数のパラメータ(高次元)を使用しているため、そのモデルについて人間の頭では理解することができない。そこから「理解するとはなにか」についての洞察を紹介されました。特に面白かったのが知能の全体像を「動物OS」と「言語アプリ」の2階建てと表現していたことです。身体性に関わる機能を動物OSが担当し、その上に思考に関する機能を言語アプリが担っていると現実世界を抽象化して説明されました。最後にDeep Learningはエンジンやトランジスタ、インターネットなどの数十年に1度の技術であることを解説され、Deep Learningとインターネットの歴史を比較し、時価総額の高いインターネット企業が誕生したようにDeep Learningをビジネスの基幹とする企業が増えていき、そこに日本からも世界を代表する企業が誕生してほしいというメッセージを伝えました。

招待講演

招待講演ではCVPR、ICCVなどの主要な国際学会で発表されたコンピュータビジョンの研究についての発表が行われます。 いくつか気になった発表を紹介します。

Video Motion Capture from the Part Confidence Maps of Multi-Camera Images by Spatiotemporal Filtering Using the Human Skeletal Model

  • 著者: Takuya Ohashi, Yosuke Ikegami, Kazuki Yamamoto(Univ. of Tokyo), Wataru Takano(Osaka Univ.), Yoshihiko Nakamura(Univ. of Tokyo)
  • 紹介者: 森本

複数のカメラから人物の高精度なモーションキャプチャを行う研究です。 研究では複数台のカメラを同期させ、異なる方向から対象となる人物の映像を録画しモーションキャプチャを行っていました。関節の存在確率を計算し、骨格の構造、運動の連続性を考慮することで高精度のモーションキャプチャを実現していました。 実際にデモ動画を見ましたが非常にスムーズでリアルタイムでのモーションキャプチャの実現に驚きました。

ieeexplore.ieee.org

Strong-Weak Distribution Alignment for Adaptive Object Detection

CVPR2019で発表されたドメイン適応に関する研究です。 第一著者がM2のときの成果で、現在ボストン大学の博士課程に在籍中とのこと。 ドメイン適応とは、転移学習の一種で、十分な教師ラベルをもつデータセットで学習した結果を活用して、十分な教師ラベルがないデータセットでの精度を向上させようという試みです。 2つのデータセットにおけるサンプルの分布を近づけるように敵対的な学習を行う手法がよく知られています。 著者が所属していた東大原田研ではドメイン適応において近年多くの成果を出しています。

この研究ではオブジェクト検出におけるドメイン適応において、低い層で強いAlignmentを、高次の層で弱いAlignmentを取るアーキテクチャを提案しています。 画像のクラス分類と異なりオブジェクト検出では、オブジェクトが配置されている背景や、オブジェクト同士の組み合わせが複雑なので、強いAlignmentを取ることが困難です。 そこで、低い層をテクスチャや色などのLocalな特徴量、高次の層をオブジェクトの特性を示すGlobalな特徴量をもつ分布だと仮定し、 Localな低い層では強くAlignmentをとり、Globalな高次の層では弱くAlignmentを取ることで、 テイストが違うデータセットや、オブジェクトでも高い精度でドメイン適応によるオブジェクト検出ができることを示しました。

私自身画像認識、ドメイン適応についてはわからないことが多いため、手法の詳細については理解出来ていない部分が多いのですが、 コンセプトに納得感があり、結果として大きく異なるデータセット間で高い精度の検出ができていることに驚きました。 時間を見つけてこの論文を理解できるように周辺の研究も含めてサーベイをしてみたいと思います。

オーラル発表

MIRUのオーラル発表は、多くの投稿の中から評価のプロセスを経て選定されており、非常に質が高い発表が多い印象でした。 こちらでも気になった発表を紹介します。

不確実性の導入によるAttention Branch Networkの信頼性の向上

  • 著者: 塚原 拓也, 福井 宏, 平川 翼, 山下 隆義, 藤吉 弘亘(中部大)
  • 紹介者: 関

Attention Branch Network (ABN)はCVPR2019で提案されたアーキテクチャで、こちらはその研究グループの発表です。 ABNは招待講演セッションでの発表も行われていました。 ABNはCNNにAttentionを明示的に学習するAttention Branchを加えたアーキテクチャです。 画像分野におけるVisual ExplanationのためのAttentionとしてはClass Activation Mapping (CAM)が知られていますが、CAMはVisual Explanationのための手法であり、 可視化は可能であるものの、精度自体は低くなってしまうことが知られていました。 ABNではAttentionMAPのみ予測との、AttentionMAPを用いた予測のマルチタスク学習で明示的に学習することによって、 Visual Explanationと精度の向上の療法を実現したアーキテクチャです。

本発表では予測における不確実性を考慮したBaysian ABNを提案しています。 不確実性を考慮したNeural NetworkにはBayesian Neural Networkがありますが、CNNで採用するには最適化が難しいという問題があります。 その対策としてMonte Carlo dropoutという手法が提案されており、Bayesian ABNでもそれを用いています。 Bayesian ABNでは予測への不確実性が出力されるのを利用し、 Attention Branchによる予測と、Perception Branchによる予測のうち、不確実が小さいほうを選択するようにしています。 結果として、提案手法であるBayesian ABNが様々なデータセット、様々なアーキテクチャにおいて高い精度を示していました。

Temporal Distance Matrices for Workout Form Assessment

  • 著者: Ryoji Ogata, Edgar Simo-Serra(Waseda Univ.), Satoshi Iizuka(Univ. of Tsukuba), Hiroshi Ishikawa(Waseda Univ.)
  • 紹介者: 関

筋トレ、特にスクワットのフォームを改善することを試みた研究です。 著者の筋トレに対する情熱を感じることができる良い発表でした。 様々なカメラの向きに対応したスクワット動画データセットを構築し、スクワットのフォームに対するクラスを7クラスにラベル付けします。 7つのクラスは6つのフォームが悪いケースとその理由、1つの良かったフォームで構成されています。

様々な環境、様々な人によってデータが構築されることを想定するので、その影響を最小限にするために、ポーズ推定をした結果から距離行列を求めて予測することで、 人や服装の違い、照明などの環境の違いにロバストな予測をすることを試みています。 結果としては、動画を入力するより距離行列を用いたほうが良いという結果になりました。

システム論文セッション

システム論文セッションは今年度から新設されたセッションで、研究としての新規性より、システムとしての完成性、実用性、信頼性を重視して評価するセッションです。 企業のシステムに関する発表や、共同研究に関する発表が多く行われていました。 いくつか気になった発表を紹介します。

C2Cマーケットプレイスにおけるビジュアル検索システム

  • 著者: 山口 拓真, 中河 宏文, 千葉 竜介, 荒瀬 晃介(メルカリ)
  • 紹介者: 森本

メルカリさんの写真検索機能のバックエンドの仕組みに関する研究発表です。 AWS、GCPの両方を使用するマルチクラウド構成、ML Platformとしてデータの処理の流れ、そしてコンテナオーケストレーションツールKubernetesを使用した構成について紹介されました。

  • 著者: Takuma Yamaguchi, Kosuke Arase, Riku Togashi, Shunya Ueta(Mercari)
  • 紹介者: 森本

こちらもメルカリさんの発表で、画像検索の仕組みについての研究発表でした。 クエリ画像から特徴抽出を行いインデックスを構築するという全体像の説明から、ファッション画像の検索では人の写っていない衣服画像のみをユーザーに返すために特徴変換を工夫した仕組みについて解説が行われました。

インタラクティブ、デモ、企業展示

ポスター発表は熱気に包まれ熱い議論が繰り広げられていました。
面白かったのは「お立ち台」という仕組みです。運営の方が任意のポスターへのぼりを持ち込み意図的に議論を発展させる演出を実施しました。 これによりお立ち台ポスターの周辺は大変な人だかりができ、否が応でも議論が白熱します。

f:id:moyomot:20190801182144p:plain

おわりに

今回はじめてMIRUに参加しましたが、勉強になる内容が多く非常に有意義な時間を過ごすことができました。 私達は画像を利用した試みをまだ始めたばかりですが、来年のMIRUではなにか発表ができるようにいろいろと進めて行きたいと思います。