[論文紹介] 教師なし深層学習と腹側視覚経路

最終更新日: 2020年6月22日

今回は『Unsupervised Neural Network Models of the Ventral Visual Stream』という論文の紹介をしたいと思います。

emoji-pushpin この論文はプレプリントであり、ピアレビューによる保証はありません (2020/07/11)

Link

論文: bioRxiv Link
コード: GitHub Link

Abstract

  • 腹側視覚経路の反応パターンはニューラルネットで説明できますが、従来の教師あり学習は乳児の学習法とはかけ離れています。
  • 最新の教師なし学習によるパターンは、神経生理学的に一貫性のあることがわかりました。
  • 半教師あり学習では、人の認識エラーが再現できました。

Introduction

腹側皮質経路では、受容野が広がっていくことで、低次の特徴と高次の特徴を階層的に捉えることができます。これによって、霊長類のオブジェクト認知が実現されます。

近年、深層畳み込みニューラルネットワーク (DCNN) によって、オブジェクト認識に最適化された構造が腹側皮質経路と類似するということがわかってきました。このような例は、聴覚皮質・運動皮質などでもみられています。目標駆動形モデリング (goal-driven modeling) は、感覚運動システムのモデリングに適しているわけです。

一方、ImageNetなどの大量のラベルで学習する方法は、現実的な乳児の学習法とはかけ離れています。そのため、生物学的発達と学習の実際のモデルとしては乖離があります。このギャップは、優れたパフオーマンスを示す教師なし学習モデルで埋められる可能性があります

教師なし学習モデルはスパースオートエンコーダーに始まり、変分法を使ったオートエンコーダーが主流となってきました。ここ2年間では、対象的埋め込み (contrastive embedding) といった方法によって、パフォーマンスが教師あり学習モデルに追いついてきました(図1)。この方法では、特徴量空間からn次元球空間に投射する関数ffを、似た特徴量が近づき、似てない特徴量が離れるように学習します(距離学習)

f:Rk×kSnf: \R^{k \times k} \rightarrow S^n

figure1.jpg

図1 対象的埋め込み(Chengxu et al. (2020) より引用)

Methods & Results

教師なしモデルと神経信号

いくつかの教師なしモデルをマカクザルの神経信号(アレイ信号)にフィッテイングさせました。先行研究に基づいて神経信号とモデルの相関を計算し、最良のパフォーマンスを実現しました。

  • Untrained(教師なしベースライン)
  • Auto-Encoder
  • PredNet (Lotter et al. (2016))
  • Depth PredNet
  • CPC (Contrastive Predictive Coding; Oord et al. (2018))
  • Colorization (Zhang et al. (2016))
  • Relative Position (Doersch et al. (2015))
  • CMC (Contrastive Multiview Coding; Tian et al. (2019))
  • Deep Cluster (Caron et al. (2018))
  • Instance Recognition (Wu et al. (2018))
  • SimCLR (Chen et al. (2020))
  • Local Aggregation (Zhuang et al. (2019))
  • Supervised(教師ありベースライン)

figure2.jpg

図2 モデルと神経信号の類似性(Chengxu et al. (2020) より引用)

V1では、すべての教師なしモデルが、教師ありモデルと同等になりました。ITでは、対象的埋め込みモデルのみが、教師ありモデルと同等になりました。また、SOTAを達成した Local Aggregation がここでも最高のパフォーマンスとなりました。

さらに層別のパフォーマンスでは、V1では初期層、V4では中間層、ITでは上位層の類似性が高いという、解剖学的に階層的な一貫性もみられました(図2c)。また、定性的な評価でも神経生理学的な一致がみられました。


現実的な発達認知モデル

SAYCamという乳児の1人称動画のデータセットを用いて、ImageNetとは違いノイズの多く現実的なデータでの教師なしモデルを評価しました。ここでは、Local Aggregation を動画認識に拡張した Video Instanace Embedding (VIE; Zhuang et al. (2019)) を実装しています。VIEは、PredNetよりも大幅に優れていました(図3)。したがって、時空間的な深層距離学習は、自然な動画情報から霊長類レベルの表現学習を達成できると示唆されます

figure3.jpg

図3 現実のデータの教師なしモデル(Chengxu et al. (2020) より引用)

教師あり以上の類似度となっていますね…!すごい!

半教師あり学習

乳児の発達過程では、ラベルのない視覚的学習の後に、親や環境からのラベルのある学習があると考えられており、最近発展した半教師あり学習との関連が考えられます。ここでは、最新の半教師ありモデルである、Local Label Propagation (LLP; Zhuang et al. (2019)) と Mean Teacher (MT; Tarvainen et al. (2017)) を実装しています。ある割合でラベルなしとした ImageNet で学習させたときのエラーパターンと、実際に人が認識エラーとしたパターンを比較しました。

figure4.jpg

図4 半教師ありモデル(Chengxu et al. (2020) より引用)

半教師ありモデル(図4d 緑)は、教師ありモデルより多少パフォーマンスが劣っていました。一方、半教師ありモデル内では、少ないラベルで学習したモデルより対照的埋め込みをしたモデルの方の一貫性が高く、距離学習の妥当性が示唆されます。

Discussion

この研究の貢献は次の4点です

  • 対照的埋め込みを用いた教師なし学習モデルは、霊長類の腹側視覚経路の神経信号を正確に説明・予測できます。
  • このモデルは、視覚系の性質を再現します。
  • 現実的な動画データにも適用可能です。
  • 半教師付き学習によって行動の改善がみられます。

対照的埋め込みは、普遍的な分類を助ける統計手法を効果的に発見できます。また、ドメイン固有の事前知識が必要ないため、他の感覚運動ドメインでも適用できる可能性があります。

一方、この方法は神経ダイナミクスまでは捉えることができていません。また、逆伝搬は生物学的に妥当とはいえないので、最適化方法・モデル構造を更に生物寄りにする必要があります。さらに、今回用いた SAYCam は乳児の視覚体験としては量的に不十分な可能性があります。

教師なし学習は精度が上がるほど教師あり学習に近づきます。これらの違いをさらに研究する必要がありそうです。また、発達過程に沿った長期的なダイナミクスまで考える必要もあります。これには、発達神経学的な実験が重要です(in-silico development)。


Reference
  • Zhuang, C., Yan, S., Nayebi, A., Schrimpf, M., Frank, M., DiCarlo, J., & Yamins, D. (2020). Unsupervised Neural Network Models of the Ventral Visual Stream. bioRxiv, 2020.06.16.155556. doi: url