Sideswipe

情報工学、計算論的神経科学など、真面目なこと書くブログ。お仕事の話は Twitter: @kazoo04 にお願いします。

大脳基底核のモデル

これは 人工知能アドベントカレンダー の22日目の記事です。

大脳基底核(basal ganglia)は古くは運動制御に関わっていると考えられていましたが、今では運動制御はもちろんのこと、感情、学習など幅広い部分で主要な働きをしていることがわかっています。大脳新皮質は種によってかなり大きさや構造が異なりますが、大脳基底核と小脳(特に小脳)は外観こそ大きく異なるものの、爬虫類や鳥類でも似たような構造で似たような役割を果たしていると考えられています。一般に、知能・思考の中枢といえば大脳新皮質が挙げられますが、AGI的には大脳基底核と後日触れる小脳のほうが注目すべき存在だといえます*1

大脳基底核のおさらい

大脳基底核アドベントカレンダー5日目で触れたので、併せてご覧ください。

kazoo04.hatenablog.com

特に役に立ちそうな図を再掲します。

f:id:kazoo04:20151123023626p:plain
大脳基底核は脳のほぼ中心部にあり、丸い形をしたレンズ核(lentiform nucleus)から尾状核(caudate nucleus)が伸びるという特徴的な形をしている。また、大脳の他の部位同様、左右に1つずつある。

f:id:kazoo04:20151123031537p:plain
脳の冠状断面。赤い矢印は興奮性、青い矢印は抑制性。視床大脳新皮質大脳基底核視床というループが存在する。

大脳基底核は何をしているか

大脳基底核の主要な働きについては、強化学習(reinforcement learning)をしているのではないかという説が比較的多いようです。

kazoo04.hatenablog.com

というのも、大脳基底核が報酬予測の誤差を情報として扱っている間接的な証拠が見つかったため*2で、また強化学習の「どうするのが正解かはまったくわからないが、試行錯誤して自分にとって得になるような行動を見つけ出す」というコンセプト自体、動物の極めて基本的な能力の一つとよく合致していますから、そういう意味でも自然な発想だといえます。

他にも、大脳基底核が強化学習を行っているという説を補強するものとして、以下のようなものが挙げられます。

  • 視床から情報を受けとり、大脳新皮質に投射して、その結果を受け取り、さらに運動野に投射するようなネットワークがあるため、行動選択や出力の度合いを決める上で適した位置にある
  • 大脳皮質のほぼすべてから入力を受け取っていて、様々な情報を総合的に見ることができる
  • 快・不快に対して反応するニューロンがあることがすでにわかっている
  • 扁桃体側坐核など、快不快、恐怖、嗜癖に重要な部位と直接接続されている
  • 上記に加えて、快・不快そのものではなく、「これくらいの報酬が受け取れるはずだ」という予想と、実際に受け取った報酬の差を表現していることがわかっている

特に重要なのは Schultz の研究の「報酬予測誤差を表現している」という点で、まさにこれは強化学習*3そのものです。

改めて書くと、大脳基底核の主な働きは、大脳新皮質で処理している情報と、視床に入力されてくる外部の感覚と、内的な好き嫌いや感情を勘案して、自分にとって一番良い結果があるような行動*4はなにか?を計算し、それに従って行動を制御している、と考えられます。

f:id:kazoo04:20151214011609p:plain

大脳基底核のモデル

kazoo04.hatenablog.com以前解説したように、一口に強化学習といっても、実際のアルゴリズムは様々です。大脳基底核が強化学習をしているのなら、その具体的なアルゴリズムはなんでしょうか。これについては様々な理論がありますが、よく見られるのは以下の2つです。

  • Actor-Critic
  • Q学習

Actor-Critic

Actor-Criticの良いところは、ひとつは選べる行動が連続値をとるとき(わかりやすく言えば無数にあるとき)でも自然に強化学習を扱える点です。動物が取れる行動は無数に存在しますが、Q学習はすべての状態と行動の組を覚えておかなければならないので、とてつもない数のニューロンがないと成り立たない、というわけです。その点Actor-Criticは有利です。

もうひとつは、Actor-Criticはその名のとおりActorとCriticの2つのモジュールで成り立っており、前者は誤差信号を計算し、後者は誤差が0になるように行動を選択していきます。この2つに分かれているというところが大脳基底核と対応するのに都合が良いのです。Actor-Criticを採用したモデルとしては、古いものでは Houk(1995) らの研究があります*5

Q学習

Q学習もQ学習なりの根拠があります。
Samejima らの研究では、*6生理学的にActor-CriticではなくQ学習のほうが適切だと思われる結果がでています。

とはいっても、Q学習は「状態」と「行動」のペア、つまり「こういう状態だったら、何をするべきか」の表を持っておかないといけないため、状態と行動が取れるパターンが多くなるとこのペアが爆発的に増えてしまうのであまり現実的でないという致命的な問題があります。ここはどう考えればよいでしょうか。

実は Deep Learning の研究で同じ問題に取り組んでいるものがあります。

Deep Q-Network (DQN)

DQN は Deep Mind(現 Google)が開発したアルゴリズムで、ブロック崩しパックマンをやらせると、最初はうまくできないものの人間が教えること無く、試行錯誤のみでうまくプレイできるようになるというもので一時期注目されました。

DQN以前にも、Q学習+ニューラルネットワークという手法はあったので、まずこちらから説明しましょう。

Q学習+ニューラルネットワーク

Q学習は、状態と行動のペア(これをQ(s,a)と表現する)をすべて保持しないといけないので組み合わせパターンが爆発してしまう問題がありました。そこでこのペアを厳密にすべて保持するのではなくて、なるべく情報を保ったままニューラルネットワークで圧縮することを考えます*7

Q(s,a)を近似できるニューラルネットワークがあれば、わざわざすべてのペアを保存しなくてもニューラルネットワークに問い合わせれば近似値を出力してくれるので、ネットワークを保持するだけのメモリがあればこと足ります。

この手法というかテクニックは割と古くからあり、筆者も楽天のAIコンテストでQ学習+ニューラルネットワークのプログラムで出場したことがあります。

Q学習 + Deep Learning

Deep Learningは従来の3層程度のニューラルネットワークを多層化し、より高度な情報表現ができるようになったものだということは、過去の記事からすでにご存知かと思います。

というわけで、Q学習においても従来バックプロパゲーションを使っていた部分をDeep Learningに置き換えたら性能が上がりそうだというアイディアは比較的自然なものです。

これを今までの話と照らし合わせると、大脳基底核大脳新皮質に情報を送り、また送り返されてきた情報を処理していることがわかっています。加えて、大脳新皮質は(特に視覚野は)Deep Learningを使ったモデル化が進んでいます。つまり、大脳基底核は強化学習を行い、大脳新皮質はDeep Learningのような情報抽出・圧縮を行っている、と考えると、工学的にはすっきりします。

まとめ

大脳基底核は強化学習、特にQ学習によってモデル化が進められていること、Deep Q-network と似たような方法で効率の良い情報処理をしているのではないかという仮説について紹介しました。

ただ、大脳基底核がどのように運動制御に関わっているのか、感情との関係といった点についてはまだ発展途上です。今後はこれらの要素についても組み込まれたモデルが提案されていくと同時に、強化学習部分についてもDeep Learningがそうであったように、情報工学的なアプローチと神経科学的なアプローチが相互に影響しあって発展していくのではないかなと思います。

*1:種に関係なく同じような構造ということは、それが万能・普遍的な処理をしているということになる

*2:Wolfram Schultz. Predictive Reward Signal of Dopamine Neurons. Journal of Neurophysiology Published 1 July 1998 Vol. 80 no. 1, 1-27

*3:TD誤差

*4:お金や食べ物が貰える、褒められるといったプラスのものもあるし、お金や食べ物を取られてしまう、怒られるといったマイナスのものもある

*5:J. C. Houk, J. L. Adams, and A. G. Barto. A model of how the basal ganglia generate and use neural signals that predict reinforcement. In J. C. Houk, J. L. Davis, and D. G. Beiser, editors, Models of Information Processing in the Basal Ganglia, pages 249–270. MIT Press, Cambridge, Massachusetts, 1995.

*6:Samejima K1, Ueda Y, Doya K, Kimura M. Representation of action-specific reward values in the striatum. Science. 2005 Nov 25;310(5752):1337-40.

*7:本当は関数近似するといったほうが正しい