2kai

カジ(Kaji), ライハン優一(Raihanyuichi)
20 Jul 202445:49

Summary

TLDRこのスクリプトでは、脳と学習の関係性が中心で議論されています。教師あり学習と教師なし学習、さらには教科学習という概念が紹介され、それぞれが脳の異なる部位で行われることが指摘されています。特に教師なし学習において、大脳質における自己組織化過程が注目されています。また、小脳における教師あり学習と内部モデルの学習、大脳規定核での教科学習のメカニズムが詳細に解説されています。最適化に基づく運動モデルの研究も触れられ、学習と最適化の関連性が議論されています。

Takeaways

  • 🧠 学習には教師なし学習と教師あり学習の2つのタイプが存在し、それぞれが脳の異なる部位で行われている。
  • 🌐 教師なし学習は正解値がなく、自己組織化された学習則に基づいて行われることが示唆されている。
  • 🤖 大脳質では自己組織化された学習が行われ、コラム構造が形成されることが示されている。
  • 🧪 教師あり学習は小脳で行われ、内部モデルを学習することで運動の正確性や滑らかさを向上させる。
  • 🏀 小脳の内部モデル説は、運動の制御に重要な役割を果たしているとされ、フィードバック誤差学習仮説が提案されている。
  • 🎯 教科学習は大脳規定核で行われ、運動の選択や順序、報酬に基づく学習に関与している。
  • 🤹‍♂️ 教科学習は強化学習の一形態で、報酬の予測に基づいて行動を選択する。
  • 🔍 TD学習は報酬の予測誤差を利用して行動則や価値関数を学習する手法であり、教科学習の基礎とされる。
  • 🤖 深層学習と教科学習の組み合わせは、アルファ5のように強力な学習モデルを生み出す。
  • 🔄 最適化は学習と同様に、問題解決において重要な役割を果たし、運動の生成や制御に応用されている。

Q & A

  • 学習方法にはどのような種類がありますか?

    -学習方法には教師なし学習、教師あり学習、および教科学習の3つがあります。

  • 教師なし学習とはどのような学習方式ですか?

    -教師なし学習とは、正解値が存在しない状況での学習方式で、自己組織化された学習則に基づいて学習を進めます。

  • 自己組織化とは何を指すのですか?

    -自己組織化とは、特定のルールに基づいてシステムが自己内部で秩序を形成することを指します。例えば、大脳質におけるコラム構造の形成がそれです。

  • コラム構造とは何ですか?

    -コラム構造とは、フューエルとウィーゼルが発見した、視野野の特定の領域に対応する神経細胞の集まりです。

  • 教師あり学習と教師なし学習の違いは何ですか?

    -教師あり学習は正解値に基づいて学習を進めることが特徴で、一般的な学習イメージに即しているのに対し、教師なし学習は正解値がなく自己組織化されたルールで学習を進めます。

  • 小脳の学習はどのような種類の学習に関係していますか?

    -小脳の学習は教師あり学習に関係しており、内部モデルを学習することで運動の正確性や滑らかさを向上させます。

  • フィードバック誤差学習仮説とは何ですか?

    -フィードバック誤差学習仮説とは、小脳が運動の内部モデルを通じて運動の正確性を制御し、フィードバックされた誤差を利用して学習を進める理論です。

  • 教科学習とはどのような学習方式ですか?

    -教科学習は行動と報酬に基づいた学習方式で、行動の結果として得られる報酬を最大化することを目的として学習を進めます。

  • 強化学習とはどのような学習方式ですか?

    -強化学習は、報酬信号に基づいて行動を学習する方式で、将来の報酬を予測し、報酬の合計を最大化する行動を選択する学習プロセスです。

  • TD学習とは何ですか?

    -TD学習は、Temporal Difference学習の略で、報酬信号と価値関数の差分を通じて学習を進める強化学習の一种です。

  • 最適化とはどのような概念ですか?

    -最適化とは、ある問題に対する多数の解の中から最も良い解を選択するプロセスで、目的関数を最大化または最小化することによって行われます。

Outlines

00:00

🧠 学習方法の種類と脳の学習

第1段落では、学習方法の多様性と、脳内で行われる様々な学習について説明しています。教師あり学習と教師なし学習に分類される一般的なタイプに加えて、教科学習が存在する旨が触れられています。さらに、脳の異なる部位で行われる学習についても言及され、大脳質や小脳など異なる学習機構が存在する可能性が示唆されています。

05:00

🌐 教師なし学習と自己組織化

第2段落では、教師なし学習の概念とその特徴について解説しています。教師なし学習とは、正解値が存在しない学習プロセスであり、大脳質で自己組織化が起こる可能性があるとされています。自己組織化の学習則として、神経細胞間のシナプス結合の更新方法が紹介され、不足学習則がその一例として説明されています。

10:01

🛤️ 獣道の比喻と自己組織化

第3段落では、獣道の比喻を用いて自己組織化の学習則を説明しています。獣が通ることで道が太くなる様子を例に、信号がよく通る場所が強化される様子を説明。また、自己組織化をコントロールするための規則が提案され、コラム構造の形成過程についても触れられています。

15:02

🏋️‍♂️ 小脳と内部モデルの学習

第4段落では、小脳の学習機能と内部モデルの概念について解説しています。小脳は運動の正確性や滑らかさを提供する役割があり、内部モデルを学習することで達成します。小脳内部モデル説の歴史や、フィードバック誤差学習仮説などの学習方法が紹介されています。

20:04

🎯 フィードバック誤差学習仮説の研究

第5段落では、フィードバック誤差学習仮説に関する研究を紹介しています。小脳における学習過程が、身体の内部モデルの獲得に寄与するとされる仮説について、生理学的根拠が示されています。また、研究者の個人的な経験も交えられ、小脳の学習に関する日本の研究の役割が強調されています。

25:04

🤖 教師あり学習と小脳の役割

第6段落では、教師あり学習と小脳の役割について説明しています。小脳は運動の正確性や滑らかさを提供するだけでなく、運動の内部モデルを学習することで、運動の精度を高めるとされています。さらに、小脳による運動の制御モデルがどのように機能するかについても言及されています。

30:04

🧐 大脳規定核と教科学習

第7段落では、大脳規定核と教科学習の関係について解説しています。大脳規定核では運動の選択や順序、より複雑な運動の組み立てに関与し、教科学習によって学習される可能性があるとされています。行動と報酬に基づいた学習プロセスが紹介され、強化学習の概念が説明されています。

35:05

🤹‍♂️ 教科学習の多様性

第8段落では、教科学習の多様性について触れています。教科学習は、報酬に基づく学習プロセスであり、TD学習や旧学習などの様々な方法が存在します。これらの方法は、報酬の予測や行動の選択に寄与するとされています。

40:06

🎲 教科学習とアルファ5

第9段落では、教科学習が実践された例としてアルファ5について紹介しています。アルファ5は深層学習と教科学習を組み合わせた人工知能であり、その学習過程で非常に強力な学習能力を示しました。

45:09

🧬 大脳規定核の学習メカニズム

第10段落では、大脳規定核の学習メカニズムについて解説しています。報酬予測とドーパミン細胞の活動との関係が実験的に示されており、教科学習が大脳規定核で行われている可能性があるとされています。

Mindmap

Keywords

💡学習

学習は、脳が新しい知識やスキルを獲得するプロセスです。このビデオでは、学習のタイプ(教師あり学習、教師なし学習、教科学習)について説明されており、それぞれの学習方法が脳の異なる部位で行われているとされています。例えば、教師なし学習は大脳質で、自己組織化された学習則に基づいて行われると説明されています。

💡教師なし学習

教師なし学習とは、正解値や教師の指導がない状態での学習方法です。ビデオでは、このような学習が大脳質で行われ、自己組織化された学習則を用いて行われると説明されています。例えば、自己組織化された学習則は、正解値がなくても学習が進む仕組みを示しています。

💡自己組織化

自己組織化は、外部の指導や正解値なしに、システム自身が学習則を形成するプロセスです。ビデオでは、大脳質のコラム構造が自己組織化された学習則によって形成されると述べられており、これは教師なし学習の典型例です。

💡コラム構造

コラム構造は、脳の神経細胞が特定の刺激に反応し、組織化された構造です。ビデオでは、フューエルとウィーゼルが猫の視覚皮質で発見したコラム構造が、教師なし学習の自己組織化プロセスに関連していると説明されています。

💡教師あり学習

教師あり学習は、正解値や教師の指導に基づいて行われる学習方法です。ビデオでは、小脳が内部モデルを学習し、運動の正確さや滑らかさを向上させる役割を持つとされています。また、フィードバック誤差学習仮説がこのタイプの学習に関連していると述べられています。

💡内部モデル

内部モデルとは、小脳が学習することで獲得する、自己の運動や環境に対する予測モデルです。ビデオでは、小脳が内部モデルを学習することで、運動の正確さや滑らかさを制御する仕組みを説明しています。

💡フィードバック誤差学習

フィードバック誤差学習は、小脳が内部モデルを学習するための学習方法です。ビデオでは、この学習方法が小脳の機能に関連し、運動の正確さや滑らかさを制御する上で重要な役割を果たしていると説明されています。

💡教科学習

教科学習は、行動と報酬に基づいた学習方法です。ビデオでは、大脳規定核がこのタイプの学習を行っており、運動の選択や順序の学習に関与しているとされています。また、報酬に基づく行動の最適化を目的としています。

💡報酬予測

報酬予測は、行動の結果として得られる報酬を予測するプロセスです。ビデオでは、教科学習において、報酬予測が行動選択の最適化に重要な役割を果たしていると説明されています。報酬の予測値が最大になるように行動を選択することで学習が行われます。

💡TD学習

TD学習(Temporal Difference Learning)は、強化学習の一種で、報酬の予測誤差を用いて学習します。ビデオでは、TD学習が教科学習のプロセスに関連し、報酬の予測値を更新することで行動の最適化を行うと説明されています。

Highlights

学習方法は教師なし学習と教師あり学習に分類されることが多くで、さらに教科学習も存在することが示唆されています。

脳の中で異なる部位で異なるタイプの学習が行われることが指摘されています。

自己組織化は教師なし学習の一種であり、大脳質で存在している可能性が示されています。

コラム構造はフューエルとウィーゼルによって発見され、自己組織化によって形成されることが研究されています。

教師あり学習は小脳で行われ、内部モデルを学習することが提唱されています。

フィードバック誤差学習仮説は小脳の内部モデル学習方法の一つであり、身体の内部モデルが学習によって獲得されるとされています。

教科学習は行動と報酬に基づいた学習で、報酬を最大化する行動を選択するプロセスが研究されています。

強化学習は報酬を予測し、将来にわたる報酬の積算値を最大化する学習プロセスです。

TD学習は報酬予測の誤差を利用した学習方法で、価値関数や行動の価値関数を学習することができます。

アルファ5は深層学習と強化学習を組み合わせた学習システムであり、非常に強力な学習能力を有しています。

大脳規定核は教科学習で学習されるとされ、運動の選択や順序の学習に関与することが示唆されています。

最適化に基づく運動生成モデルは、運動の質を評価する目的関数を設定し、最適な運動を選択するプロセスです。

滑らか光速に基づく計算モデルは、人間やロボットの運動を再現する際に利用されることがあります。

研究は教師あり学習、教師なし学習、教科学習が脳の異なる部位で行われている可能性について探求しています。

学習と最適化は、計算論的神経価格の分野で重要な位置を占めており、多様な研究が行われています。

本講義では学習の基礎と最適化に関する様々な手法について解説し、これらのプロセスを理解するための知識を提供します。

Transcripts

play00:01

と今回は脳と学習についてお話をし

play00:06

ますでま学習って一口に言ってばねま

play00:09

いろんなタイプの学習方法があってえ一般

play00:12

的にはですね教師なし学習と教師あり学習

play00:17

に分類されることが多いですまこれらと

play00:20

区別してま教科学習なんていうのもえここ

play00:23

に分類されることもあり

play00:27

ますでまこれらのねえ学習方法っていう

play00:31

ものが実は脳の中でえまあのいろんな部位

play00:34

でね異なった学習がなされているというな

play00:38

ことがま色々指摘されています例えばま

play00:40

大脳質とか小脳とか大脳規定格とかねま

play00:44

そういったところでまあの色々異なった

play00:46

学習方法がえ存在するんじゃないかという

play00:50

ことが指摘されてい

play00:54

ますでえっと教師なし学習について説明を

play00:58

しますただま師なし学習っていうのは

play01:01

ちょっとやっぱりなんか奇妙ですよね普通

play01:03

はなんか教師つまり正解位置があってで

play01:06

その正解値に近づくように学習をすると

play01:10

いうのがま一般的な学習に対するイメージ

play01:13

ですよねだけども教師なし学習っていうの

play01:16

はその教師つまり正解値がない学習という

play01:19

ことですからうんなんだろうっていう感じ

play01:22

だと思うんですけどもだけどもまその何ら

play01:25

かの学習則ということをま定義して学習し

play01:28

てあげればま正解値がなくても学習できる

play01:32

ということがあり

play01:36

ますでそのねえっと教師なし学習っていう

play01:39

ものが実はま大脳質で存在してるんでは

play01:43

ないかということがま指摘されていますで

play01:46

まその1つが自己組織家なんですけどもま

play01:49

自己組織家っていうのは先ほども言いまし

play01:52

たけども教師なし学習の一種ですでまこの

play01:57

自己組織化によって大の質の資格やの

play02:01

コラム構造が形成されてるんではないかと

play02:04

いうことがま指摘されてるわけですねでま

play02:07

このコラム構造っていうのは第1回目で

play02:10

説明したようにまフューエルとウィーゼル

play02:13

が発見したま猫の資格屋でね発見した

play02:16

コラム構造ということになりますでこの

play02:19

コラム構造が

play02:21

え教師信号つまり正解値がなくてもこう

play02:25

いったコラム構造がえ自己組織化的にえ

play02:29

形成されということが分かってい

play02:35

ますはいえっとそれではですねえ自己組織

play02:38

化行うための学習則として不足について

play02:42

説明をしますで不足っていうのはですね

play02:45

このI番目の神経

play02:49

細胞を丸IとでJ番目の神経細胞を丸Jと

play02:54

いう風に書いてI番目の神経細胞の出力を

play02:58

AIとでJ番番目の神経細胞の出力をAJ

play03:02

という風に書いてありますで

play03:04

このI番目の神経細胞のAIという出力が

play03:09

まどの程度J盤面の神経細胞に伝達される

play03:12

のかというシナプス結合過重をWJIと

play03:17

いう風に書いてありますでこのデタWJI

play03:20

があAIをどの程度伝達するかというま

play03:24

パラメーターになりますのでこのWJを

play03:29

更新していくということがここで言学習と

play03:31

いうことになりますでこのWJっていうの

play03:35

をどの程度更新するかっていう更新量が

play03:38

こここの下の式でねデタwJIという風に

play03:42

書いてありますだからこのデタWJIをえ

play03:46

WJに差し込んでいくことによってえWJ

play03:51

っていうものを更新していきましょうと

play03:53

いうことになりますだからこれが学習と

play03:55

いうことになるわけですねじゃあこの

play03:57

DelWJIっていうのをどうやって決め

play04:00

ましょうかというのがえ不足ではこのAJ

play04:04

とAIをかけたものにえ正の定数であるロ

play04:08

をかけたものにしましょう

play04:10

とでこのま不足の式ではえ例えばこれAI

play04:16

もしくはAJのどちらかが0であればデ

play04:20

WJってのは0になるわけですねだから

play04:23

そのAIとAJが両方ともその出力を出し

play04:27

ているというような場合にまデルタWJ

play04:30

っていうのが正の値をもななるわけですね

play04:34

ですからまそのどちらかが0の場合には

play04:38

学習が進まないとで両方とも活動している

play04:41

時ね両方の神経細胞とも活動してる時にえ

play04:45

デタWJIっていうのが大きくなってで

play04:48

その分があWJで更新されるということに

play04:52

なるわけですねで実はこれっていうのは

play04:55

よくあの獣道に例えてあの説明されるん

play04:58

ですね

play05:00

ま獣道っていうのは獣がいつも通ってれば

play05:03

どんどん太くなるし獣が通らなくなるとお

play05:07

周りの草とか木によってだんだん浸食され

play05:09

てこうとえ獣道っていうのがなくなって

play05:12

いきますよねですからやっぱどんどん獣が

play05:15

通るところは太くしていきましょうとだ

play05:17

からこの場合ではえAIとAJが両方とも

play05:21

活動してるつまり信号がよく通るところは

play05:25

どんどん太く太くしていきましょうという

play05:27

ことでえWJIを大きくしていきましょう

play05:30

ということになるわけですねだからこれが

play05:33

まヘ足の学習則ということになりますで

play05:37

ただしですねさっきも言いましたけどこの

play05:39

デタwijiっていうのはこ常にこれ正

play05:42

ですからま0もしくは正ですからですから

play05:45

あのこのWJっていうのはどんどんこれ

play05:48

大きくなる方向にしか進まないですねです

play05:51

からこの不足を使って学習しているとこの

play05:54

WJがどんどんどんどん大きくなっていき

play05:56

ますからあのなんか爆発してきちゃうわけ

play06:00

です

play06:01

ねだえそこでですねまこういったその自己

play06:04

組織化をする場合にはえ結合過重を減少さ

play06:08

せるような何らかの規則ですねえ例えば

play06:12

WJ全体のWJの平均値を一定に保つよう

play06:16

にするとかあと即欲性ですね即抑制って

play06:20

いうのは例えば自分のが活動した時にこの

play06:23

周囲を抑制するようにするとかね例えば

play06:26

そういったそのえ結合過重を調査するよう

play06:30

なあ規則っていうのをうまくこ導入して

play06:32

あげるとえそのさえこういったその自己

play06:37

組織化がこううまくいくよということなん

play06:39

です

play06:40

ねでこの左に書いてる図がですねま第1回

play06:44

目でまコラム構造を説明するのに使った図

play06:47

なんですけどもまこれはですねまいろんな

play06:50

方向の線分のえに反応する神経細胞がま

play06:55

規則正しくまずっとこううまくこう並ん

play06:57

でるよ成立してるよとでこういったものが

play07:00

1つの単位っていうのをコラム構造と呼ん

play07:01

だというわけです

play07:03

ねでこういったこコラム構造っていうのが

play07:06

実はまもう右の図のようにかこう入り組ん

play07:09

だようなね形にこうなってるわけですねで

play07:12

さらにこの右側の図っていうのはあのま

play07:15

これ眼コラムって言ってま左目に反応する

play07:19

細胞の群とえコラムと左目の情報によって

play07:24

そのえ活動するうコラム構造っていうの

play07:27

こう色分けをしてありますまこのの外位

play07:29

コラムって言うんですけどもまこういった

play07:31

そのコラム構造がですねま先ほど説明した

play07:34

ような学習則でま自己組織勝にえ学習さ

play07:39

れるとまつまり教師信号つまり正解値が

play07:43

なくてもこういった構造は自己組織化的に

play07:46

え形成することができるんですよという

play07:49

ことが確かめられてい

play07:55

ますで次にですねえっと教師あり学習に

play07:58

ついて説明をし

play08:02

ますでまこの教子やり学習っていうのが

play08:05

ですねま実は脳の中ではその小脳の中でえ

play08:09

学習されてるんではないかという風にま

play08:12

あの言われていますでまその小の中で何が

play08:15

学習されてるかというとその内部モデルと

play08:18

いうものを小脳によってえ学習してるん

play08:20

じゃないかということがまあの日本のです

play08:23

ねえ伊藤正夫先生によってえま指摘されて

play08:27

ましてこれがま小脳内部モデル説という風

play08:30

に言われるんですけどもま実は同時期に

play08:32

ですねえマとかアルバスっていう人がま小

play08:35

のパーセプトロン仮説なんかを提案してい

play08:38

てまちょうどこう1960年とか70年

play08:41

あたりですねまこういった時にま小脳で

play08:44

こういった内部モデルというものがあ学習

play08:46

されてるんじゃないかということがま指摘

play08:49

されていましたただしですねただこの当

play08:52

当時はあのこういった考え方っていうのは

play08:55

本当にマイナーな考え方で一般的に小脳で

play08:59

は学習されてるなんていうことはま信じ

play09:01

られていなかった時代なんですねでまこう

play09:04

いったそのえ伊藤正先生なんかがそのえ

play09:08

世界にですねこういったその性能の中では

play09:10

こう学習っていうものが起きていて内部

play09:13

モデルっていうのを獲得してるんだよって

play09:15

いうのをえま散々そのずっとそのアピール

play09:17

というかねま学会とかでま発表していてで

play09:21

まだんだんそれがまいろんな先生方によっ

play09:24

てえ確認されてえその糸さ先生の考え方が

play09:28

非常に正しいということがま実証されてき

play09:31

たんですけどもまそういった考え方に

play09:34

基づいて例えばこの川さんと塚原先生え

play09:38

なんかとかがねえま伊藤先生の考え方って

play09:41

いうのをこう発展させてえまこういった

play09:44

その

play09:45

学習制御を行うような神経カルモデルと

play09:48

かっていうのをこう提案したわけですねで

play09:51

まその1つがあのフィードバック誤差学習

play09:55

仮説と言われるまあの内部モデルを学習

play09:58

するための学習方法なんですけどもあの

play10:01

こういったものが提案されていますでこう

play10:03

いったまフィードバック補作学習仮説って

play10:05

いうものがあまま身体の内部モデルですね

play10:09

もの準モデルとか逆モデルっていうものが

play10:12

ま学習によって獲得されてるとかっていう

play10:14

ことがま指摘されてるんですけどもまその

play10:17

後ですねここに書いてあるま志ださんとか

play10:20

今光さんとかねそういったあ研究者らに

play10:23

よってま生理学的にも結構こういった考え

play10:25

方っていうのが正しいんじゃないかといっ

play10:27

たこともえ証明されていますでま私自身も

play10:31

このフィードバック誤差学習について研究

play10:34

をしていましてま実はまこの辺のそのえ

play10:37

フィードバック誤差学習仮説の研究でま

play10:40

博士号を頂いたのでま昔は私はちょっと

play10:43

こういったことをやっていまし

play10:47

たですからまこれをまあの燃費を見て

play10:50

もらっても分かると思うんですけどもあの

play10:53

やっぱその小脳の中でのそのこういった

play10:55

学習っていうものは本当にその伊藤正先生

play10:58

がまパイオニア的なそのねえなっていてえ

play11:03

ま日本の研究者っていうのがかなり重要な

play11:05

この役割を果たしてるんですねですからま

play11:09

こういった小脳のに関する学習に関する

play11:11

研究っていうのはかなり日本の研究者が

play11:14

中心になってえずっと研究を進めてきたと

play11:17

いう経緯があり

play11:21

ますでそれでですねえっと小脳における

play11:24

学習についてお話をしますでま小脳の役割

play11:28

としてはですねねま運動が正確になったり

play11:31

え運動が滑らかになったりするというそう

play11:34

いった役割がありますでまどういった運動

play11:37

が対象になるかというとま手とか腕を使っ

play11:40

た運動だけではなくてですねあと眼球運動

play11:43

なんていうのも関与してるしあと身体の

play11:47

姿勢制御ですねあと歩行なんかにも関係し

play11:50

てるということが分かっていますでえこの

play11:53

小脳ではですねえま先ほども言いました

play11:56

けども教師信号つまり正解値を使っでえ

play12:00

内部モデルっていうのを学習することに

play12:02

よってま運動が正確になったり滑らかに

play12:05

なったりするということになり

play12:09

ますでえま先ほどもう少しね簡単に説明し

play12:13

ましたけども川と3と塚原さんのこの

play12:16

モデルていうのがまえ1982年にねえ

play12:20

提案されてるんですけどもこの図の左手の

play12:23

部分ですねえ外国小脳とか小脳防虫部って

play12:27

書いてありますけどもまここが小脳なん

play12:29

ですねだからあの小脳にま上の方では運動

play12:33

系の逆内部モデル逆システムの内部モデル

play12:36

が獲得されるしえ運動系下の方ではね運動

play12:40

系の内モデルっていうものが獲得されると

play12:42

だこういったことによってえさっき言った

play12:45

ように運動が正確になったりな滑らかに

play12:48

なったりするんじゃないかというようなえ

play12:51

ま制御のモデルになってるわけです

play12:54

ねでえま先ほども言ったその

play12:57

フィードバック誤差学習っていうものは

play12:59

この赤字で示してやる部分になってでこれ

play13:02

ま何らかのところでねま脳内で望ましい

play13:05

軌道っていうのが計画されてまこのXDと

play13:08

いうものが運動量に入力されてで次の運動

play13:11

指令Uっていうのが計算されて筋肉に与え

play13:14

られてえ身体が動くとでま身体がくとこの

play13:18

体性感覚フィードバックってのがまた運動

play13:20

量の方にえフィードバックされるとまこれ

play13:23

が通常のまフィードバックループという

play13:25

ことになるんですけどもまこれに加えてま

play13:28

小脳のシシステムが簡易するということに

play13:31

なるわけですねだからこの図で言うとその

play13:34

XDというものが小脳の外ま外国性能に

play13:38

入力されてで運動系の逆システムの内部

play13:42

モデルによってえユルダって書いてあり

play13:45

ますけどもまこの運動指令というものが

play13:47

計算されて運動量に入力されるとだから

play13:50

こういう小脳からの運動指令の成分と

play13:54

フィードバック制御による運動指令の成分

play13:58

というものが合計されものがえ次の筋肉に

play14:00

与えられることになるというわけですねだ

play14:03

からこの小脳によるえユチルダっていう

play14:06

運動支合の性分をえ追加することによって

play14:09

より運動が正確になったり滑らかになっ

play14:12

たりするよということになるわけ

play14:15

ですでえこれをですねまもうちょっと見

play14:17

慣れた図で書くとまこんな感じになってえ

play14:21

この下の部分ですね下の部分がこれ

play14:23

フィードバック制御の図になっていて

play14:26

例えばその目標起動を敷いたDがあえっと

play14:32

目標機動シDと運動機動シとの誤差ですね

play14:37

誤差がフィードバック制御器に入力されて

play14:40

で次の制御信号であるUっていうものが

play14:43

計算されてえ腕ま制御対象に与えられると

play14:47

まこれはも普通のフィードバック制御に

play14:50

なるわけですねだからこれに加えてえ目標

play14:53

機動であるそのシDというものがえその小

play14:57

の外国部に入力されてでuffっていう

play15:01

ものが計算されてえフィードバック制御機

play15:04

からの出力とこう差し込まれるとでその

play15:07

足されたものがまた次

play15:09

の指令としてねええ実際の腕にま入力さ

play15:13

れるとで身体がま動くということになるだ

play15:16

からこのuffということがあねuffに

play15:21

よってま運動が滑らかになったりえ正確に

play15:25

なったりするということになるわけですね

play15:27

でまその時の学習則ってのがま右下の方に

play15:31

ちょっと好きで書いてあるんですけどもま

play15:33

詳しくはですねえま実際の学習の研究例と

play15:37

いうことでま授業の後半の方でより詳しく

play15:40

紹介したいと思いますでその時にえお話を

play15:43

play15:46

ますでえっと3つ目の学習として教科学習

play15:50

についてお話をし

play15:52

ますで実はこの教科学習というものが大

play15:56

農期定格で存在してるんではないかという

play15:59

ことがあ結構前から指摘されていますでま

play16:02

大脳規定格っていうのはま小脳の学習とは

play16:05

ちょっとまた違っていてえ大脳期定格では

play16:09

運動の選択とか順序ですねつまりちょっと

play16:12

より複雑な運動を組み立てるための学習

play16:15

っていうものに関与してるんではないかと

play16:17

いう風に言われていますでさらにはですね

play16:20

まどういった学習がその起きてるかって

play16:22

いう観点からはあ実はその運動の成功とか

play16:27

失敗といったそういった情情報からえ学習

play16:30

するんじゃないかという風に考えられてい

play16:32

て実はこれがま教科学習ということになり

play16:37

ますで実はまこいった教科学習っていうの

play16:40

はですねま行動と報酬という概念に基づい

play16:44

たあの学習になりますでまつまりですねま

play16:49

あのま我々人間でもそうだしま動物なんか

play16:53

でもそうなんですけどもまこういったより

play16:55

多くのこう行動はですねま何らかの目的を

play16:59

達成するために行動するわけですねでその

play17:02

何らかの目的を達成できればま何らかの

play17:05

報酬が得られるとじゃあその目的が達成

play17:09

できればできるほどよりたくさんの報酬が

play17:12

得られるという風にこう考えるわけですね

play17:15

でそうするとえここでま目的思考的な行動

play17:19

ってありますけどもま目的を達成するため

play17:21

の行動をま色々こう思考錯誤からですねえ

play17:26

学習していく過程っいうものをえま理論的

play17:31

に定式化したものがえ教科学習ということ

play17:35

になり

play17:38

ますでえ少しだけまもうちょっとこう

play17:41

詳しく説明するとここではま学習者って

play17:44

いうのこエージェントとしますでこういっ

play17:46

た学習者がですねえ実際のこの環境の状態

play17:51

XTという状態において行動UTを選択

play17:56

するとまUTっという行動をしたとすると

play17:59

でその時にえこの行動した結果として報酬

play18:03

RTが売ることができてで何らかの行動し

play18:07

ているのでえ環境の状態がXのT+1に

play18:11

変化したとねXTからXT+1に変化した

play18:15

という風に考えますでこの時ですねえっと

play18:19

ま教科学習によってえまその報酬を

play18:22

たくさんもらえるように学習をしていくと

play18:25

いうことになるんですけどもただ実は大事

play18:27

なところはえある時国の報酬RTね時国T

play18:32

のえ報酬RTだけではなくてえその時国T

play18:37

からですねえ将来に向けて得られるで

play18:41

あろう報酬を予測してそれを積算するわけ

play18:45

ですねでその積算したえ報酬を最大にする

play18:51

ように学習していくということが強化学習

play18:55

なんだよという風にま定式化することが

play18:57

できますですからまある時国における報酬

play19:02

だけをたくさんもらえるようにするって

play19:04

いうことではなくてある時国から将来に

play19:07

向けてもられるであろう報酬の積算値です

play19:11

ねというものを予測してでその積算値が

play19:15

最大になるように行動を選択していくと

play19:19

そういったものが強化学習ということに

play19:21

なり

play19:23

ますでま教科学習について説明をしますで

play19:27

ま教科学習についてはですね実はいろんな

play19:30

タイプの学習方法があるんですけども多分

play19:33

ま私の知る限りではここに書いてるバルト

play19:36

とシャットンっていうのが初めてえ強化

play19:39

学習方法っていうのを提案してまそれが

play19:41

TD学習って呼ばれる学習則になりますで

play19:45

これについてねこの図を使ってちょっと

play19:48

簡単に説明をしていきますでまこの1番

play19:51

左下ですね行動速アクタって書いてあり

play19:54

ますけどもまこのアクターがですね行動則

play19:58

Gによってえま状態Xによってえ行動を

play20:03

選択するGっていう関数によってま行動U

play20:07

っていうものが決定されるとで行動UTで

play20:11

えま実際にその環境がえま何らかの形でそ

play20:16

変化するとこのまこう微分方程式で書いて

play20:19

あるわけですねだから現在の状態XにU

play20:23

っていう行動をした時にどう環境が変化

play20:25

するかというのがまここの環境のその微分

play20:28

方程式でこう書かれているわけです

play20:31

ねで実際にこのUっていう行動した結果得

play20:35

られた方針をこでRTという風に書いて

play20:37

ありますでこのRTのこでクリティックっ

play20:42

て書いてあるんですけどもこの

play20:44

クリティックではですねこの価値関数Vと

play20:47

いうものが計算されていますでこれがです

play20:51

ねま先ほど説明したRTっていうのは時刻

play20:53

Tの報酬ですねでRT+1っていうのが

play20:57

時刻TT+1の報酬ですねでえま時刻T+

play21:03

1の報酬にガマというケースがかけらかけ

play21:06

られてるんですけどもまこの重みつきで

play21:08

こう将来にわってえ積分をしていくわけ

play21:12

ですね積算をしていくわけですねまこのE

play21:14

っていうのは期待値ということになってる

play21:15

わけですけどもま確率的に計算されます

play21:18

からま期待値でそのこれからもらえるで

play21:22

あろう時刻T以降にもらえるであろう

play21:25

あのその報酬の積算値っていうものをえ

play21:29

確率的に求めますよということになるわけ

play21:32

ですねでこれがま価値関数Vっていうこと

play21:34

になりますで実はこの価値関数Vを最大に

play21:38

するようなえ行動Uっていうのを選択し

play21:42

たいということなんですねだからこれが

play21:43

こうえ行動まそのVを価値関数Vを最大に

play21:49

するようにえ行動Uが選択されるようなG

play21:53

を学習しないといけないとじゃそのGを

play21:56

学習する時のえま更新則ですね更新則が

play22:02

ここで書いてるTD5差ということになり

play22:04

ますでこのTD5差を使って実はGを学習

play22:09

するし同時にですね価値関数V自体もえ

play22:15

学習することができますなこのクリティッ

play22:17

クっていう部分も

play22:19

え学習することができますですからまこう

play22:22

いったそのここに書いてるのはTD5差

play22:24

デタTって書いてありますけどもこういっ

play22:27

たTD5差っていうことを求めることに

play22:29

よってえ行動速のGっていうものを学習

play22:32

すると同時に価値関数Vっというものもえ

play22:36

学習していきますでずっと学習していくと

play22:40

まえ価値関数がのがVがえどんどんね

play22:46

大きくなるような方向に行動Uが選択さ

play22:50

れるようになっていくということなわけ

play22:52

です

play22:53

ねまこれがまあのバルトシャットによって

play22:57

提案されてTD学ということになりますで

play23:01

まえっとま強化学習についてはねちょっと

play23:03

もう今日しかちょっとお話をしないのでま

play23:06

ちょっとだけ詳しくねお話をしたいと思い

play23:09

ますでえっとここでまあのえアクターが

play23:13

ですねえ観測された状態XTのもに行動

play23:16

UTを決定するっていうのがこれGでした

play23:19

ねでえ行動した結果環境っていうのがま

play23:23

これ差分方程式で書いてありますけどもえ

play23:26

XTという状態にUTということをのの

play23:30

行動をした時にえ状態はXT+1になると

play23:34

いうわけですねでこの時の報酬がえこのR

play23:39

によってねラージRによってえ規定されて

play23:43

いてえ状態XTの時にえ行動UTっていう

play23:47

のを行った時にえRTっていう報酬が得

play23:50

られるということになるわけですでえっと

play23:55

まここでですね環境度ダイナミックスFや

play23:58

報酬の条件RTは一般的に未知であるため

play24:02

え最適な行動則U=GXっていうものをえ

play24:06

学習教科学習によってですねえ学習してえ

play24:11

ま最適な行動を決定していくということに

play24:14

なり

play24:15

ますでそれでですねえま先ほど言ったTD

play24:19

5差っていうものをどうやって計算するか

play24:22

というのをちょっと説明をします簡単説明

play24:24

しますでこの上の式に書いてるのが説明え

play24:28

さっきねえ図の中にも書いてあった価値

play24:30

関数Vの式になるんですけどもまこの右方

play24:33

見てもらうとえ時刻T+2の報酬の

play24:38

重み付けっていうのがガの事情になって

play24:40

ますねなからこういう風にえまガの事情と

play24:43

かねそういう風にその重み付けをしてえ

play24:46

時国Tからあ将来に向けてもらえるで

play24:49

あろうえ報酬をこう積算をするという項に

play24:52

なってるわけですねでそこでですねえっと

play24:56

樹T+1の価値関数っていうのをえ式で

play25:00

表すとこの下のね1個下の式のようになる

play25:03

わけです

play25:04

ねでこの式にですねこの式にこう両辺に

play25:08

こうガをかけてで上の式にこう代入すると

play25:13

ですねま右辺の第2項以降っっていうのが

play25:16

えVのXT+1ということになるので

play25:20

えっとこれをまとめてかけあの1番上の式

play25:23

っていうのがvxt=EのRT+GのV

play25:28

XT+1というまあ式にこうなるわけです

play25:32

ねでまここでそのえっとま期待値とかって

play25:35

いうのちょっとま置いといてえ計算を

play25:38

し直すとえっとそのえガVねガV-Vって

play25:45

いうのがこのえ誤差ですねまこのRT+G

play25:49

VからVT引いたものがえ上のその誤差ね

play25:54

両辺の誤差ということになるわけですね

play25:56

いいですかねこのえ

play25:58

3番上から3番目の式のえからですねえま

play26:04

左辺マイナス右辺っていうのをするとです

play26:07

ねそれがそのえ誤差分ということにデタT

play26:11

という風にして計算することができるん

play26:13

ですねこれがさっき言ったTD誤差という

play26:16

ことになりますでこのTD5差っていう

play26:18

ものを使ってえGとかVっていうものを

play26:22

こう学習するということがこうできるわけ

play26:24

です

play26:25

ねでまどうやって学習するかっていうのが

play26:29

えまここに簡単に書いてあるんですけども

play26:32

そのまVの更新量っていうものをデルタV

play26:36

という風に表すとまこの正の定数アデタT

play26:40

まデタTってのがえさっきのえTD誤差

play26:43

ですからTD誤差にえ正の定数アっていう

play26:47

ものをかけたものをVの更新量として学習

play26:50

させるとでつまりこの2番目の式に書いて

play26:52

あるようにえっと現在のその価値関数

play26:56

vxtにデVっていうのを込んでえVを

play27:00

更新するというわけですねであと学習速G

play27:03

に関しても同じようにですねデタVって

play27:07

いうものを使ってえ更新をしていって

play27:10

あげると同じように学習することができる

play27:13

ということでま異なった時間差ねえっとを

play27:18

使って学習するていうことでその

play27:19

テンポラルディファレンスラーニングTD

play27:21

学習という風にま名前がつけられてい

play27:25

ますでまたですねまああのTD誤差って

play27:30

いうものをその学習するんですけどもこの

play27:34

時ですねえっとこの式で書いてあるように

play27:38

えっと現在の状態XTにおいて行動Uをえ

play27:43

実行した時の将来の報酬を予測するていう

play27:46

ものをこれえこのQのXTのUという風に

play27:51

考えてねこういうそのまさっきの価値関数

play27:55

っていうものをこう書き換えてあるわけ

play27:57

ですけども

play27:58

その部分がえ行動UTにも依存するとだ

play28:03

から行動UTの関数として考えたものをQ

play28:06

というものを新たに考えますでこういうQ

play28:09

を最大にするような行動Uっていうものを

play28:12

おま決定していくということでえだから

play28:16

このQっていうものをその最大にするよう

play28:20

なUを求めるようなあUになるUに関して

play28:24

最大にするようなUTを求めるとでだから

play28:27

これはそののえ行動の価値関数という風に

play28:31

呼ばれていますまさっきと若干違いますよ

play28:33

ね単にVとは違いますよねでこのえ時の

play28:37

そのデルタQねさっきと同じようにそのえ

play28:41

このデルタQっていうのを計算してですね

play28:43

学習していくこれを実は旧学習という風に

play28:47

呼ばれてい

play28:49

ますですからまこういったその教科学習に

play28:52

もねまTD学習とか旧学習とかま色々ある

play28:55

しこの旧学習にもまた色々ありますまあだ

play28:58

からこんな感じでえっとま教科学習によっ

play29:01

てま学習をするということが可能になり

play29:05

ますでえっと昔ですねえっとまこういった

play29:09

そのえ棒を立てるね手のひらでこう棒を

play29:12

立てるまこう統率紳士って言うんですけど

play29:15

もまこういったことをその教科学習でえ

play29:18

学習させれてる人がま結構いましたって

play29:21

いうのは同列紳士の場合には棒が倒れたか

play29:26

どうかっていう結果しか分からないですよ

play29:28

ねだから例えばこの今見えてるように手を

play29:31

どのぐらいどういう風に動かしたかのが

play29:33

悪かったかね手をどういう風に動かしたの

play29:35

が悪かったかどの程度悪かったかってのは

play29:38

分からないんだけど棒がどのぐらい時間

play29:41

経ってたとま例えば5秒経ってたとか5秒

play29:44

後に倒れたとかねそういったあ情報は

play29:47

分かるのでそういったことだけからえ

play29:50

さっき言ったような教科学習を使ってえ

play29:53

こういった統率紳士の学習をさせることが

play29:56

できるようになるということことがま色々

play29:58

そのロボットなんか使ってねえ実証されて

play30:01

いますでさらにはですねまこういった教科

play30:04

学習と深層学習を組み合わせることによっ

play30:07

てね実はその皆さんよく知ってるのは

play30:09

アルファ5ってありますよねあのえ深層

play30:13

学習によって5を学習させるとまあ以後の

play30:17

ま世界チャンピオンにこう勝ったとかです

play30:19

ねまそういったそのアルファ5っていうの

play30:22

があるんですけどもまアルファ5っていう

play30:24

ものもこういった教科学習と真相学習って

play30:28

いうのもまうまく組み合わせることによっ

play30:30

てえま以後の非常にその強いま学習ができ

play30:35

てるというようなことがま報告されてい

play30:40

ますでまこのようにですねえま大脳期定学

play30:44

ではこういったその教科学習によってえ

play30:47

学習が行われてるんではないかという風に

play30:49

は考えられてるわけですけどもま実はその

play30:52

元になったねえ実験を簡単にねちょっと

play30:55

紹介したいと思います

play30:59

でえっとこれはですねあの手術ツっていう

play31:02

人があのやった研究なんですけどもこれに

play31:05

ついて少しお話をしますでえっとこれもね

play31:08

ちょっとよく聞いててくださいねあの非常

play31:11

に分かりづらいですからまよく図を見

play31:13

ながらよく聞いててくださいで1番上の

play31:16

学習前学習後報酬なしっていうのがあり

play31:20

ますのでま上から順番に説明をしていき

play31:22

ますでこう学習前っていうのは報酬報酬

play31:26

予測Vドーパミン細胞デルタて書いてあり

play31:29

ますけどもま報酬はさっき説明した報酬

play31:32

ですねでVっていうのはさっきた価値関数

play31:34

のことですねでこのドーパミン細胞デル

play31:37

タっていうのはさっきTD5差のことです

play31:39

え学習するための信号ですねTD5差の

play31:42

こと

play31:43

ですで実はこれあの猿さんを使った実験な

play31:47

んですけどもで猿さんにどういうことを

play31:50

やってもらったかというとこう1番左に

play31:53

書いてランプのマークがありますねだから

play31:55

ランプがまあついたら目の前のボタンを

play31:59

押すとえボタンを押した後にこうジュース

play32:02

がもらえるというわけですねでその時にえ

play32:06

ボタンを押した押すっていう行動をした時

play32:09

にえジュースをもらえるわけですからえ

play32:13

報酬Rっていうのがジュースをもらえた後

play32:16

にこうパッとこう活動してるわけです

play32:19

ねで実はまこのデルタの式を見てもらっ

play32:23

たら分かるんですけどもその報酬がポンと

play32:25

出てくるとこのデルタもこう

play32:28

それによってこう大きくなるまこう活動

play32:30

するわけですねですからま学習前はまこう

play32:34

いうその報酬がもジュースをもらえた時に

play32:38

え報酬Rがジュースをもらえた後に活動し

play32:41

てでこのTD誤差っていうのもそれに対応

play32:46

して大きくなるよということになるわけ

play32:48

ですじゃあ学習後どうなるかだから最適な

play32:53

行動が選択されるようにちゃんとだから

play32:55

そのVがですねえちゃんと予測できるよう

play32:58

にえ学習できたらどうなるかということな

play33:01

んですね報酬が予測できるように学習され

play33:03

たらどうなるかっていうことが学習後と

play33:06

いうことになりますでえこのランプがつい

play33:09

た時にもうランプがついた時にボタンを

play33:13

押せばそのジュースがもらえ

play33:15

るっていうこと未来に向かってそのね未来

play33:18

にそのジュースがもらえるっていうことは

play33:20

予測できるようになってるはずなわけです

play33:22

ねさっきの式から言うとねでそうするとえ

play33:26

価値関数がランプをついた後にバーっと

play33:30

こうでっかくこう活動することになるわけ

play33:32

です

play33:34

ねですからまでその価値関数Vのその

play33:38

デルタを見るとその変化分ということです

play33:41

からあちょうどそのえVが変化してる

play33:45

ところがまだからVの微分なわけですねだ

play33:48

からこういうデルタっていうのはこの正の

play33:51

ようなこういう活動がほ出てくるとで

play33:54

ずっとそのえジュースがもらえたら実は

play33:57

報酬がもらえたのででま価値関数が

play34:01

この実はそのジュースがもらえたっていう

play34:05

報酬と価値関数がこう下がってるですねで

play34:10

価値関数が下がってるところのこう微分

play34:12

っっていうのは実はこの負の負になるわけ

play34:16

ですね価値関数がこう下がってるところの

play34:18

微分っていうのはこの負の要素になります

play34:21

からその負の要素と実際にジュースを

play34:25

もらった時の報酬RTのの正の要素が

play34:29

ちょうどこうえ相殺されてですねこう0に

play34:32

なっちゃうとねキャンセルされてこう0に

play34:34

なっちゃうということが予想できるわけ

play34:36

ですねでじゃああの報酬なしっていうのは

play34:40

結局そのボタンを押しても報酬与えないっ

play34:43

ていう風にま騙したらどうかというのがC

play34:46

なわけですでえずっとその左の方はずっと

play34:50

同じなんですけどもでここで報酬を与え

play34:53

ないので実際のジスというがないのでRが

play34:58

出てこないわけですねないわけですねで

play35:00

そうするとそのえ価値関数Vの微分の要素

play35:05

のこの負の要素の部分だけがこう出てくる

play35:07

だろうということがこう予想できるわけ

play35:09

ですでま実際にこういう学習前学習後報酬

play35:14

なしとかっていうのを実際にこういうえ

play35:17

訓練過程の猿さんでやってみるとま実際に

play35:21

大脳規定核のこのドーパミン細胞っていう

play35:24

のがあるんですけどもこのドーパミン細胞

play35:26

の活動がまさしくここに書いてるような

play35:29

活動と一致したよということがこの手術に

play35:32

よって発表されたわけですねでこれはもう

play35:36

実際に教科学習をやってる研究者から見れ

play35:38

ばおこれはまさしく教科学習じゃないかと

play35:43

いうことでま大脳期定格というものがあ

play35:46

その教科学習によって学習してるんじゃ

play35:48

ないかという風にあの指摘をされるように

play35:51

なってきてでえその後こういったその大の

play35:55

規定核の学習則としてのおメカニズムが

play35:59

ですねいろんな観点から研究されてきてい

play36:04

ますでまこれがですねまそういったその模

play36:07

傷的に書いたやつなんですけどもまこの

play36:11

えっと大脳期定格って点線で囲んでやる

play36:14

とこですねここには洗浄体とドーパミン

play36:17

細胞と黒質っていう3つの部分でこう書い

play36:20

てありますけどもここがまえっと大脳規定

play36:23

核っていうところになってでそれより上が

play36:26

ま大脳質で実は大脳定格っていうのは大脳

play36:30

シスのいろんなとからこう情報が送られて

play36:33

きてるんですねだからまダノシスの

play36:35

いろんなとから大納期定格っていうのは

play36:37

こう情報を受け取っていますでえっとで

play36:41

その大納期定格は黒質のその細胞からです

play36:45

ねこういった炭素級というところを経由し

play36:48

play36:49

えそのえ支障ですね支障を経由してまた大

play36:55

の皮質にこうフィードバックされていくと

play36:59

いうま図になりますでこの線状態っていう

play37:01

ところがさっきのV価値関数Vであったり

play37:05

行動の価値関数Qであったりねそういった

play37:08

ものがま洗浄体というところにはあるん

play37:11

じゃないかとでえこのvからその

play37:14

ドーパミン細胞のところが結局そのTD誤

play37:17

差ということにこうなってるんじゃないか

play37:20

とかねそれでよってそのVとかGっていう

play37:22

ものがこう学習されてるんじゃないかとで

play37:24

こう単相級からのこう出力によってで行動

play37:28

UTというものが選択されてくるとまこう

play37:31

いったことがま大脳規定格でま教科学習

play37:35

タイプの学習がえされてるんではないかと

play37:37

いうようなことが色々な人たちによってえ

play37:40

指摘をされてい

play37:44

ますでえまあのちょっと話がねちょっと

play37:47

逆転してしまいましたけども例えばま大脳

play37:50

規定核で教科学習ってのはどういう風にか

play37:54

なってるかというのちょっとお話をすると

play37:56

ま例えばまさっきは統率紳士棒を立て

play37:59

るっていう統率紳士でお話をしましたけど

play38:02

もま例えばバスケットボールのシュート

play38:04

なんかでもいいんですねで

play38:05

バスケットボールのシュートだとシュート

play38:08

が入ったか入らなかったかっていうこと

play38:10

しか分からなくて実際にこうシュートを

play38:13

打つ時にどこの部分の運動が悪かったか

play38:16

なんていうのはこう分からないわけですね

play38:18

だけどもシュートした結果の成功したか

play38:21

失敗したかっていうことだけがこう分かる

play38:24

そういった時に実際にそのシートの成功率

play38:27

がえまそれが報酬ということになるわけ

play38:31

ですけどもそのシトの成功率があどんどん

play38:34

良くなるようにこう学習をしていくという

play38:37

ことになるわけですねであとですねえあと

play38:40

その大脳規定格ではその運動の順序の学習

play38:44

にも関与してるっていうことがま言われて

play38:46

いますでま運動の順序っていうのはどう

play38:48

いうことかというとえ例えばコップで水を

play38:51

飲むっていう運動を考えてくださいでその

play38:54

運動を実現するためにはこまずコップまで

play38:58

手を伸ばしてでコップを掴んででコップを

play39:01

持ち上げて口まで持ってくると例えばそう

play39:04

いう順番が大事なわけですねだからこれが

play39:07

どっかひっくり返ってしまうと実はコップ

play39:09

で水を飲むっていう行動がえ成立しなく

play39:12

なってくるわけですねですからこういうう

play39:16

各要素の行動を正しく順番ねえ2個

play39:22

え計画しないとやっぱり目的とする運動が

play39:25

達成できないとまこういったそのより

play39:28

ちょっと複雑なねえ運動の組み立てえ

play39:32

なんかをするというものも大の定格の役割

play39:35

だという風にま考えられてい

play39:38

ますでそれでですねまこういった観点から

play39:42

あのまどやさんていうまま非常にその私が

play39:45

尊敬してる研究者の1人なんですけどもま

play39:48

こういったドヤさんがですねま今日

play39:50

ちょっとお話をしたようにえま大脳皮質で

play39:54

は教師なし学習がされてるんではないかと

play39:56

で能規定格では教科学習が行われてるんで

play40:00

はないかで小脳では教師あり学習が行われ

play40:03

てるんではないかということをま提案され

play40:06

ていてま実は今日のお話っていうのはこの

play40:09

ドヤさんのま論文ですねドヤさんのこの

play40:12

論文に基づいてまお話をさせていただき

play40:15

まし

play40:16

たですからまこういう風にねえっと脳と

play40:20

学習っていうのはこう密接にこう関係をし

play40:22

ていてでいろんなタイプの学習が脳の中で

play40:26

え存在してる可能性があるんだよという

play40:29

ことでまちょっとこの話を締めくくりたい

play40:32

と思い

play40:34

ますでえ最後にですねえっと濃度最適化と

play40:38

いうことでも少しだけねちょっとあのお話

play40:41

をさせて

play40:43

くださいでまずですねえ最適化について

play40:46

簡単に説明をしますでまずまあの何らかの

play40:50

問題をあの解くということを考えてもらっ

play40:53

た時にその解いたあ回がですね多数存在

play40:58

するという場合をちょっと想像してみて

play41:01

くださいでま解が多数存在するということ

play41:04

はまどの回を選択していいか普通こう

play41:07

分からないわけですねでま1つの戦略とし

play41:10

ては回の義足を判定することによって

play41:14

できるだけいい回を選択してやろうとこの

play41:18

回を回の義足を判定する関数これをここで

play41:21

は目的関数という風に呼びますですから

play41:25

この目的関数によって解の足っていうもの

play41:28

を判定して最もいい回を選択してやろうと

play41:31

でこれをサティかという風に言い

play41:35

ますでま式で書くとま下のようになるん

play41:39

ですけどもまあのFが目的関数でxが解

play41:43

ですですから何らかの解Xっていうものを

play41:46

目的関数に入力した時の解の良足を判定し

play41:50

た結果まこれを評価値と言うんですけども

play41:52

これがいいということになるわけですねだ

play41:55

から多数存在する解をこの目的関数fに

play41:59

入力して解の良し足を判定してでま評価値

play42:03

が最小もしくは最大になるような解Xを

play42:07

選択してあげるとまこういった考え方が

play42:09

最適かっていうことになり

play42:13

ますでまこういった考え方をすることに

play42:16

よってえっと実は身体の運動をあの選択

play42:20

するということもできますで例えばここで

play42:24

書いてあるようにこう手先の起動ですね位

play42:27

から目標位置までこう手を伸ばす運動で

play42:30

そのその時の手先の軌道がこれXTって

play42:33

いう風に書いてありますけどもまこの初期

play42:36

1から目標1までの手先の運動起動って

play42:38

いうのはこう無数に存在するわけですね

play42:42

じゃあえっとどういうねえさっきった無数

play42:44

に解が存在するわけですねじゃあそのどの

play42:47

運動が1番いいかということで何らかの

play42:51

目的関数っていうものを設定してあげて

play42:54

その目的関数がえ最も最初もしくはあ最大

play42:59

になるような運動っていうものを選択して

play43:02

あげればいいとでこういった考え方によっ

play43:05

てえ人間の運動とかロボットの運動を生成

play43:09

することができ

play43:12

ますでこういった観点からですねま人間の

play43:16

腕の運動ですね逃げの人間のその腕の運動

play43:19

を再現するための計算モデルっていうのが

play43:22

まいろんな観点からあ研究されていてで

play43:26

特にこう最小モデルなんていうのがま1番

play43:29

このえ最初にねえこういった研究がなされ

play43:32

てえでそのジーク最小モデルによってある

play43:35

程度人間の運動があ再現できるということ

play43:39

がこう報告されてまそれ以来ですねえ実に

play43:43

様々な研究がこうなされているわけです

play43:45

けども実はまここに書いてある計算モデ

play43:48

ルっていうのはこの滑らか光速に基づいた

play43:51

計算モデルということでま滑らか光速って

play43:54

いうのは例えばジーク最初っていうものの

play43:57

は加速度の変化が最小にする高速条件なん

play44:02

ですねで2つ目に書いてるトルク変化最小

play44:05

っていうのは関節トルの変化が最小になる

play44:08

だからなんたらの物理量の変化が最小に

play44:12

なるようなあさっきで言っと目的関数と

play44:16

いうことになるわけですねだからそういう

play44:18

なめらかそういうのをま滑らか光則って言

play44:21

んですけどもまこういう滑らか光速に

play44:23

基づいた計算モデルが実はこう色々提案さ

play44:26

れてで実はま1番下に書いてあるえキス

play44:30

レス変化最小モデルなんていうのも最近

play44:32

ちょっと私のグループでこう提案をしてい

play44:34

て実はこの金ス列変化最小モデルっていう

play44:37

のが実はなかなかあすごい計算モデルなん

play44:39

だよっていうことが最近こういろんな研究

play44:42

からこう分かってきてまこれについてもね

play44:44

またあの研究事例ということでえ講義の

play44:47

後半の方でねまお話をさせていただきたい

play44:50

と思い

play44:52

ますでまこのようにですねまあののの研究

play44:58

において実はまその計算論的神経価格と

play45:03

いう分野においてはねま学習に基づいた

play45:05

研究であったりとか最適化に基づいた研究

play45:09

が実はいろんな観点からなされていますで

play45:12

まこういった観点からねえっと本行議では

play45:16

ま学習の基礎っていうものについて少し話

play45:19

をしてで1番メインにはねま最適化におけ

play45:22

る様々な手法についてえま説明をしていき

play45:26

たいという風に持っていますま学習につい

play45:28

てはねまいろんな他の講義とかでもねあり

play45:31

ますのでま学習についてはえ必要最低限に

play45:35

まとめておいてでまできるだけ最適化の方

play45:38

にこう時間をさえてですね説明していき

play45:40

たいと思いますでま本日の講義は以上で

play45:44

終わりますそれではさよなら

Rate This

5.0 / 5 (0 votes)

Etiquetas Relacionadas
脳科学学習理論教師なし学習教師あり学習自己組織化強化学習最適化手法人工知能深層学習アルファ5
¿Necesitas un resumen en inglés?