2kai
Summary
TLDRこのスクリプトでは、脳と学習の関係性が中心で議論されています。教師あり学習と教師なし学習、さらには教科学習という概念が紹介され、それぞれが脳の異なる部位で行われることが指摘されています。特に教師なし学習において、大脳質における自己組織化過程が注目されています。また、小脳における教師あり学習と内部モデルの学習、大脳規定核での教科学習のメカニズムが詳細に解説されています。最適化に基づく運動モデルの研究も触れられ、学習と最適化の関連性が議論されています。
Takeaways
- 🧠 学習には教師なし学習と教師あり学習の2つのタイプが存在し、それぞれが脳の異なる部位で行われている。
- 🌐 教師なし学習は正解値がなく、自己組織化された学習則に基づいて行われることが示唆されている。
- 🤖 大脳質では自己組織化された学習が行われ、コラム構造が形成されることが示されている。
- 🧪 教師あり学習は小脳で行われ、内部モデルを学習することで運動の正確性や滑らかさを向上させる。
- 🏀 小脳の内部モデル説は、運動の制御に重要な役割を果たしているとされ、フィードバック誤差学習仮説が提案されている。
- 🎯 教科学習は大脳規定核で行われ、運動の選択や順序、報酬に基づく学習に関与している。
- 🤹♂️ 教科学習は強化学習の一形態で、報酬の予測に基づいて行動を選択する。
- 🔍 TD学習は報酬の予測誤差を利用して行動則や価値関数を学習する手法であり、教科学習の基礎とされる。
- 🤖 深層学習と教科学習の組み合わせは、アルファ5のように強力な学習モデルを生み出す。
- 🔄 最適化は学習と同様に、問題解決において重要な役割を果たし、運動の生成や制御に応用されている。
Q & A
学習方法にはどのような種類がありますか?
-学習方法には教師なし学習、教師あり学習、および教科学習の3つがあります。
教師なし学習とはどのような学習方式ですか?
-教師なし学習とは、正解値が存在しない状況での学習方式で、自己組織化された学習則に基づいて学習を進めます。
自己組織化とは何を指すのですか?
-自己組織化とは、特定のルールに基づいてシステムが自己内部で秩序を形成することを指します。例えば、大脳質におけるコラム構造の形成がそれです。
コラム構造とは何ですか?
-コラム構造とは、フューエルとウィーゼルが発見した、視野野の特定の領域に対応する神経細胞の集まりです。
教師あり学習と教師なし学習の違いは何ですか?
-教師あり学習は正解値に基づいて学習を進めることが特徴で、一般的な学習イメージに即しているのに対し、教師なし学習は正解値がなく自己組織化されたルールで学習を進めます。
小脳の学習はどのような種類の学習に関係していますか?
-小脳の学習は教師あり学習に関係しており、内部モデルを学習することで運動の正確性や滑らかさを向上させます。
フィードバック誤差学習仮説とは何ですか?
-フィードバック誤差学習仮説とは、小脳が運動の内部モデルを通じて運動の正確性を制御し、フィードバックされた誤差を利用して学習を進める理論です。
教科学習とはどのような学習方式ですか?
-教科学習は行動と報酬に基づいた学習方式で、行動の結果として得られる報酬を最大化することを目的として学習を進めます。
強化学習とはどのような学習方式ですか?
-強化学習は、報酬信号に基づいて行動を学習する方式で、将来の報酬を予測し、報酬の合計を最大化する行動を選択する学習プロセスです。
TD学習とは何ですか?
-TD学習は、Temporal Difference学習の略で、報酬信号と価値関数の差分を通じて学習を進める強化学習の一种です。
最適化とはどのような概念ですか?
-最適化とは、ある問題に対する多数の解の中から最も良い解を選択するプロセスで、目的関数を最大化または最小化することによって行われます。
Outlines
🧠 学習方法の種類と脳の学習
第1段落では、学習方法の多様性と、脳内で行われる様々な学習について説明しています。教師あり学習と教師なし学習に分類される一般的なタイプに加えて、教科学習が存在する旨が触れられています。さらに、脳の異なる部位で行われる学習についても言及され、大脳質や小脳など異なる学習機構が存在する可能性が示唆されています。
🌐 教師なし学習と自己組織化
第2段落では、教師なし学習の概念とその特徴について解説しています。教師なし学習とは、正解値が存在しない学習プロセスであり、大脳質で自己組織化が起こる可能性があるとされています。自己組織化の学習則として、神経細胞間のシナプス結合の更新方法が紹介され、不足学習則がその一例として説明されています。
🛤️ 獣道の比喻と自己組織化
第3段落では、獣道の比喻を用いて自己組織化の学習則を説明しています。獣が通ることで道が太くなる様子を例に、信号がよく通る場所が強化される様子を説明。また、自己組織化をコントロールするための規則が提案され、コラム構造の形成過程についても触れられています。
🏋️♂️ 小脳と内部モデルの学習
第4段落では、小脳の学習機能と内部モデルの概念について解説しています。小脳は運動の正確性や滑らかさを提供する役割があり、内部モデルを学習することで達成します。小脳内部モデル説の歴史や、フィードバック誤差学習仮説などの学習方法が紹介されています。
🎯 フィードバック誤差学習仮説の研究
第5段落では、フィードバック誤差学習仮説に関する研究を紹介しています。小脳における学習過程が、身体の内部モデルの獲得に寄与するとされる仮説について、生理学的根拠が示されています。また、研究者の個人的な経験も交えられ、小脳の学習に関する日本の研究の役割が強調されています。
🤖 教師あり学習と小脳の役割
第6段落では、教師あり学習と小脳の役割について説明しています。小脳は運動の正確性や滑らかさを提供するだけでなく、運動の内部モデルを学習することで、運動の精度を高めるとされています。さらに、小脳による運動の制御モデルがどのように機能するかについても言及されています。
🧐 大脳規定核と教科学習
第7段落では、大脳規定核と教科学習の関係について解説しています。大脳規定核では運動の選択や順序、より複雑な運動の組み立てに関与し、教科学習によって学習される可能性があるとされています。行動と報酬に基づいた学習プロセスが紹介され、強化学習の概念が説明されています。
🤹♂️ 教科学習の多様性
第8段落では、教科学習の多様性について触れています。教科学習は、報酬に基づく学習プロセスであり、TD学習や旧学習などの様々な方法が存在します。これらの方法は、報酬の予測や行動の選択に寄与するとされています。
🎲 教科学習とアルファ5
第9段落では、教科学習が実践された例としてアルファ5について紹介しています。アルファ5は深層学習と教科学習を組み合わせた人工知能であり、その学習過程で非常に強力な学習能力を示しました。
🧬 大脳規定核の学習メカニズム
第10段落では、大脳規定核の学習メカニズムについて解説しています。報酬予測とドーパミン細胞の活動との関係が実験的に示されており、教科学習が大脳規定核で行われている可能性があるとされています。
Mindmap
Keywords
💡学習
💡教師なし学習
💡自己組織化
💡コラム構造
💡教師あり学習
💡内部モデル
💡フィードバック誤差学習
💡教科学習
💡報酬予測
💡TD学習
Highlights
学習方法は教師なし学習と教師あり学習に分類されることが多くで、さらに教科学習も存在することが示唆されています。
脳の中で異なる部位で異なるタイプの学習が行われることが指摘されています。
自己組織化は教師なし学習の一種であり、大脳質で存在している可能性が示されています。
コラム構造はフューエルとウィーゼルによって発見され、自己組織化によって形成されることが研究されています。
教師あり学習は小脳で行われ、内部モデルを学習することが提唱されています。
フィードバック誤差学習仮説は小脳の内部モデル学習方法の一つであり、身体の内部モデルが学習によって獲得されるとされています。
教科学習は行動と報酬に基づいた学習で、報酬を最大化する行動を選択するプロセスが研究されています。
強化学習は報酬を予測し、将来にわたる報酬の積算値を最大化する学習プロセスです。
TD学習は報酬予測の誤差を利用した学習方法で、価値関数や行動の価値関数を学習することができます。
アルファ5は深層学習と強化学習を組み合わせた学習システムであり、非常に強力な学習能力を有しています。
大脳規定核は教科学習で学習されるとされ、運動の選択や順序の学習に関与することが示唆されています。
最適化に基づく運動生成モデルは、運動の質を評価する目的関数を設定し、最適な運動を選択するプロセスです。
滑らか光速に基づく計算モデルは、人間やロボットの運動を再現する際に利用されることがあります。
研究は教師あり学習、教師なし学習、教科学習が脳の異なる部位で行われている可能性について探求しています。
学習と最適化は、計算論的神経価格の分野で重要な位置を占めており、多様な研究が行われています。
本講義では学習の基礎と最適化に関する様々な手法について解説し、これらのプロセスを理解するための知識を提供します。
Transcripts
と今回は脳と学習についてお話をし
ますでま学習って一口に言ってばねま
いろんなタイプの学習方法があってえ一般
的にはですね教師なし学習と教師あり学習
に分類されることが多いですまこれらと
区別してま教科学習なんていうのもえここ
に分類されることもあり
ますでまこれらのねえ学習方法っていう
ものが実は脳の中でえまあのいろんな部位
でね異なった学習がなされているというな
ことがま色々指摘されています例えばま
大脳質とか小脳とか大脳規定格とかねま
そういったところでまあの色々異なった
学習方法がえ存在するんじゃないかという
ことが指摘されてい
ますでえっと教師なし学習について説明を
しますただま師なし学習っていうのは
ちょっとやっぱりなんか奇妙ですよね普通
はなんか教師つまり正解位置があってで
その正解値に近づくように学習をすると
いうのがま一般的な学習に対するイメージ
ですよねだけども教師なし学習っていうの
はその教師つまり正解値がない学習という
ことですからうんなんだろうっていう感じ
だと思うんですけどもだけどもまその何ら
かの学習則ということをま定義して学習し
てあげればま正解値がなくても学習できる
ということがあり
ますでそのねえっと教師なし学習っていう
ものが実はま大脳質で存在してるんでは
ないかということがま指摘されていますで
まその1つが自己組織家なんですけどもま
自己組織家っていうのは先ほども言いまし
たけども教師なし学習の一種ですでまこの
自己組織化によって大の質の資格やの
コラム構造が形成されてるんではないかと
いうことがま指摘されてるわけですねでま
このコラム構造っていうのは第1回目で
説明したようにまフューエルとウィーゼル
が発見したま猫の資格屋でね発見した
コラム構造ということになりますでこの
コラム構造が
え教師信号つまり正解値がなくてもこう
いったコラム構造がえ自己組織化的にえ
形成されということが分かってい
ますはいえっとそれではですねえ自己組織
化行うための学習則として不足について
説明をしますで不足っていうのはですね
このI番目の神経
細胞を丸IとでJ番目の神経細胞を丸Jと
いう風に書いてI番目の神経細胞の出力を
AIとでJ番番目の神経細胞の出力をAJ
という風に書いてありますで
このI番目の神経細胞のAIという出力が
まどの程度J盤面の神経細胞に伝達される
のかというシナプス結合過重をWJIと
いう風に書いてありますでこのデタWJI
があAIをどの程度伝達するかというま
パラメーターになりますのでこのWJを
更新していくということがここで言学習と
いうことになりますでこのWJっていうの
をどの程度更新するかっていう更新量が
こここの下の式でねデタwJIという風に
書いてありますだからこのデタWJIをえ
WJに差し込んでいくことによってえWJ
っていうものを更新していきましょうと
いうことになりますだからこれが学習と
いうことになるわけですねじゃあこの
DelWJIっていうのをどうやって決め
ましょうかというのがえ不足ではこのAJ
とAIをかけたものにえ正の定数であるロ
をかけたものにしましょう
とでこのま不足の式ではえ例えばこれAI
もしくはAJのどちらかが0であればデ
WJってのは0になるわけですねだから
そのAIとAJが両方ともその出力を出し
ているというような場合にまデルタWJ
っていうのが正の値をもななるわけですね
ですからまそのどちらかが0の場合には
学習が進まないとで両方とも活動している
時ね両方の神経細胞とも活動してる時にえ
デタWJIっていうのが大きくなってで
その分があWJで更新されるということに
なるわけですねで実はこれっていうのは
よくあの獣道に例えてあの説明されるん
ですね
ま獣道っていうのは獣がいつも通ってれば
どんどん太くなるし獣が通らなくなるとお
周りの草とか木によってだんだん浸食され
てこうとえ獣道っていうのがなくなって
いきますよねですからやっぱどんどん獣が
通るところは太くしていきましょうとだ
からこの場合ではえAIとAJが両方とも
活動してるつまり信号がよく通るところは
どんどん太く太くしていきましょうという
ことでえWJIを大きくしていきましょう
ということになるわけですねだからこれが
まヘ足の学習則ということになりますで
ただしですねさっきも言いましたけどこの
デタwijiっていうのはこ常にこれ正
ですからま0もしくは正ですからですから
あのこのWJっていうのはどんどんこれ
大きくなる方向にしか進まないですねです
からこの不足を使って学習しているとこの
WJがどんどんどんどん大きくなっていき
ますからあのなんか爆発してきちゃうわけ
です
ねだえそこでですねまこういったその自己
組織化をする場合にはえ結合過重を減少さ
せるような何らかの規則ですねえ例えば
WJ全体のWJの平均値を一定に保つよう
にするとかあと即欲性ですね即抑制って
いうのは例えば自分のが活動した時にこの
周囲を抑制するようにするとかね例えば
そういったそのえ結合過重を調査するよう
なあ規則っていうのをうまくこ導入して
あげるとえそのさえこういったその自己
組織化がこううまくいくよということなん
です
ねでこの左に書いてる図がですねま第1回
目でまコラム構造を説明するのに使った図
なんですけどもまこれはですねまいろんな
方向の線分のえに反応する神経細胞がま
規則正しくまずっとこううまくこう並ん
でるよ成立してるよとでこういったものが
1つの単位っていうのをコラム構造と呼ん
だというわけです
ねでこういったこコラム構造っていうのが
実はまもう右の図のようにかこう入り組ん
だようなね形にこうなってるわけですねで
さらにこの右側の図っていうのはあのま
これ眼コラムって言ってま左目に反応する
細胞の群とえコラムと左目の情報によって
そのえ活動するうコラム構造っていうの
こう色分けをしてありますまこのの外位
コラムって言うんですけどもまこういった
そのコラム構造がですねま先ほど説明した
ような学習則でま自己組織勝にえ学習さ
れるとまつまり教師信号つまり正解値が
なくてもこういった構造は自己組織化的に
え形成することができるんですよという
ことが確かめられてい
ますで次にですねえっと教師あり学習に
ついて説明をし
ますでまこの教子やり学習っていうのが
ですねま実は脳の中ではその小脳の中でえ
学習されてるんではないかという風にま
あの言われていますでまその小の中で何が
学習されてるかというとその内部モデルと
いうものを小脳によってえ学習してるん
じゃないかということがまあの日本のです
ねえ伊藤正夫先生によってえま指摘されて
ましてこれがま小脳内部モデル説という風
に言われるんですけどもま実は同時期に
ですねえマとかアルバスっていう人がま小
のパーセプトロン仮説なんかを提案してい
てまちょうどこう1960年とか70年
あたりですねまこういった時にま小脳で
こういった内部モデルというものがあ学習
されてるんじゃないかということがま指摘
されていましたただしですねただこの当
当時はあのこういった考え方っていうのは
本当にマイナーな考え方で一般的に小脳で
は学習されてるなんていうことはま信じ
られていなかった時代なんですねでまこう
いったそのえ伊藤正先生なんかがそのえ
世界にですねこういったその性能の中では
こう学習っていうものが起きていて内部
モデルっていうのを獲得してるんだよって
いうのをえま散々そのずっとそのアピール
というかねま学会とかでま発表していてで
まだんだんそれがまいろんな先生方によっ
てえ確認されてえその糸さ先生の考え方が
非常に正しいということがま実証されてき
たんですけどもまそういった考え方に
基づいて例えばこの川さんと塚原先生え
なんかとかがねえま伊藤先生の考え方って
いうのをこう発展させてえまこういった
その
学習制御を行うような神経カルモデルと
かっていうのをこう提案したわけですねで
まその1つがあのフィードバック誤差学習
仮説と言われるまあの内部モデルを学習
するための学習方法なんですけどもあの
こういったものが提案されていますでこう
いったまフィードバック補作学習仮説って
いうものがあまま身体の内部モデルですね
もの準モデルとか逆モデルっていうものが
ま学習によって獲得されてるとかっていう
ことがま指摘されてるんですけどもまその
後ですねここに書いてあるま志ださんとか
今光さんとかねそういったあ研究者らに
よってま生理学的にも結構こういった考え
方っていうのが正しいんじゃないかといっ
たこともえ証明されていますでま私自身も
このフィードバック誤差学習について研究
をしていましてま実はまこの辺のそのえ
フィードバック誤差学習仮説の研究でま
博士号を頂いたのでま昔は私はちょっと
こういったことをやっていまし
たですからまこれをまあの燃費を見て
もらっても分かると思うんですけどもあの
やっぱその小脳の中でのそのこういった
学習っていうものは本当にその伊藤正先生
がまパイオニア的なそのねえなっていてえ
ま日本の研究者っていうのがかなり重要な
この役割を果たしてるんですねですからま
こういった小脳のに関する学習に関する
研究っていうのはかなり日本の研究者が
中心になってえずっと研究を進めてきたと
いう経緯があり
ますでそれでですねえっと小脳における
学習についてお話をしますでま小脳の役割
としてはですねねま運動が正確になったり
え運動が滑らかになったりするというそう
いった役割がありますでまどういった運動
が対象になるかというとま手とか腕を使っ
た運動だけではなくてですねあと眼球運動
なんていうのも関与してるしあと身体の
姿勢制御ですねあと歩行なんかにも関係し
てるということが分かっていますでえこの
小脳ではですねえま先ほども言いました
けども教師信号つまり正解値を使っでえ
内部モデルっていうのを学習することに
よってま運動が正確になったり滑らかに
なったりするということになり
ますでえま先ほどもう少しね簡単に説明し
ましたけども川と3と塚原さんのこの
モデルていうのがまえ1982年にねえ
提案されてるんですけどもこの図の左手の
部分ですねえ外国小脳とか小脳防虫部って
書いてありますけどもまここが小脳なん
ですねだからあの小脳にま上の方では運動
系の逆内部モデル逆システムの内部モデル
が獲得されるしえ運動系下の方ではね運動
系の内モデルっていうものが獲得されると
だこういったことによってえさっき言った
ように運動が正確になったりな滑らかに
なったりするんじゃないかというようなえ
ま制御のモデルになってるわけです
ねでえま先ほども言ったその
フィードバック誤差学習っていうものは
この赤字で示してやる部分になってでこれ
ま何らかのところでねま脳内で望ましい
軌道っていうのが計画されてまこのXDと
いうものが運動量に入力されてで次の運動
指令Uっていうのが計算されて筋肉に与え
られてえ身体が動くとでま身体がくとこの
体性感覚フィードバックってのがまた運動
量の方にえフィードバックされるとまこれ
が通常のまフィードバックループという
ことになるんですけどもまこれに加えてま
小脳のシシステムが簡易するということに
なるわけですねだからこの図で言うとその
XDというものが小脳の外ま外国性能に
入力されてで運動系の逆システムの内部
モデルによってえユルダって書いてあり
ますけどもまこの運動指令というものが
計算されて運動量に入力されるとだから
こういう小脳からの運動指令の成分と
フィードバック制御による運動指令の成分
というものが合計されものがえ次の筋肉に
与えられることになるというわけですねだ
からこの小脳によるえユチルダっていう
運動支合の性分をえ追加することによって
より運動が正確になったり滑らかになっ
たりするよということになるわけ
ですでえこれをですねまもうちょっと見
慣れた図で書くとまこんな感じになってえ
この下の部分ですね下の部分がこれ
フィードバック制御の図になっていて
例えばその目標起動を敷いたDがあえっと
目標機動シDと運動機動シとの誤差ですね
誤差がフィードバック制御器に入力されて
で次の制御信号であるUっていうものが
計算されてえ腕ま制御対象に与えられると
まこれはも普通のフィードバック制御に
なるわけですねだからこれに加えてえ目標
機動であるそのシDというものがえその小
の外国部に入力されてでuffっていう
ものが計算されてえフィードバック制御機
からの出力とこう差し込まれるとでその
足されたものがまた次
の指令としてねええ実際の腕にま入力さ
れるとで身体がま動くということになるだ
からこのuffということがあねuffに
よってま運動が滑らかになったりえ正確に
なったりするということになるわけですね
でまその時の学習則ってのがま右下の方に
ちょっと好きで書いてあるんですけどもま
詳しくはですねえま実際の学習の研究例と
いうことでま授業の後半の方でより詳しく
紹介したいと思いますでその時にえお話を
し
ますでえっと3つ目の学習として教科学習
についてお話をし
ますで実はこの教科学習というものが大
農期定格で存在してるんではないかという
ことがあ結構前から指摘されていますでま
大脳規定格っていうのはま小脳の学習とは
ちょっとまた違っていてえ大脳期定格では
運動の選択とか順序ですねつまりちょっと
より複雑な運動を組み立てるための学習
っていうものに関与してるんではないかと
いう風に言われていますでさらにはですね
まどういった学習がその起きてるかって
いう観点からはあ実はその運動の成功とか
失敗といったそういった情情報からえ学習
するんじゃないかという風に考えられてい
て実はこれがま教科学習ということになり
ますで実はまこいった教科学習っていうの
はですねま行動と報酬という概念に基づい
たあの学習になりますでまつまりですねま
あのま我々人間でもそうだしま動物なんか
でもそうなんですけどもまこういったより
多くのこう行動はですねま何らかの目的を
達成するために行動するわけですねでその
何らかの目的を達成できればま何らかの
報酬が得られるとじゃあその目的が達成
できればできるほどよりたくさんの報酬が
得られるという風にこう考えるわけですね
でそうするとえここでま目的思考的な行動
ってありますけどもま目的を達成するため
の行動をま色々こう思考錯誤からですねえ
学習していく過程っいうものをえま理論的
に定式化したものがえ教科学習ということ
になり
ますでえ少しだけまもうちょっとこう
詳しく説明するとここではま学習者って
いうのこエージェントとしますでこういっ
た学習者がですねえ実際のこの環境の状態
XTという状態において行動UTを選択
するとまUTっという行動をしたとすると
でその時にえこの行動した結果として報酬
RTが売ることができてで何らかの行動し
ているのでえ環境の状態がXのT+1に
変化したとねXTからXT+1に変化した
という風に考えますでこの時ですねえっと
ま教科学習によってえまその報酬を
たくさんもらえるように学習をしていくと
いうことになるんですけどもただ実は大事
なところはえある時国の報酬RTね時国T
のえ報酬RTだけではなくてえその時国T
からですねえ将来に向けて得られるで
あろう報酬を予測してそれを積算するわけ
ですねでその積算したえ報酬を最大にする
ように学習していくということが強化学習
なんだよという風にま定式化することが
できますですからまある時国における報酬
だけをたくさんもらえるようにするって
いうことではなくてある時国から将来に
向けてもられるであろう報酬の積算値です
ねというものを予測してでその積算値が
最大になるように行動を選択していくと
そういったものが強化学習ということに
なり
ますでま教科学習について説明をしますで
ま教科学習についてはですね実はいろんな
タイプの学習方法があるんですけども多分
ま私の知る限りではここに書いてるバルト
とシャットンっていうのが初めてえ強化
学習方法っていうのを提案してまそれが
TD学習って呼ばれる学習則になりますで
これについてねこの図を使ってちょっと
簡単に説明をしていきますでまこの1番
左下ですね行動速アクタって書いてあり
ますけどもまこのアクターがですね行動則
Gによってえま状態Xによってえ行動を
選択するGっていう関数によってま行動U
っていうものが決定されるとで行動UTで
えま実際にその環境がえま何らかの形でそ
変化するとこのまこう微分方程式で書いて
あるわけですねだから現在の状態XにU
っていう行動をした時にどう環境が変化
するかというのがまここの環境のその微分
方程式でこう書かれているわけです
ねで実際にこのUっていう行動した結果得
られた方針をこでRTという風に書いて
ありますでこのRTのこでクリティックっ
て書いてあるんですけどもこの
クリティックではですねこの価値関数Vと
いうものが計算されていますでこれがです
ねま先ほど説明したRTっていうのは時刻
Tの報酬ですねでRT+1っていうのが
時刻TT+1の報酬ですねでえま時刻T+
1の報酬にガマというケースがかけらかけ
られてるんですけどもまこの重みつきで
こう将来にわってえ積分をしていくわけ
ですね積算をしていくわけですねまこのE
っていうのは期待値ということになってる
わけですけどもま確率的に計算されます
からま期待値でそのこれからもらえるで
あろう時刻T以降にもらえるであろう
あのその報酬の積算値っていうものをえ
確率的に求めますよということになるわけ
ですねでこれがま価値関数Vっていうこと
になりますで実はこの価値関数Vを最大に
するようなえ行動Uっていうのを選択し
たいということなんですねだからこれが
こうえ行動まそのVを価値関数Vを最大に
するようにえ行動Uが選択されるようなG
を学習しないといけないとじゃそのGを
学習する時のえま更新則ですね更新則が
ここで書いてるTD5差ということになり
ますでこのTD5差を使って実はGを学習
するし同時にですね価値関数V自体もえ
学習することができますなこのクリティッ
クっていう部分も
え学習することができますですからまこう
いったそのここに書いてるのはTD5差
デタTって書いてありますけどもこういっ
たTD5差っていうことを求めることに
よってえ行動速のGっていうものを学習
すると同時に価値関数Vっというものもえ
学習していきますでずっと学習していくと
まえ価値関数がのがVがえどんどんね
大きくなるような方向に行動Uが選択さ
れるようになっていくということなわけ
です
ねまこれがまあのバルトシャットによって
提案されてTD学ということになりますで
まえっとま強化学習についてはねちょっと
もう今日しかちょっとお話をしないのでま
ちょっとだけ詳しくねお話をしたいと思い
ますでえっとここでまあのえアクターが
ですねえ観測された状態XTのもに行動
UTを決定するっていうのがこれGでした
ねでえ行動した結果環境っていうのがま
これ差分方程式で書いてありますけどもえ
XTという状態にUTということをのの
行動をした時にえ状態はXT+1になると
いうわけですねでこの時の報酬がえこのR
によってねラージRによってえ規定されて
いてえ状態XTの時にえ行動UTっていう
のを行った時にえRTっていう報酬が得
られるということになるわけですでえっと
まここでですね環境度ダイナミックスFや
報酬の条件RTは一般的に未知であるため
え最適な行動則U=GXっていうものをえ
学習教科学習によってですねえ学習してえ
ま最適な行動を決定していくということに
なり
ますでそれでですねえま先ほど言ったTD
5差っていうものをどうやって計算するか
というのをちょっと説明をします簡単説明
しますでこの上の式に書いてるのが説明え
さっきねえ図の中にも書いてあった価値
関数Vの式になるんですけどもまこの右方
見てもらうとえ時刻T+2の報酬の
重み付けっていうのがガの事情になって
ますねなからこういう風にえまガの事情と
かねそういう風にその重み付けをしてえ
時国Tからあ将来に向けてもらえるで
あろうえ報酬をこう積算をするという項に
なってるわけですねでそこでですねえっと
樹T+1の価値関数っていうのをえ式で
表すとこの下のね1個下の式のようになる
わけです
ねでこの式にですねこの式にこう両辺に
こうガをかけてで上の式にこう代入すると
ですねま右辺の第2項以降っっていうのが
えVのXT+1ということになるので
えっとこれをまとめてかけあの1番上の式
っていうのがvxt=EのRT+GのV
XT+1というまあ式にこうなるわけです
ねでまここでそのえっとま期待値とかって
いうのちょっとま置いといてえ計算を
し直すとえっとそのえガVねガV-Vって
いうのがこのえ誤差ですねまこのRT+G
VからVT引いたものがえ上のその誤差ね
両辺の誤差ということになるわけですね
いいですかねこのえ
3番上から3番目の式のえからですねえま
左辺マイナス右辺っていうのをするとです
ねそれがそのえ誤差分ということにデタT
という風にして計算することができるん
ですねこれがさっき言ったTD誤差という
ことになりますでこのTD5差っていう
ものを使ってえGとかVっていうものを
こう学習するということがこうできるわけ
です
ねでまどうやって学習するかっていうのが
えまここに簡単に書いてあるんですけども
そのまVの更新量っていうものをデルタV
という風に表すとまこの正の定数アデタT
まデタTってのがえさっきのえTD誤差
ですからTD誤差にえ正の定数アっていう
ものをかけたものをVの更新量として学習
させるとでつまりこの2番目の式に書いて
あるようにえっと現在のその価値関数
vxtにデVっていうのを込んでえVを
更新するというわけですねであと学習速G
に関しても同じようにですねデタVって
いうものを使ってえ更新をしていって
あげると同じように学習することができる
ということでま異なった時間差ねえっとを
使って学習するていうことでその
テンポラルディファレンスラーニングTD
学習という風にま名前がつけられてい
ますでまたですねまああのTD誤差って
いうものをその学習するんですけどもこの
時ですねえっとこの式で書いてあるように
えっと現在の状態XTにおいて行動Uをえ
実行した時の将来の報酬を予測するていう
ものをこれえこのQのXTのUという風に
考えてねこういうそのまさっきの価値関数
っていうものをこう書き換えてあるわけ
ですけども
その部分がえ行動UTにも依存するとだ
から行動UTの関数として考えたものをQ
というものを新たに考えますでこういうQ
を最大にするような行動Uっていうものを
おま決定していくということでえだから
このQっていうものをその最大にするよう
なUを求めるようなあUになるUに関して
最大にするようなUTを求めるとでだから
これはそののえ行動の価値関数という風に
呼ばれていますまさっきと若干違いますよ
ね単にVとは違いますよねでこのえ時の
そのデルタQねさっきと同じようにそのえ
このデルタQっていうのを計算してですね
学習していくこれを実は旧学習という風に
呼ばれてい
ますですからまこういったその教科学習に
もねまTD学習とか旧学習とかま色々ある
しこの旧学習にもまた色々ありますまあだ
からこんな感じでえっとま教科学習によっ
てま学習をするということが可能になり
ますでえっと昔ですねえっとまこういった
そのえ棒を立てるね手のひらでこう棒を
立てるまこう統率紳士って言うんですけど
もまこういったことをその教科学習でえ
学習させれてる人がま結構いましたって
いうのは同列紳士の場合には棒が倒れたか
どうかっていう結果しか分からないですよ
ねだから例えばこの今見えてるように手を
どのぐらいどういう風に動かしたかのが
悪かったかね手をどういう風に動かしたの
が悪かったかどの程度悪かったかってのは
分からないんだけど棒がどのぐらい時間
経ってたとま例えば5秒経ってたとか5秒
後に倒れたとかねそういったあ情報は
分かるのでそういったことだけからえ
さっき言ったような教科学習を使ってえ
こういった統率紳士の学習をさせることが
できるようになるということことがま色々
そのロボットなんか使ってねえ実証されて
いますでさらにはですねまこういった教科
学習と深層学習を組み合わせることによっ
てね実はその皆さんよく知ってるのは
アルファ5ってありますよねあのえ深層
学習によって5を学習させるとまあ以後の
ま世界チャンピオンにこう勝ったとかです
ねまそういったそのアルファ5っていうの
があるんですけどもまアルファ5っていう
ものもこういった教科学習と真相学習って
いうのもまうまく組み合わせることによっ
てえま以後の非常にその強いま学習ができ
てるというようなことがま報告されてい
ますでまこのようにですねえま大脳期定学
ではこういったその教科学習によってえ
学習が行われてるんではないかという風に
は考えられてるわけですけどもま実はその
元になったねえ実験を簡単にねちょっと
紹介したいと思います
でえっとこれはですねあの手術ツっていう
人があのやった研究なんですけどもこれに
ついて少しお話をしますでえっとこれもね
ちょっとよく聞いててくださいねあの非常
に分かりづらいですからまよく図を見
ながらよく聞いててくださいで1番上の
学習前学習後報酬なしっていうのがあり
ますのでま上から順番に説明をしていき
ますでこう学習前っていうのは報酬報酬
予測Vドーパミン細胞デルタて書いてあり
ますけどもま報酬はさっき説明した報酬
ですねでVっていうのはさっきた価値関数
のことですねでこのドーパミン細胞デル
タっていうのはさっきTD5差のことです
え学習するための信号ですねTD5差の
こと
ですで実はこれあの猿さんを使った実験な
んですけどもで猿さんにどういうことを
やってもらったかというとこう1番左に
書いてランプのマークがありますねだから
ランプがまあついたら目の前のボタンを
押すとえボタンを押した後にこうジュース
がもらえるというわけですねでその時にえ
ボタンを押した押すっていう行動をした時
にえジュースをもらえるわけですからえ
報酬Rっていうのがジュースをもらえた後
にこうパッとこう活動してるわけです
ねで実はまこのデルタの式を見てもらっ
たら分かるんですけどもその報酬がポンと
出てくるとこのデルタもこう
それによってこう大きくなるまこう活動
するわけですねですからま学習前はまこう
いうその報酬がもジュースをもらえた時に
え報酬Rがジュースをもらえた後に活動し
てでこのTD誤差っていうのもそれに対応
して大きくなるよということになるわけ
ですじゃあ学習後どうなるかだから最適な
行動が選択されるようにちゃんとだから
そのVがですねえちゃんと予測できるよう
にえ学習できたらどうなるかということな
んですね報酬が予測できるように学習され
たらどうなるかっていうことが学習後と
いうことになりますでえこのランプがつい
た時にもうランプがついた時にボタンを
押せばそのジュースがもらえ
るっていうこと未来に向かってそのね未来
にそのジュースがもらえるっていうことは
予測できるようになってるはずなわけです
ねさっきの式から言うとねでそうするとえ
価値関数がランプをついた後にバーっと
こうでっかくこう活動することになるわけ
です
ねですからまでその価値関数Vのその
デルタを見るとその変化分ということです
からあちょうどそのえVが変化してる
ところがまだからVの微分なわけですねだ
からこういうデルタっていうのはこの正の
ようなこういう活動がほ出てくるとで
ずっとそのえジュースがもらえたら実は
報酬がもらえたのででま価値関数が
この実はそのジュースがもらえたっていう
報酬と価値関数がこう下がってるですねで
価値関数が下がってるところのこう微分
っっていうのは実はこの負の負になるわけ
ですね価値関数がこう下がってるところの
微分っていうのはこの負の要素になります
からその負の要素と実際にジュースを
もらった時の報酬RTのの正の要素が
ちょうどこうえ相殺されてですねこう0に
なっちゃうとねキャンセルされてこう0に
なっちゃうということが予想できるわけ
ですねでじゃああの報酬なしっていうのは
結局そのボタンを押しても報酬与えないっ
ていう風にま騙したらどうかというのがC
なわけですでえずっとその左の方はずっと
同じなんですけどもでここで報酬を与え
ないので実際のジスというがないのでRが
出てこないわけですねないわけですねで
そうするとそのえ価値関数Vの微分の要素
のこの負の要素の部分だけがこう出てくる
だろうということがこう予想できるわけ
ですでま実際にこういう学習前学習後報酬
なしとかっていうのを実際にこういうえ
訓練過程の猿さんでやってみるとま実際に
大脳規定核のこのドーパミン細胞っていう
のがあるんですけどもこのドーパミン細胞
の活動がまさしくここに書いてるような
活動と一致したよということがこの手術に
よって発表されたわけですねでこれはもう
実際に教科学習をやってる研究者から見れ
ばおこれはまさしく教科学習じゃないかと
いうことでま大脳期定格というものがあ
その教科学習によって学習してるんじゃ
ないかという風にあの指摘をされるように
なってきてでえその後こういったその大の
規定核の学習則としてのおメカニズムが
ですねいろんな観点から研究されてきてい
ますでまこれがですねまそういったその模
傷的に書いたやつなんですけどもまこの
えっと大脳期定格って点線で囲んでやる
とこですねここには洗浄体とドーパミン
細胞と黒質っていう3つの部分でこう書い
てありますけどもここがまえっと大脳規定
核っていうところになってでそれより上が
ま大脳質で実は大脳定格っていうのは大脳
シスのいろんなとからこう情報が送られて
きてるんですねだからまダノシスの
いろんなとから大納期定格っていうのは
こう情報を受け取っていますでえっとで
その大納期定格は黒質のその細胞からです
ねこういった炭素級というところを経由し
て
えそのえ支障ですね支障を経由してまた大
の皮質にこうフィードバックされていくと
いうま図になりますでこの線状態っていう
ところがさっきのV価値関数Vであったり
行動の価値関数Qであったりねそういった
ものがま洗浄体というところにはあるん
じゃないかとでえこのvからその
ドーパミン細胞のところが結局そのTD誤
差ということにこうなってるんじゃないか
とかねそれでよってそのVとかGっていう
ものがこう学習されてるんじゃないかとで
こう単相級からのこう出力によってで行動
UTというものが選択されてくるとまこう
いったことがま大脳規定格でま教科学習
タイプの学習がえされてるんではないかと
いうようなことが色々な人たちによってえ
指摘をされてい
ますでえまあのちょっと話がねちょっと
逆転してしまいましたけども例えばま大脳
規定核で教科学習ってのはどういう風にか
なってるかというのちょっとお話をすると
ま例えばまさっきは統率紳士棒を立て
るっていう統率紳士でお話をしましたけど
もま例えばバスケットボールのシュート
なんかでもいいんですねで
バスケットボールのシュートだとシュート
が入ったか入らなかったかっていうこと
しか分からなくて実際にこうシュートを
打つ時にどこの部分の運動が悪かったか
なんていうのはこう分からないわけですね
だけどもシュートした結果の成功したか
失敗したかっていうことだけがこう分かる
そういった時に実際にそのシートの成功率
がえまそれが報酬ということになるわけ
ですけどもそのシトの成功率があどんどん
良くなるようにこう学習をしていくという
ことになるわけですねであとですねえあと
その大脳規定格ではその運動の順序の学習
にも関与してるっていうことがま言われて
いますでま運動の順序っていうのはどう
いうことかというとえ例えばコップで水を
飲むっていう運動を考えてくださいでその
運動を実現するためにはこまずコップまで
手を伸ばしてでコップを掴んででコップを
持ち上げて口まで持ってくると例えばそう
いう順番が大事なわけですねだからこれが
どっかひっくり返ってしまうと実はコップ
で水を飲むっていう行動がえ成立しなく
なってくるわけですねですからこういうう
各要素の行動を正しく順番ねえ2個
え計画しないとやっぱり目的とする運動が
達成できないとまこういったそのより
ちょっと複雑なねえ運動の組み立てえ
なんかをするというものも大の定格の役割
だという風にま考えられてい
ますでそれでですねまこういった観点から
あのまどやさんていうまま非常にその私が
尊敬してる研究者の1人なんですけどもま
こういったドヤさんがですねま今日
ちょっとお話をしたようにえま大脳皮質で
は教師なし学習がされてるんではないかと
で能規定格では教科学習が行われてるんで
はないかで小脳では教師あり学習が行われ
てるんではないかということをま提案され
ていてま実は今日のお話っていうのはこの
ドヤさんのま論文ですねドヤさんのこの
論文に基づいてまお話をさせていただき
まし
たですからまこういう風にねえっと脳と
学習っていうのはこう密接にこう関係をし
ていてでいろんなタイプの学習が脳の中で
え存在してる可能性があるんだよという
ことでまちょっとこの話を締めくくりたい
と思い
ますでえ最後にですねえっと濃度最適化と
いうことでも少しだけねちょっとあのお話
をさせて
くださいでまずですねえ最適化について
簡単に説明をしますでまずまあの何らかの
問題をあの解くということを考えてもらっ
た時にその解いたあ回がですね多数存在
するという場合をちょっと想像してみて
くださいでま解が多数存在するということ
はまどの回を選択していいか普通こう
分からないわけですねでま1つの戦略とし
ては回の義足を判定することによって
できるだけいい回を選択してやろうとこの
回を回の義足を判定する関数これをここで
は目的関数という風に呼びますですから
この目的関数によって解の足っていうもの
を判定して最もいい回を選択してやろうと
でこれをサティかという風に言い
ますでま式で書くとま下のようになるん
ですけどもまあのFが目的関数でxが解
ですですから何らかの解Xっていうものを
目的関数に入力した時の解の良足を判定し
た結果まこれを評価値と言うんですけども
これがいいということになるわけですねだ
から多数存在する解をこの目的関数fに
入力して解の良し足を判定してでま評価値
が最小もしくは最大になるような解Xを
選択してあげるとまこういった考え方が
最適かっていうことになり
ますでまこういった考え方をすることに
よってえっと実は身体の運動をあの選択
するということもできますで例えばここで
書いてあるようにこう手先の起動ですね位
から目標位置までこう手を伸ばす運動で
そのその時の手先の軌道がこれXTって
いう風に書いてありますけどもまこの初期
1から目標1までの手先の運動起動って
いうのはこう無数に存在するわけですね
じゃあえっとどういうねえさっきった無数
に解が存在するわけですねじゃあそのどの
運動が1番いいかということで何らかの
目的関数っていうものを設定してあげて
その目的関数がえ最も最初もしくはあ最大
になるような運動っていうものを選択して
あげればいいとでこういった考え方によっ
てえ人間の運動とかロボットの運動を生成
することができ
ますでこういった観点からですねま人間の
腕の運動ですね逃げの人間のその腕の運動
を再現するための計算モデルっていうのが
まいろんな観点からあ研究されていてで
特にこう最小モデルなんていうのがま1番
このえ最初にねえこういった研究がなされ
てえでそのジーク最小モデルによってある
程度人間の運動があ再現できるということ
がこう報告されてまそれ以来ですねえ実に
様々な研究がこうなされているわけです
けども実はまここに書いてある計算モデ
ルっていうのはこの滑らか光速に基づいた
計算モデルということでま滑らか光速って
いうのは例えばジーク最初っていうものの
は加速度の変化が最小にする高速条件なん
ですねで2つ目に書いてるトルク変化最小
っていうのは関節トルの変化が最小になる
だからなんたらの物理量の変化が最小に
なるようなあさっきで言っと目的関数と
いうことになるわけですねだからそういう
なめらかそういうのをま滑らか光則って言
んですけどもまこういう滑らか光速に
基づいた計算モデルが実はこう色々提案さ
れてで実はま1番下に書いてあるえキス
レス変化最小モデルなんていうのも最近
ちょっと私のグループでこう提案をしてい
て実はこの金ス列変化最小モデルっていう
のが実はなかなかあすごい計算モデルなん
だよっていうことが最近こういろんな研究
からこう分かってきてまこれについてもね
またあの研究事例ということでえ講義の
後半の方でねまお話をさせていただきたい
と思い
ますでまこのようにですねまあののの研究
において実はまその計算論的神経価格と
いう分野においてはねま学習に基づいた
研究であったりとか最適化に基づいた研究
が実はいろんな観点からなされていますで
まこういった観点からねえっと本行議では
ま学習の基礎っていうものについて少し話
をしてで1番メインにはねま最適化におけ
る様々な手法についてえま説明をしていき
たいという風に持っていますま学習につい
てはねまいろんな他の講義とかでもねあり
ますのでま学習についてはえ必要最低限に
まとめておいてでまできるだけ最適化の方
にこう時間をさえてですね説明していき
たいと思いますでま本日の講義は以上で
終わりますそれではさよなら
5.0 / 5 (0 votes)