深層学習の仕組み, 勾配降下 | Chapter 2, 深層学習(ディープラーニング)
Summary
TLDRこの動画ではニューラルネットワークの学習プロセスとその仕組みについて解説しています。手書き数字認識の例を使用し、ネットワークがどのように重みとバイアスを調整してパフォーマンスを上げるかを説明。また、隠れ層がどのように機能し、学習データから一般化して新しいデータも正しく分類できるかについても触れています。さらに、誤差逆伝播法やコスト関数の最小化、勾配ベクトルの重要性など、学習の核心となる概念を紹介し、ネットワークがどのようにして見たことのない画像でも高い正確性を達成するのかを探求しています。
Takeaways
- 📊 この動画ではニューラルネットワークの学習過程とその仕組みについて説明しています。
- 🔍 購買効果という概念が導入され、ニューラルネットワークの学習だけでなく他の機械学習にも応用される基礎的な概念であると説明されています。
- 🧠 ニューラルネットワークは入力層、隠れ層、出力層からなり、重みとバイアスを通じてデータの特定のパターンを学習します。
- 🔢 手書き数字認識の例を使用して、ネットワークは28×28ピクセルの画像を784個の入力ニューロンに変換し、それから隠れ層を通して特定の数字を認識するように学習されています。
- 📉 コスト関数はネットワークのパフォーマンスの指標であり、正しい分類とネットワークの出力との差を最小化する目標です。
- 🔧 学習過程では、誤差逆伝播法(バックプロパゲーション)が使用され、ネットワークの重みとバイアスを調整してコスト関数の値を下げる方向へと最適化します。
- 📈 隠れ層は入力データから抽出された特徴を組み合わせ、より複雑なパターンを認識する役割を持っています。
- 🤖 ニューラルネットワークは大量の学習データを用いてトレーニングされ、未知のデータに対しても高い正確性で分類できるように学習されています。
- 🧐 現代のニューラルネットワークは、ランダムなデータでも学習が行えることが示されており、ネットワークはデータの構造を学習する能力を持っています。
- 🔬 研究によると、ニューラルネットワークは学習過程で見つけた最適化の極小値がデータの構造化された特徴を反映しているとされています。
Q & A
ニューラルネットワークの学習とは何ですか?
-ニューラルネットワークの学習とは、大量の学習データを通じてネットワークの重みとバイアスを調整し、特定のタスク(例: 手書き数字認識)を正確に実行できるようにするプロセスです。
「購買効果」とは何を指していますか?
-「購買効果」とは、ニューラルネットワークの学習だけでなく、多くの機械学習の仕組みの基礎となる概念で、入力データから出力を通じてモデルが学習する効果を指します。
ニューラルネットワークの隠れ層は何をしますか?
-隠れ層は入力層から受け取った情報を処理し、特徴を抽出します。その特徴を基に、次の層に渡して最終的なタスクを実行します。
ニューラルネットワークはどのようにして数字を認識しますか?
-ニューラルネットワークは、手書き数字の画像を入力として、各ピクセル値をニューロンのアクティベーションに変換し、隠れ層を通じて特徴を抽出し、出力層で数字を分類します。
コスト関数はニューラルネットワークの学習においてどのような役割を果たしますか?
-コスト関数はネットワークの出力と正解の差を測る指標であり、学習過程でネットワークの重みとバイアスを調整するのに使用されます。目標はコスト関数の値を最小限に抑えることです。
誤差逆伝播法とは何ですか?
-誤差逆伝播法はニューラルネットワークの学習において使用されるアルゴリズムで、コスト関数の勾配を効率的に計算し、重みとバイアスを更新するプロセスを自動化します。
ニューラルネットワークがランダムな重みで初期化された場合、どのような問題が発生しますか?
-ランダムな重みで初期化されたニューラルネットワークは、学習データに対する適切な分類や認識を行えず、無意味な結果を出力することになります。学習プロセスを通じて重みが適切に調整される必要があります。
ニューラルネットワークが与えられたタスクを超えて一般化するということはどういう意味ですか?
-ニューラルネットワークが与えられたタスクを超えて一般化するということは、学習データだけでなく、見たことのない新しいデータに対しても正確に分類や認識ができることを意味します。
ニューラルネットワークの隠れ層が線やパターンを拾うことの意義は何ですか?
-隠れ層が線やパターンを拾うことは、より複雑な特徴を認識するために必要な基本的な視覚的な要素を抽出するためです。これにより、ネットワークは高レベルのタスクを実行するのに役立ちます。
ニューラルネットワークがランダムな画像を数字と誤って認識する理由は何ですか?
-ニューラルネットワークがランダムな画像を数字と誤って認識するのは、学習データに限定され、一般的なパターンや構造を適切に学習できていないためです。また、ネットワークのアーキテクチャや学習過程のパラメータ設定にも影響されます。
Outlines
🌟 ニューラルネットワークの基礎と学習目標
この段落では、ニューラルネットワークの構造とその学習の目標について説明されています。ニューラルネットワークは、手書き数字認識の古典的な例として紹介され、各数字が28×28ピクセルのグレースケールで表される方法が説明されています。また、ネットワークの隠れ層が特定のパターンを認識し、最終的に数字を分類する役割があると期待されていることが述べられています。学習プロセスでは、与えられた手書き数字とそのラベルの学習データを用いて、ネットワークの重みとバイアスを調整し、パフォーマンスを上げていくことが目標となっており、一般化された学習を目指しています。
🔍 ニューラルネットワークの学習過程とコスト関数
この段落では、ニューラルネットワークがどのように学習するか、特にコスト関数の役割について詳しく説明されています。学習データが与えられた場合、ネットワークはその重みとバイアスを調整して、与えられた数字を正しく分類するように学習します。コスト関数は、ネットワークの出力と正解の値との差を2乗して和を取ることで定義され、ネットワークのパフォーマンスの指標となっています。このコスト関数の平均値を最小化することで、ネットワークは学習データを超えて一般化した学習を行なうことが期待されています。また、学習過程では、ランダムな初期値から始まり、勾配を用いて重みとバイアスを調整していきます。
📉 コスト関数の最小化とニューラルネットワークの学習
この段落では、コスト関数の最小化とそれに関連するニューラルネットワークの学習プロセスの詳細について説明されています。ニューラルネットワークは、入力空間の13000次元の重みとバイアスを調整しながら、コスト関数の極小値に収束していきます。この過程では、勾配ベクトルがどの方向でコスト関数の値を最小化するかを示し、ネットワークはこの方向に沿って学習を進めます。また、この段落では、ニューラルネットワークが実際には期待していたようなパターンを学習していないこと、そしてランダムな画像に対しても正しく分類できることについて触れています。これは、ネットワークが学習データの構造を理解しているか、単に暗記しているかについての議論を引き起こしています。
🎓 学習データの理解とニューラルネットワークの限界
最後の段落では、ニューラルネットワークが学習データをどのように理解し、その限界について述べています。ネットワークは、与えられた学習データに基づいて数字を認識する能力を獲得しますが、ランダムな画像に対しては意味を付けられないことが示されています。これは、ネットワークが学習データの構造を理解しているか、単に暗記しているかについての疑問を浮かべます。また、この段落では、より高度な学習技術やアルゴリズムの理解を深めるために推薦される資料や論文についても紹介しています。最後に、近年の研究動向として、ディープニューラルネットワークがランダムなデータで学習した結果について触れ、ネットワークが学習データの構造を理解する能力があることを示唆しています。
Mindmap
Keywords
💡ニューラルネットワーク
💡購買効果
💡隠れ層
💡アクティベーション
💡重みとバイアス
💡コスト関数
💡誤差逆伝播法
💡手書きの数字認識
💡隠れ層のニューロン
💡学習データ
Highlights
ニューラルネットワークの構造を紹介し、学習の基礎となる概念である購買効果を説明。
手書き数字認識の古典的な例を用いたニューラルネットワークの説明。
ニューラルネットワークの隠れ層が特定のパターンをどのように学習するかの詳細。
ニューラルネットワークが与えられた数字を分類する仕組み。
学習データを使ってニューラルネットワークの重みとバイアスを調整するプロセス。
ニューラルネットワークが見たことのないデータで正しく分類できるかのテスト方法。
MNISTデータベースが手書き文字のラベル付きデータを提供していることの説明。
ニューラルネットワークの学習過程を微積分の視点から考察。
ニューラルネットワークの重みとバイアスをランダムに初期化し、それから学習を開始する理由。
コスト関数を用いてニューラルネットワークの性能を評価する方法。
ニューラルネットワークが学習データを超えて一般化する期待。
誤差逆伝播法がニューラルネットワークの学習の心臓であることの説明。
ニューラルネットワークが見たことのない画像についても高い正確性を示す実験結果。
隠れ層の構造を変えることによるネットワーク性能の向上。
学習過程でニューラルネットワークが数字を認識する具体的なパターンを学ぶことの期待と現実。
ランダムな画像を入力したときのニューラルネットワークの反応とその意味。
ニューラルネットワークが数字を認識する能力とその学習過程の関係。
隠れ層が線やパターンを拾うことの期待と実際の学習結果とのギャップ。
学習データの構造化と非構造化の影響を分析する近年の論文の紹介。
ディープニューラルネットワークがランダムなデータで学習したときのパフォーマンス。
ニューラルネットワークが学習する際に見つける最適化の極小値の質。
ギリシャリッドのインタビューの要約とその中で述べられた深層学習の現代的な理解。
Transcripts
[音楽]
前回の動画では
ニューラルネットワークの構造をお見せし
ましたはじめに少しおさらいして思い出し
ましょうそしてこの動画には2つのゴール
があります一つ目は
購買効果という概念を説明しますこれは
ニューラルネットワークの学習だけでなく
他の多くの機械学習の仕組みの基礎にも
なっていますそして2つ目はこの
ネットワークがどう働くかそして
隠れ層が最終的に何を探すかについてより
深く見ていきます
おさらいですが
古典的な例である手書きの数字の認識を
扱っていましたね
この数字は28×28のピクセルに0と1
の間のグレースケールで表されこれが入力
層の784個のニューロンの
アクティベーションになっていました
[音楽]
そして次の層のそれぞれのニューロンの
アクティベーションは前の層のすべての
アクティベーションの重み付きの輪に
バイアスという特別な数を足したものが元
になってましたね
これを前回お話ししたsignoid関数
やレルのような関数に通していました
それぞれ16個のニューロンを持つ2つの
隠れそうという今回の設定では全部で約
1万3000の設定可能な重みとバイアス
があってこれらの値がネットワークが具体
的に何をするのか決めていましたね
[音楽]
それから
ネットワークが与えられた数字を分類する
とは最後の層の10個のニューロンで一番
明るいものがその数字に対応していると
いうことでしたそして思い出して欲しいの
ですがこの多層構造について
期待していたのはもしかしたら2番目の層
が短い線を3番目の層が和や線のような
パターンを拾って最後にこれを組み合わせ
て数字を認識するかもしれないというもの
でした今回はどのようにネットワークが
学習するかを見ていきます
欲しいものはアルゴリズムですこの
ネットワークにたくさんの学習データを
見せてこれは手書きの数字とそれが表して
いる実際の数のラベルの形をしているん
ですが
ネットワークが13,000円の重みと
バイアスを調整しパフォーマンスを上げて
いくようなものです
願わくはこの多層構造によって学習データ
を超えてより一般化して学習をしてほしい
ですね
そしてこれをテストするには学習の後に
さらにラベル付けされた
初めて見るデータを見せてこれらを正しく
分類できるか確認します
この手書きの数字がよくある例になって
いる理由というのが
幸運なことにMリストデータベースの方が
大量の手書き文字のラベル付けされた
データを作ってくれているからですそして
現状では機械が学習しているというと
議論の対象になるかもしれません実際の
仕組みを学ぶとSFのすごい設定という
よりもむしろまあ微積分の演習っぽく感じ
られますというのも基本的にはある関数の
最小値を求めることにつながるからです
おさらいですがそれぞれのニューロンは前
の層のすべてのニューロンにつながってい
てアクティベーションを決める重み付きの
輪の重みはそれらのつながりの強さみたい
なものですね
そしてバイアスはそのニューロンが
アクティブになりがちかどうかを示してい
ますではまず全ての重みやバイアスを完全
にランダムに初期化して始めましょう言う
までもなくこのネットワークは最悪な仕事
をしますランダムですからね
例えば3の画像を入力すると出力層はもう
ごちゃごちゃですね
それでコスト関数というのを用いて
コンピュータに教えてあげるんですねほら
この出力はほとんどのニューロンが0で
このニューロンだけ1になるような
アクティベーションになってないとダメで
君が出した答えは全くのゴミですもう
ちょっと数学的に言うと正解の値とこの
ぐちゃぐちゃの出力のアクティベーション
の差を2乗して和を取るんですね
これを1回の学習のコストと呼ぶことにし
ます
[音楽]
この和はネットワークが正しく自信を持っ
て画像を分類すると小さくなり
何をしているのか分かっていない時は
大きくなるようになっています
そしてこのコストの平均を何千もの学習
データについて求めます
この平均コストがこのネットワークの下手
さそしてどれくらいコンピュータが反省
するべきかを表しています結構複雑ですよ
ね思い出してみると
ネットワークそのものが784個の
ピクセルの値を入力として10個の値を
吐き出す関数でした
重みやバイアスはパラメータになってまし
たよねコスト関数はもう一段の複雑さを
加えます入力は13000の重みと
バイアスで出力はそれがどれくらい悪いか
の一つの数ですこれは何千何万もの学習
データについてのネットワークの振る舞い
で決められます
これは考えることがいっぱいですね
でもどれだけ仕事が下手かただ言うだけで
はあまり役立ちません重みやバイアスを
どのように変えたらより良くなるか教えて
あげたいですよね
13,000円の入力で苦しむより簡単に
するために入力も出力も一つの数の単純な
関数を考えてみましょう
どうやってこの関数の最小値に対応する
入力を見つけられるでしょうか関数によっ
ては具体的にこの値について解くことが
できますよねしかし非常に複雑な関数に
ついてはこれは常にできるわけではあり
ません当然入力が1万3000の超複雑な
コスト関数では無理です
より柔軟な戦略としてある入力からどっち
の方向に行けば出力が小さくなるか探して
いくという方法があります
具体的には今いる場所の関数の接線を考え
て
傾きが正なら左へ
なら右へ行くんですね
[音楽]
これを繰り返して新しい
接線と補正を確認していくと関数の極小値
に近づいていきます
他を転がっていくボールみたいなイメージ
です
ここでこの非常に単純な1変数関数でも
行き着く先の谷はいくつもありますよね
初めのランダムな場所によっては
極小値がコスト関数の実際の最小値になっ
ているとは限らないわけです
[音楽]
これはニューラルネットワークの場合も
同様ですまた
補正の際の移動を傾きに比例させてあげる
と最小値近くで傾きが小さくなった時
補正量が小さくなり移動しすぎを避けられ
ます
[音楽]
少し複雑にして2つの入力と一つの出力を
持つ関数を想像しましょう入力の空間を
XY平面としてコスト関数をその上の局面
として考えることができますさて関数の
出力をできるだけ早く減少させたいんです
が今度は傾きを考える代わりにどちらの
方向に行けばいいかを考えるんですね
言い換えると下り坂はどっちかということ
です
再びボールが転がり落ちるところを想像
するとわかりやすいですね多変数関数の微
積分では関数の勾配が最も急な上昇の方向
になりますつまりどの方向に行けば一番
早く関数の値が増加するかわかります
なのでこれの符号を反転すれば関数の値を
最も早く減少させる方向がわかります
[音楽]
さらにこの購買ベクトルの長さというのは
この坂がどれほど急かを表しています
多変数の微積分については
缶アカデミーの動画がありますので
参考にしてください
しかし正直ここで今重要なのはこの
ベクトルを計算する方法があるということ
ですこのベクトルによってどの方向が
下り坂でそれがどれだけ急かわかります
それだけ分かっていれば詳細まで完璧で
なくても大丈夫です
この関数の最小化のアルゴリズムは
勾配の方向を計算して下り坂に少し歩いて
これを何度も繰り返します
この基本的な考え方は入力が13000の
関数でも同じです私たちのネットワークの
13000の重みとバイアスを巨大な列
ベクトルに揃えるところを想像して
くださいマイナスのコスト関数の勾配は
ただのベクトルですこの巨大な入力の空間
の中のとある方向でこれらの数をどう
突っつくとコスト関数が最も早く減少する
か教えてくれます
[音楽]
そしてもちろんこの特別にデザインされた
コスト関数について重みとバイアスを変え
てこれを減少させるというのはそれぞれの
訓練データについて
ネットワークの出力をランダムな10個の
値ではなくきちんと選択のように見える
ようにするということを意味しますこれは
大事なところですねこのコスト関数は
すべての学習データについての平均に関係
していますからこれを最小化するという
ことは全てのサンプルについてより良い
パフォーマンスが得られるということです
ねこの
勾配を効率的に計算するアルゴリズム
ニューラルネットワークの学習の心臓とも
言えるのが
誤差逆電波法ですこれについては次回の
動画でお話ししますそちらでは時間をかけ
て
与えられた学習データについてそれぞれの
重みやバイアスに何が起こるか見ていき
ましょう
微積分と公式の山を越えて直感的な感覚を
つかみたいと思います
詳細については置いておいて今ここで知っ
ておいていただきたいのは
ネットワークが学習するというときこれは
ただコスト関数を最小化しているだけなん
ですね
そしてその結果として重要なのがこの
コスト関数は
極小値を見つけるために効果できるように
滑らかな出力を持っていないといけません
ところでこれが
ニューロンのアクティベーションが生物の
ニューロンのように
活性不活性のバイナリーにではなく連続的
な値になっている理由です
この関数の入力を
購買の負の数倍で繰り返しずらしていく
過程は
購買効果法と言いますコスト関数の極小値
に収束していく要はこのグラフの谷底に
行く方法ですね13000次元の入力空間
で動いていくのは理解しづらいので依然と
して画面では2つの入力の関数の見た目を
お見せしていますしかしこれを空間的な
方法と別の方法で考えることができます
マイナスの勾配の成分それぞれからは2つ
のことがわかりますまず符号からは
もちろん入力のベクトルの対応する成分を
増加させるべきか減少させるべきかが
分かりますそして重要なことにこれら全て
の成分の絶対値はある意味どの変化がより
重要か教えてくれます
というのもこのネットワークでのある一つ
の重みの調整はある他の一つの重みの調整
より大きな影響をもたらしますつまりこれ
らのつながりの一部は学習データについて
より重要なわけですねなのでびっくりする
ほど巨大なコスト関数のこの購買ベクトル
はそれぞれの重みやバイアスの相対的な
重要度の情報を持っていると考えることが
できますつまりこれらのうちどの変化が
一番お得かですね
これは方向の単なる別の考え方です簡単な
例変数が2つの関数を考えて特定の点で
勾配を計算したら31になったとします
一つの考え方としてはこの点に立っている
ときこの方向に動くと関数の値が最も早く
増加すると考えられます
つまり入力の点のある平面上に関数の
グラフを書くとこのベクトルが一番急に
上る方向になっていますしかしもう一つの
考え方としては一つ目の変数に与える変化
は2つ目の変数に与える変化より3倍重要
であると読むこともできます少なくとも
この入力の近傍ではxの値をいじる方が
よりお得なわけです
さてズームアウトしてここまでをまとめ
ましょう
ネットワークそのものが784の入力と
10の出力を持つ関数で重み付きはで定義
されていました
コスト関数はもう一段複雑で13000の
重みとバイアスを入力として
訓練データをもとにお粗末さを表す一つの
値を吐き出します
コスト関数の勾配はさらにもう1段複雑で
これらの重みはバイアスをどう変化させる
と最速でコスト関数の値が変化するか教え
てくれました
つまりどの重みやバイアスを変化させるの
がより重要かと解釈できますね
さて
ネットワークをランダムな重みとバイアス
に初期化してこの購買効果のプロセスで何
度も調整してやると
初めて見る画像について実際どれくらい
うまく分類できるのでしょうか主に見た目
の理由で選んだ
隠れそうとして16個のニューロンが2層
あるこのネットワークでは
初めて見る画像についても96%ほど
正しく分類できます悪くないですね
正直間違えた画像を見てみるとやむを得
ない感じもします
[音楽]
隠れ層の構造を少し変えてやるとこれを
98%にもできて最高ではないですが結構
いいですよねもちろんこの平凡な
ネットワークよりもっと洗練された構造で
はより高いパフォーマンスを得ることも
できますでも最初の問題がとても難しそう
に見えたのを思い出すとそもそもどんな
ネットワークでも一度も見たことのない
画像についてこうしたことができている
こと自体すごいと思います
具体的にどんなパターンを探せとも言って
ませんからね
はじめこの構造はこうなってほしいという
話をしましたよね2層目が短い線を拾って
3層目がそれをくっつけて和とか長い線を
認識し
最後にこれを組み合わせて数字を認識する
とでは実際このネットワークはこうなって
いるんでしょうか少なくともこの
ネットワークについては全然違います前回
の動画で一層目の全てのニューロンから2
層目のあるニューロンへの繋がりの重みを
2層目のニューロンが拾うピクセル
パターンとして視覚化できるという話をし
ました
さて実際に今回のネットワークでこれを
すると
短い線を拾っているというよりはほとんど
ランダムに見えます真ん中に
ゆるくパターンがあるくらいですね
計り知れないほど巨大な13000次元の
重みとバイアスの空間でこのネットワーク
は極小値を見つけて
ニコニコしているわけですがほとんどの
画像を正しく分類できているのに
我々が求めていたパターンは拾ってないん
ですねさらにこれを深掘りしてランダムな
画像を入力するとどうなるか見てみ
ましょうシステムが賢ければ
戸惑いそうですよね10個の出力の
ニューロンのいずれも活性化しないか全部
均等に活性化するみたいなでもこの
ネットワークは自信を持って無意味な
ランダムの画像を5だと言ってきます
言い換えるとこのネットワークは数字を
結構上手に認識できるんですが自分で書く
ことはできないんですね
大部分は厳しい制約の学習に原因があり
ます
ネットワークの立場になってみれば世界に
は明確に定義された数字しかありません
コスト関数に従えば自分の決定に自信を
持たない意味がないんですね
[音楽]
もしこれが2層目のニューロンがやって
いることならなぜ始めこのネットワークを
線やパターンを拾ってほしいと言って導入
したか不思議に思うかもしれません実際
全然そのようにはなりませんでしたねこれ
は私たちのゴールではなくて
スタート地点です正直これは80年代や
90年代に研究された古い技術でより詳細
な現代の編集を理解するためにまずこちら
を理解する必要がありますそしてこれは
明らかに興味深い問題を解くことができ
ますしかしこの隠れ層が実際何をしている
か理解するほどそんなに賢く見えなくなっ
てきますね
[音楽]
少し焦点をずらして皆さんがこれをどう
学習するかお話ししましょうこれは積極的
に材料と関わることによってのみ起こり
ます一つ皆さんにやっていただきたい簡単
な例としてこのシステムをどう変えたら線
やパターンを拾えるようになるか考えてみ
てください
[音楽]
しかしさらに実際に手を動かしたい方は
マイケルニルセンの深層学習とニューラル
ネットワークについての本をおすすめし
ますこの中にはダウンロードできるコード
とデータがありまさに今回の例について
一歩一歩進めていくことができます
この本は無料で公開されていてここから
何か学べたという方は寄付されてみては
いかがでしょうか他にもクリスオーラの
美しいブログ記事やディスティールの生地
を概要欄に載せています
[音楽]
最後の数分は前回の動画と同様
ギリシャリッドのインタビューの要約をし
たいと思います彼女は深層学習について
phdをとって今回はより現代的な画像
認識ネットワークが何をしているか近年の
2つの論文について話しています一つ目の
論文ではこうしたある一つのディープ
ニューラルネットワークについて扱ってい
ますこれは非常に画像認識が上手なんです
が正しくラベル付けされたデータではなく
てランダムにシャッフルしたデータで訓練
されていますもちろんラベル付けが
ランダムだったのでテストの結果はより
良くなり得ないはずでしたが正しくラベル
付けされたデータと同様の学習成果を得る
ことができました
このネットワークの何百万もの重みと
バイアスはランダムなデータを十分に暗記
できたんですね
ある意味コスト関数の最小化が画像の
何かしらの構造に対応するのかただの暗記
なのかという疑問が浮かびます
半年ほどして
icmlで
反駁というほどではないんですが実はこの
ネットワークはもう少し賢いことをして
いるんじゃないかという論文が出ました
コスト関数の値つまり不正確さの曲線は
ランダムなデータによる学習では非常に
ゆっくりとほぼ線形に下がっていってい
ますなので正しい重みを極小値を見つける
のにかなり苦労しているんですね
一方で正しいラベルで構造化されたデータ
での学習では初めフラフラしているんです
がその後この正確さまでかなり早く落ちて
きてある意味極値を見つけるのがより簡単
だったと言えます
もう一つ興味深いのは別の論文でこちらで
はもっとネットワークの層について
簡略化されているのですが結果の一つとし
てこれらのネットワークが学習しがちな
最適化の見た目
極小値を見てみるとこれらは実は同程度の
質のものであるといいますなのである種
データが構造化されていればこれをより
簡単に見つけられるはずだということです
ご視聴ありがとうございました本家英語版
にはペイトリオンがありますので
支援を検討してみてくださいまたこの
シリーズの支援をしてくれたVCの
amplifyパートナーズもチェックし
てみてください
それではまた
[音楽]
5.0 / 5 (0 votes)