セーラー服で機関銃トーク:Mamba導入編〜制御工学の基礎+α
Summary
TLDRThe video script discusses the complexities and foundational concepts of the Mamba architecture, a recent advancement in AI that has the potential to surpass transformer models. It delves into the intricacies of state-space models, which are integral to understanding the Mamba approach. The speaker aims to clarify these concepts for those who find the subject matter challenging, particularly those without a background in physics or engineering. The script also touches on the evolution from S2 to S4 models and the introduction of structured state-space sequence models, highlighting the innovative aspects that make Mamba a topic of significant interest in the AI community.
Takeaways
- 📚 The speaker is part of a study group focusing on understanding the algorithms within a paper and its related video explanations, indicating a collective effort to grasp complex topics.
- 🤖 The 'Mamba' architecture, introduced in a paper published around December of the previous year, is a new method that differs significantly from the Transformer model and has the potential to outperform it.
- 🧠 The Mamba model is based on state-space models, which are foundational in control theory and physics, and it introduces a novel approach to handling sequential data.
- 📈 The model has gained significant attention due to its innovative nature and the possibility of replacing the Transformer model in certain applications.
- 🔍 The speaker discusses the difficulty in understanding the state-space model at first glance, especially for those not familiar with control theory or physics, and the importance of revisiting foundational knowledge.
- 📐 The script delves into the specifics of state-space models, explaining the mathematical formulation that involves input (X), hidden states (H), and output (Y), and the associated differential equations.
- 🤷♂️ There is a mention of confusion regarding the order of differential equations used in the model, as typical mechanical equations are second-order, but the model uses first-order equations.
- 🔄 The explanation includes a detailed breakdown of how to transform higher-order differential equations into a system of first-order differential equations, which is key to understanding the Mamba model.
- 🔧 The script touches on the practical application of control theory, using the example of an automobile to explain the concepts of input (U), state (X), and output (Y) in a real-world context.
- 🔮 The speaker anticipates that further study and explanation of the Mamba model will be beneficial for those who have struggled with the initial concepts, aiming to provide an introductory explanation to help others understand the basics.
Q & A
What is the main topic discussed in the script?
-The main topic discussed in the script is the study and understanding of a research paper and the related control theory, particularly focusing on the concept of state-space models and their application in a method known as Mamba.
What is Mamba in the context of this script?
-Mamba, in this context, refers to a new architecture proposed in a research paper that is based on state-space models and has the potential to surpass the Transformer model in performance, making it a current topic of discussion.
What is a state-space model as mentioned in the script?
-A state-space model is a mathematical model used in control theory to represent the dynamics of a system. It is described by a set of first-order differential equations where the state of the system evolves over time based on its previous state and control inputs.
Why are state-space models considered difficult to understand for some people?
-State-space models can be difficult to understand because they involve concepts from control theory and differential equations, which are advanced topics that require a strong foundation in mathematics and physics.
What is the significance of the equation presented in the script involving X, H, and Y?
-The equation signifies the state-space model where X represents the input, H represents the hidden state that evolves over time, and Y represents the output or observable data that results from the hidden state.
What is the role of the control signal U in the state-space model?
-The control signal U is an input to the system that influences the evolution of the hidden state H. It can be thought of as the force or action applied to the system from the outside.
What is the purpose of studying the foundational level of understanding before delving into complex papers like the one on Mamba?
-Studying the foundational level is crucial because it provides the necessary background knowledge required to comprehend complex concepts and theories presented in advanced papers, such as the one on Mamba.
What is the difference between the state-space model S2 and the structured state-space sequence model S4 mentioned in the script?
-The S2 model is a traditional state-space model used in control theory, while the S4 model is an extension that introduces selectivity and structure to the state-space model, making it more suitable for certain applications like language models.
Why is the concept of 'forgetting' in the state-space model important for the Mamba architecture?
-The concept of 'forgetting' is important because it allows the model to not remember every detail from the past, which is crucial for handling long sequences of data efficiently, such as in language models.
What is the significance of the term 'potential to surpass the Transformer model' in the context of the Mamba architecture?
-The term signifies that the Mamba architecture, based on state-space models, has shown promising results that could potentially outperform the current standard of Transformer models in certain tasks, making it a noteworthy development in AI.
How does the script relate the concepts of control theory to the field of AI and machine learning?
-The script relates control theory concepts by discussing how state-space models, traditionally used in physics and engineering, are being adapted and applied in the field of AI and machine learning, particularly in the development of new architectures like Mamba.
Outlines
📚 Struggling with Understanding State Space Models
The speaker discusses their experience with learning about state space models, likely from a control theory perspective, by reading papers and watching explanatory videos. They find the material challenging, particularly because the foundational concepts are assumed to be known and are quickly glossed over in academic papers. The speaker expresses a desire to create an introductory explanation for others who might be struggling with the same material, focusing on the basics to help them progress in their understanding of more complex topics.
🔍 Delving into the Basics of State Space Models
This paragraph delves into the concept of state space models, which are used to describe the dynamics of a system using state variables. The speaker explains that these models are essential for solving a variety of problems and can be represented mathematically using state equations and output equations. They discuss the general form of these equations, involving matrices and control inputs, and how they relate to physical states and observable outputs. The speaker also touches on the complexities of understanding these models, especially when they are presented with differential equations.
🤔 Clarifying Doubts about Differential Equations in State Space Models
The speaker continues to explore state space models, focusing on the differential equations that describe the system's dynamics. They express confusion about the order of the differential equations used in the models, questioning why a first-order differential equation is used instead of a second-order one, which is more common in physics and control theory. The speaker seeks to understand the rationale behind this choice and how it fits into the broader context of modeling physical systems.
🎨 Visualizing State Space Models with an Example
In this paragraph, the speaker attempts to visualize the concept of state space models using an example that involves a spring system. They describe the forces at play, such as spring force and friction, and how these forces can be represented mathematically. The speaker also discusses the challenges they faced in trying to create a visual representation of the system, highlighting the difficulties in communicating complex ideas clearly.
🚗 Applying State Space Models to Dynamical Systems
The speaker provides an application of state space models to dynamical systems, using the example of an automobile. They explain how the state variables, such as position and orientation, can be represented and how control inputs like steering, braking, and acceleration affect the system's behavior. The speaker also discusses the difference between observable and unobservable states and how state space models can be used to infer unobservable states from observable ones.
🌐 The Evolution of State Space Models in AI Architectures
This paragraph discusses the evolution of state space models in the context of AI architectures, specifically mentioning the transition from S2 to S4 models. The speaker highlights the innovative aspects of these models and how they differ from traditional state space models, focusing on the flexibility and potential of these newer models to handle complex tasks in AI, such as language modeling.
🤖 The Role of State Space Models in Language Modeling
The speaker explores the role of state space models in language modeling, drawing parallels between the concepts of control theory and the way language models process input and generate output. They discuss the potential of these models to handle long sequences of data and how they can be adapted to work with large-scale language models, such as GPT-3, which can process up to a million tokens.
🧩 Understanding the Components of State Space Models
In this paragraph, the speaker breaks down the components of state space models, discussing the transition matrices, control matrices, and observation matrices. They explain how these components interact and how they can be adjusted based on the input to the model. The speaker also touches on the challenges of parallelizing computations in these models and how recent advancements have addressed these issues.
🚀 The Impact of Hardware Utilization on State Space Models
The speaker discusses the impact of hardware utilization on the performance of state space models, particularly in the context of GPU computing. They explain how certain optimizations, such as the fast Fourier transform, can be applied to reduce computational complexity and enable parallel processing. The speaker also mentions the contributions of specific researchers in this area and how their work has advanced the field.
🌟 The Emergence of University Research in AI Innovation
In the final paragraph, the speaker reflects on the role of university research in driving innovation in AI, highlighting the development of models like Mamba and the Ring Attention mechanism. They express a desire for universities to continue pushing the boundaries of AI research and to have their contributions recognized and utilized by the broader AI community.
Mindmap
Keywords
💡Control Theory
💡State-Space Model
💡Transformer
💡Mamba
💡Hidden State
💡Differential Equations
💡Observation Matrix
💡Control Signal
💡Rings of Attention
💡Inference
Highlights
The speaker is studying the Mamba architecture and its underlying algorithms, finding them challenging, especially the control theory aspects.
The Mamba paper is a hot topic due to its potential to outperform Transformers and possibly replace them.
The Mamba method is based on state-space models, which are foundational in control theory.
A state-space model is introduced with a formula involving input X, hidden state H, and output Y, which is central to understanding the Mamba approach.
The formula presented in the paper includes differential equations, which may be unfamiliar to those without a background in physics or control theory.
The speaker discusses the difficulty in understanding the state-space model due to its brief introduction in the paper and the assumption that readers are already familiar with it.
An explanation is provided on how to interpret the state-space model formula, relating it to physical control signals and observable outputs.
The speaker expresses confusion about the order of the differential equation used in the model, expecting a second-order equation based on their knowledge of physics.
The Mamba architecture is an innovative neural network design that builds upon state-space models, aiming to surpass the Transformer model.
The speaker mentions the iterative process of reading and understanding the Mamba paper, including revisiting foundational concepts.
The concept of 'S4' and 'S6' models are discussed, which are structured state-space sequence models that extend the traditional 'S2' models.
The speaker explains how the Mamba model differs from control theory by focusing on the relationship between input U and output Y, rather than seeking the state X.
The potential of the Mamba model in handling large-scale language models is highlighted, with the ability to process up to a million tokens.
The speaker discusses the hardware utilization in Mamba, suggesting that it makes efficient use of GPU memory to speed up computations.
The Mamba model's ability to forget past information gradually is contrasted with the Transformer model, which remembers all past information.
The speaker speculates that Ring Attention, another innovation from universities, could potentially make Mamba obsolete if integrated effectively.
The presentation concludes with a reflection on the significance of the Mamba model and its potential impact on the field of AI and neural network architectures.
Transcripts
はいえっと今あの我々勉強会とかでもあの
マンバの論文を読んだりあの解説動画を見
たりしてあのその中身のアルゴリズムの
理解に努めてるんですけれどもあれ強烈に
難しいんですよねやっぱりであ特にあの
えっと前々からああの何でしたっけ制御
理論とかあの辺からあのアイデアを借りて
きてるんですねなのであの論文を読むと
いきなりあの状態空間モデルとはこれ
これれであるって書いてあってそこはもう
なんか当たり前にみんな知ってるよね
ぐらいな感じでささっと12行で通過し
ちゃうんで読もうとした時にそこでなん
じゃこりって引っかかった人は過去のもの
にたどってったりとかあの色々読みまって
まずその基礎的な理自分の基礎レベルを
上げとかないと続きが読めないという目に
合うんですよそのえっと入り口の喚問が
あるのでえっとそこであのぶつかって
跳ね返されちゃった方々のためにそこの
1番いるうちの入門のところをやりたいな
と思いますということでえっとモンバの打
をなす状態空間モデルについての導入的な
説明という話をしますなのでえっとここが
分かるとえっとそのしょっぱなの看を通過
してえっと論文がもう少し先まで読めると
いうそ本当の入り口のとこだけですで
えっとえこれはえっと誰に書かせたんです
けどえっとそういう話をしようとしてるん
で表紙へ書いてくださいつったらこんなん
でえっと北斎っぽい絵なんだけど数学
っぽいなんかこんな面白い絵を書いてき
ました
でえっとあのマンバっていう手法がえ提案
されたという論文があの去年のくれぐらい
に出たんですけどもえっとそこのこのやり
方っていうのはあのトランスフォーマーと
ガラっと異なるやり方でえっと性能的には
もしかしたらトランスフォーマーより上で
置き換わるんじゃないかという可能性が
言われているというすごく今話題になっ
てる論文ですでえっとその論文の基本的な
考え方として状態空間モデルステート
スペースモデルというものをあの土台に
連れてますでえっとそでその論文の第2節
にこんな数式が現れてえっとこれが状態
空間モデルですよってでなんかXって入力
があってでそっからヒドスペースあの隠れ
状態のHっていうのを経てそれでこのHが
分かったらそのYというの自系列データ
から自系列あの中間層を経て列デタY
アウトプット出力を出してくるというこう
いう数式なんですけど上は微分がついてて
下は微がついてないっていうこの式
そもそもなんじゃいって感じなんですねで
えっと知ってる人にとってはああれだねっ
てあの特に物理の制御理論をやってきた人
にとってはあの馴染みのあれだねって思う
のかもしれないすいません物理じゃないん
ですよ制御理論は高額ですあなるほどそう
ですね別にそうですね新しい発見したわけ
じゃニュートン力学を借りてきてこう表現
し直してっていうあのとにかく数値的に
解いちゃえって話ですよねうんあそうでし
たそうでしたでもまそっちをやってきた人
にとっては馴染みがある式かもしれない
ですけど私なんかも物理にも馴染むなけれ
ば工学もこういうの知らなかったんでこの
式見せられてもどどこをどう見たらいいの
か分からんという目にあったので調べたら
だんだん分かってきましたと特に疑問なの
はこれえっとXがなんか入力というかあの
こうジあのエンジンを噴射したとかこう
こっちからコントロールできる制御信号な
んですねそれでそれに対してえっとHって
のが実際にの物理状態がこうなってたって
のは直接観察でで計測できるわけじゃない
けど本当はこうなこういうことが起きて
ましたよっていう位置でそれでYがま観測
できるレーダーに移った軌道がこうでした
というようなことなんでこれはきっと
ニュートンの運動方程式を表したりする
あるいは電磁気学の法則とか物理法則を
表してる微分方程式のはずなんだろうなと
思うんですがその割には運動方程式って2
階の微分方程式なのになんでこれ1階なん
だろうっていうあのなんか大昔の
アリストテレスの頃の世界観で力右辺が力
だったらそれは速度を決める加速度じゃ
なくて速度を決めるって微分方程式だとし
たら変だなと思っちゃうというような疑問
がありましたそこをクリアにしたかったと
いうことでえっと対象の論文はマンバで
えっとこれはえっと言った通り
えっと去年のえ12月1日に出てきた論文
ですねただこれはあのえっとその前でも
これを通称s6というそなんですねなんか
シークエンスにセレクティブにステート
スペースにもう1つなんとかってなんかS
がいっぱいついててS6っていうらしいん
ですけどその前のバージョンでS4って
いうのがあってあ同じくアルバートグー
さんたちが書いてるあの前のがあって前の
を読むともう少し詳しく書いてあるんで
やっぱり前前遡って読むことになるんです
けどもまあまああのこれこのロブ時代には
さらっとしか書いてないですでえっと
そもそもマンバて何ですかて安直に
チャットGPTに聞いちゃったんですけど
えっとこの2人によって発表された新しい
クワクアーキテクチャーですとで状態空間
モデルを基礎に据えてますでまあの色々
工夫が凝らされていますってことでえっと
あのトランスフォームモデルを超える可能
性を持つとされていますなんここで止まっ
ちゃいましたそんなようなものであの評判
になってる新しいなんかニューラルネッ
トってかなAIのアーキテクチャーいう
ことですねええっとポスト
トランスフォーマーになるかみたいなこと
が言われているでえっとえっとそれでえ
状態空間モデルとは何でかて言ったら
えっとシステムの1回常備民法式または
差分法式で有するための状態変数を使用
するモデルですとだからま物理状態の
書き表し方をこういう風に書くとあの
いろんな問題が一般的に解けるねっていう
のそういうことでえっとそのえっと1番
えっとジェネラルなその一般系っていうの
はこうなってて
えっと状態方程式と出力方程式とこの日本
の方式からなっててでabcdは行列で
えっとUがそのそのコントロール可能だ
このエンジンを噴射したとそういうえっと
コントロールですねそれでえっとこのXが
現実の状態でこれがこういう微分法式
満たしつつX現実の状態が変わっていくと
でそれに応じてその奇跡が分かればそれに
応じてなんか的に当たったとか当たん
なかったとか的からどんだけ離れたと落ち
たとか軌道がどうだったとかあの燃料を
どんだけ使ったとかそういうあの目的がし
たかどうかかみたいなことが出てくると
こういうえっとUからYへのえっと関数自
系列から自系列の関数であって間にこの
見えない現実状態という隠れ状態があの
経由されてこう通っていくとそういうよう
なモデルですでえっとあの今の式これなん
ですけどねえっとXの方にだけ微分がつい
てますだからこの第知式がXについての1
回の上微分方程式って形してますねで
えっと今言った通りXがUが入力でXが
状態でえYが出力とそれでまこれそれぞれ
行列なんですけどもえっと名前がついてる
とでえっと元々はP次元だったのn次元を
経てまた急次元に落ちるということで観測
できる事件ってのは実際に起きてる事件
よりも小さいことしか観測できないだっ
たりするというのはよくあるあの設定の
ようですで
えっと気持ち的にはこのの式の読み方で
ちょっとあのすでにハム言っちゃいました
けどえっと言ってのが入力でこれはあの
こっちから与えられる制御信号というか力
ですよねだから重りを手で引っ張ったとか
宇宙線のエンジンを付加したとか家事を
切ったとかそういう風にこっちから制御
できるあのえっと力です加えてる力で
えっとXTはえっと現実の状態でえっと
本当の現実の軌道はどうだったかていう
ことですねでそれ自体は直接観察観測
できるとは限らないので隠れ状態なわけ
ですねで出力ベクトルはもしこのXが
分かればあのすっと計算できるようなもん
であって結論どだったと当たったの当たん
なかったのというよなここでもし分かれば
さっと計算できるべきものだという風に
読めばいいんだと思いますでえっとそれで
このえっと2つある方の1つ目の式これが
微分方程式の形をしていてえっと未知の
関成xtに対してえっと1回微分したもの
がえっと元のXTとそれから与えたあの力
の変遷とでこんな風に表されというのが
えっと現実に起きてる世界を支配する物理
法則みたいなもんだということですねでと
いうことはあの普通の力学だったら
ニュートンの運動法式が表してるもんだと
見るべきものだとところがそれはあの本当
は力右辺が力だったら左辺はMAとあの核
速度を決めるはずなのになんでこれ1回
微分なんだろうていうような疑問がある
わけですでこれ答えを言っちゃうとこれ
連立だからというのが答えですどういう
ことかというとえっと2回とか3回とか
公開の常備分方程式ってのはえっと1回の
連立の常備分方程式の形で書き直すことが
簡単にできちゃうんですねうんそれが答え
ですということで以上ありですねえっと
あの一般系であのXのTに関する2微分が
TとXと1微分のなんかのある数式で表さ
れてたつたらこれが2階の微分方程式です
ねでこういうのがあった時これ確かに元は
2階の微分方程式なんですがでXっていう
関数が未知の関数でこの微分法式を満たす
ような関数Tによってこう変わってくあの
そのxの値をあの全てのTについて求め
たいというのが解きたいという問題ですね
でこれであのXが分からない未知の関数な
んですけどもう1つVっていう関数を導入
してVも分からんということにして分から
ない関数を2つ用意してくるんですねでV
は何かというとXを微分したものはV
つまり今いる1を時間で微分したものだ
から速度です速度ベクトルがVだという風
にするとえっとX2ドってのは要はVを
もう1回微分したもんなんでV.になる
わけですねそれからここにX.ってある
けどこれはVだねってなると左辺がX.=
でv.=でで右辺がTとVとXの式とこう
いう風になるのでだからXという関数とV
という関数が2つの未知な関数だとすると
この2つの関数に関する連立の1回の上
微分方程式の形で掛らされて表してる内容
は2回と同じだということでえっと何回の
微分方程式でもこうやってあの1回の連立
の形に直るとそうするとあそれでこれ
ちょっとあのある例でやってみましょうと
でこれちゃGPTうんとGPT4というか
ダ3に書かせたんですけどあの図を書くの
下手ですねみんな絵になっちゃってこれ
本当は真横から見た普通のあの図を書いて
欲しかったんですけどもどうしても書いて
くれなくてかなり苦あのこの物体が中に
浮いちゃったりしてもあのテーブルに
接するように書いてくれとかあの右と左が
逆になってたりとかなんかバネがあの壁に
くっついてなかったりとかもうあのダメな
絵ばっかり書いてきてやっと頑張ってここ
まで書いたけど全然思いとりねが書け
なかったんですがそれをそうとしてえっと
これF=MAえっとが力で力の合計ですね
Fですねそれからえ質量かけるえ加速度
これがニュートンの運動方程式ですねで力
の方はえっとこのえっとバネが
ニュートラルなあの引っ張りも押しもし
ない状態のところX=0と置いたらそっ
から伸びてく方向がxだということにする
とこの伸びたら縮みたいのであのその伸び
た量に対してそれを引っ張りのすマイナス
の方向にバネ定数系をかけたこれがバネ
から受ける力ですそれからがこれが
ズルズルっと動いてる時はその動いてる速
さに応じて摩擦力がかかるので動いてる
方向の逆向きにあの引き止める方に
ブレーキをかける方に力が働いてこれが
摩擦力ですねそれからえっと人が手で
引っ張ってるとかなんか外から加えてる力
ということでこれがえっと微分法出式です
ねでこれはさっきと同じ手を使ってえっと
Xの1回微分をVと置けばんとまずこれで
1つ方程式が立ちそれからえっと左辺は
えっとVをもう1回Tで微分したvtで
なるので
えっとでXこそのままそれからXダシュは
Vで置き換えちゃうとそうすると左辺はX
ダ=x.=とでV.=というあの1微分の
形して右辺はあのXとVとTであの表現
できてるという連立のえ1回常微分方程式
になりましたとでこれをベクトルで書けば
えっとXVっていうこう組にしたやつをT
で実1回時間微分したものはこう行列の形
でえっとxとVに対してこういう行列が
かかってそれからUに対してはこれスカラ
なんだけどこうやることで下の方にだけ
えっとUを持ってくるっていこういう風に
次元をえっと持ち上げるこうであの先ほど
の状態方程式の形になったとあの作の1回
ビイコールえっとこいつの1回微分
イコールこいつに行列をかけたものとそ
から制御信号にある行列をかけたものと
こういう形になったということでえっと
運動方程式もさっきの形にかけるという
ことがこの例で分かりましたということで
えっとあとはあの警戒になってもってこれ
まついでにやっただけですけどえっと
えっと
数のえっと時間で警戒微分したものは
えっとそれ以前のあのK-T回微分した
ものまでで線形和で表せたっていうこ線形
の常備法的しがあったとしたらえっとこれ
も1回微分をえっとx+Vとおき2回微分
をWと置き3回微分という風にこういう風
に置いてくことによってえっとX0を1回
微分したものはx1だとこうやってだから
対角成分は0なんだけど対角成分の1個上
右上に1が並ぶような変な体格用ですそれ
で最後のところだけ微分式の形になったの
でえっとKマ1回もう1回Tでビムして
警戒微分したものはとこ下げでそれは
えっとそれまでのやつの線経和で表される
とこういう風になってるだからあそれで
あとはUに関してはこの1番最後の微分
方程式のところにだけつくけど次元を
上げるために006つけとくとこれであの
できたのでやっぱり先ほどのその状態方程
式の形式に落とし込むことができたとだ
から公開のやつをを連立にしたであの形に
なるとあの式の形を書き直したということ
がであの一応理解できましたということで
えっと
これでえっととりあえずなんかこう
つっかえてた石をどけることができてその
先に進めるようになりましたということで
えっと入口の話でしたえということで
えっと
この問題のこのえっと状態空かものあの
基礎的な方程式というのはえっと今のよう
な解釈であの納得しましたとそういう話
でしたはい以上ですはいえちょっと僕は
この辺は相当勉強したんで1番最初から
ちょっと見せてくださいええっといいや話
ますまずねこういうエ出しこういう式これ
は何を扱ってるかというと力学系はいはい
ダイナミカルシステムというんですよはい
でそれを記述する方程式がこれねはいはい
はいで次行ってくださいえっとこれ論文
ですねそれまいいですでま要するに
なんまままこの辺はいいですはい元の一般
的な形はこの行列abcdもTに依存って
いうことになってここにもなんかUがつい
てるこの形が1番一般的な形のようですね
はいうんうんええ結局ねいや何が言い
たかってかちった制御
理論で言うならばですねあのいやじゃじゃ
もっと元に戻してくださいUとかはいの
解釈ねはいはいこの言っていうのがねこれ
入力というのよはいはいで具体的に言えば
ねはい例えば自動車を考えましょうとうん
でXは自動車のまこれ2次元だから1うん
それから自動車はね1の他にあの方向向
きってのがあるからそれをまシとする
でしょならこの自動車の座標X1X2と
表すとそれから向きがスタと表すとこれで
3つ変数があるわけねうんうんうんで
さらにそのX1.X2.スドというのが
あるわけようんうんうんだからこれで6
変数になるんですようんうんうんでUとは
何かというと入力ね入力信号とは何かと
言えばそれはハンドルでありうんあるいは
ブレーキでありアクセルなんですうんうん
でアクセルとかブレーキを踏むとXドを
大きくしたり小さくしたりするうんわけ
でしょうんででハンドル回すとシを変える
わけよでYって何なんだってこれは観測さ
れるもんなんですよでXは今みたいにこの
本体のま状態ね今みたいに自動車の位置と
向きなんですよでYはねメーターなんです
よあ観測できるの速度系うんうんうんとか
あるいはGPSを積んでるなら位置が
分かるわけよねうんうんあのタコメーター
みたいで何k走ったとかそういう積分とか
そういうやつですなはいだから要するにY
っていうのはね観測できるものそれが
メーターなんですようんでXは観測でき
ないものうんうんうんそのままではわかん
ないものでUは入力うんそういう解釈なん
ですよですからこの制御理論っていうのは
自動ま飛行機なんかもそう飛行機の場合は
ねXYZって3次元でその速度があるから
6次元でで向きが飛行機の場合3つあるの
よだからそそれで3でだから結局ね全部で
12次元になるわけよででじゃあUは何な
わったら操縦感とかスロットルとかそんな
もんですねででYって何ですかちったらね
その速度計とか高度系とか傾きのとかあれ
GPS積んでるならま1もそのまま分かる
とかまそういうもんなんですよでYが
分かったからって
ねで専用理論ちゅうのはですね普通UとY
を与えてまUはね自分で操縦すんだか
分かるわけよでYはあのあれメーター見れ
ばわかるわけそっからxを求めるというの
が制御理論なんです
よところがですねマンバ云々はねの状態
空間モデルっちゅいうのはこれ僕ね勉強し
ててさあの勉強会でま勉強会に参加してる
人はま自分は物理学者だけどあの後はま
工学系の人も言っててですねまあの制御
理論ちゅうのはまあだいぶ勉強したから
分かってんだけどここで大きく違うことは
ね制御理論はUとYを与えてxを求め
るっていうのが制御理論の目的なのよ
ところがですねマンバとかどうとかいう話
はですねXっていうのはねどうでも良いの
よ実はうんUを与えてYを求めるとうん
うんうんで普通はこう書この方程式で書く
とこれ連続信号なわけよねうんうんでUに
連続例えば音波あの音の強度みたいなのも
与えるわけようんででYが何か出てくると
いうそういう時こう連続の場合そうすん
ですよででですねあの結局この彼ら彼ら
ちゅうのはあのダオさんとかグさんはね
これをですねあの言語モデルに使いたいと
うんこれがマンバなんですよでSさっきね
S4と言われましたけどね普通ここで出
てんのはS2なんですよでステート
スペースモデルS2ああそうか元祖という
かそういうことになるんですねはいそう
これだから今話しされたのはS2の話され
たなるほどあそうそうだったんですなあ
それに当その次にS4というのがあってね
はいはいはい彼はねストラクチャードえ
ステート
スペースシークエンスモデルかなんか言い
てまこれはねゴロ合わせですよはいはい
はい元々あっったのはS2ステート
スペースモデルなんですよそこで彼らが
発明したのがS4でSSSSうんうんうん
うんこれがねストラクチャードってところ
が特徴うんうんうんうんうんなんですよ
はいはいはいでそれでマンバたのS6に
当たるもんでこにさらにセレクティブが
ついたからもう1Sだつってそうそうそう
そうそうそう本当ならね僕S5だと思うね
よセレクティブだけでそこにねゴロ合せ
するためにスペシャルかなんか入れてああ
24と来たから6にしたくなっちゃっ
たっていう遊びですよはいはいはいそう
ですねでだからS2モデルが今までの説
理論とかで非常によく知られておってでS
4を彼らがねうん実は提案したのよそれが
もう2年ぐらい前か3年ぐらい前かそんな
前ですねはいそうでいや僕は彼のねあので
ぐさがえスタンフォードのドクターの時に
ま去年ですよドクターのであのセミナーで
講演して聞いたわけまそれ見てね頭の人だ
なて僕思ったアルバートグーさんですね
はいんすごい早口でたまんないいすよ方
大変でしたほんでね彼がねで今あのジョグ
マーケットにいますとか言ってたからま職
を探してると言ってたわけねうんうんほん
そん次はねもうね金木メロのね
アシスタントプロフェッサーになっててで
それの講演をま我々の勉強会で見て小林
さんそれ見られたわけでそれが早口だった
わけ僕はその前のねうんあの彼がphdの
時あのドクターの学生の時の声も聞いた
けどそん時は顔が見えてるからねまあもそ
若い人うんうんうんうんうんうんま
ドクター出たばっかりですからまままだ
20代かもしれんよねいやだから僕は天才
だと思うんだけどでで彼が提案したのがS
4ちいうモデルを提案してでマンバはS今
みたい6ねこれはね何が違うかと言とです
ねまずねS4でもねすごいのはすごいのは
ね今体にS2のステートスペースモデルは
さっきも言うたにUを与えてYを与えてx
を求めるっちゅうのはま目的だったんだ
けど度はですねXはどうでも良いのうん
うん毎回変数みたいなもんなんですようん
Uを与えてYを出すとその間の関係をです
ねあのそのXというあの潜在空間を回すで
さらに面白いことはねこれはね僕ま勉強会
でもそうみんなさ目からうだて言ったんだ
けどこの場言ってスカラじゃないですか
あの簡単なケースはねもちろんこれベクト
してもいいんですよまアクセル踏むとか
踏まないとかそういううん1番簡単な
ケースはUがスからねうんところがxはね
ベクトルなんですようんこれはどういう
ことかっちゅうとですね潜在空間ね広げる
んよ今までね潜在空間ちうと圧縮すること
考えてうんそうじゃないんですよ広げるん
です
よこれがね僕らね聞きておおそうかってで
なんで広げるんだって
うんこれはねその後あのあれ言語モデルに
やる時にねこのことが生きてくんですよ
どういうことかて言語モデル
トランスフォーマー考えてみてください
トランスフォーマー考えた時に
ね言語あまトクの列があるじゃないですか
このトクの列ちゅうのがUの列みたいな
もんなんですよでで出てくるYってのがね
あのそのトランスフォーマーにえその
プロンプと入れた結果が答えがなんか出て
くるじゃないですかそれがYなんですうん
うんだから入力のプロンプトがUでね出力
のプロンプトがYなんですようんでその間
にいろんなことやってるじゃないですか
トランスフマの中であれがxなんですよ
はいはいはいじゃあのXのね次元がねうん
ね何次元であるかって実はどうでも良かっ
たでしょ例えば小林さんがねあのGPT3
で試され1番安いのが104次元でその次
が248次元でその次4000何次元その
い1万2000そうですたなはいつまりね
ところがどれを使ったって基本的に同じ
やっておくと同じでしょうんただ安いか
高いかに応じて性能は違うけどうん
うんでも性能がね高いか低いかはね出て
くるプロンプトがねどれだけ最もらしい
かっちゅうだけの話であってね要するに
なんか質問のプロンプと今で言いたUを
入れたら答えのプロンプとYが出てくると
いうことに関しては同じであって中の次元
が104次元であろうが1万2000次元
であろうが結局はどうでも良かったわけ
じゃないですかうんうんそれと同じにあ
これもあのXっていうのはね次元を広げる
ことによってねでどう何次元にするかね実
はどうでも良いのうんで実は彼はねあの
試してんですよ次元が同じね入力今の場合
言うはあのスカラーだけどあれはまま
ベクトルとましますよねでその時にねどん
だけね大きくするかでね1倍2倍4倍8倍
16倍とか色々やってんのよで大きくすれ
ばするほど性能はいいんだけど計算時間は
かかるわけでああで2倍でもいい1倍でも
いいってのは何なんだってことでこれはね
僕らもびっくりしたんだけどま要するにね
広げるんですよで今までのイメージはね
圧縮するイメージだうんねそうじゃないん
だ広げるんだでなんで広げるといいかと言
とですねここ
で彼のあのあの偶さがねこれ言語モデルに
使うということ考えたんだけどS4はダメ
なんですよS4はね連続的な入力が入って
連続的な出力が出てくるという問題に関し
てねいろんなものをテストしてみた結果
非常にいい成績出してんのようんところが
言語モデルではダメなんだああなんでかう
とねあの加したにあれ時間的に参加する
ですよね小さんさっの話時間的に連続の話
時間的に2が対したこれをねコンスタント
の感覚にするというのがまS4でS4で
あの言語扱った場合なんですはいはいその
場合はね成績が悪いのよああでこれをね
こうこの時間感覚をね変にすんのようんで
それもねしてきたもので変えるんですよ
うんだからさっきねABBCDとあった
けどまDは実はどうでもあのDはねうん
あれはもう略してますねはいあれスキップ
コネクションなんですよはいはいはいでA
がねトランジションマトリクスいうねうん
でBがねあのコントロールでCがねこれは
ま出力ですがまこれエミッション
マトリックスとかまオブザベーション
マトリックスとか言うんだけど
うんで入力してきたいううんによってBと
Cを変えるんよでAは変わんないのようん
でこれ僕ねあのヤニキリアのあのあれ
えっとあれを見たんだけどねうん僕
いろんな人がねあの解説してるけどね
分かってないんじゃないかと思ったんよ
ヤニクキアも理解してなくて言ってんだと
僕は思ったなんでかちゅうたらあのがねね
時間的に変化するって言ってんだけどでも
あの偶さはですねいやそれそうしたらいい
けどそこは難しいからAは一定でBとC
だけが入力の関数とすんだようんうんで
どういうことかっち言うたらですね言葉が
入ってきた時にねこれ飛ばしてもいい言葉
とそうでないこと例えばうとかあとかいう
のがあるじゃないですかうんこんなものは
飛ばしていいわけだからそん時にはねうん
あのこの状態空間モデルっちいうのは今の
が過去の状態と入力から決まるんですよで
どっちに植えとおくかとね
でこの状態に過去の履歴をね一応みんな
覚えとるんですようんでで何か言葉が入っ
てきた時にこれをねこれを重視するか前
からの履歴を重視するかっていうのでで
そこをだからはあうん前からの履歴ちいう
のはAなんですよね下から入ってくうんは
BなんですようんうんうんでAは一定なん
だけどでもね時間感覚を変えるとAの影響
は当然変わるんですよああうんあのAって
のは連続なんだけど普通はエバを使って
あの算的にしABを使うあれはi-デルタ
のAとなでだからデルタを変えれば当然A
バが変るわけあはいうんそういうわけで
感覚を変えることによってですねこの下
からくるのか上から来のあ横から来んの
どっちをまジスするかそうしないとあの
言語モデルとしてはうまくいかないという
ことが1つでさらにね僕はねこれ見て
なるほどと思ったのですね
このその色々入力あった時に過去のあのた
あの何が入力されたかちゅうと一応ねこの
状態空間を覚えとるわけようんね覚えとる
んだけどね全部は覚えきれないんですよ
だってさあれ無限の過去あの過去からの
経歴も一応覚えられないそんなも覚えられ
ないだから忘れていかんといかんねようん
でそれがね小林さんがおっしゃったあのA
っていうマトリクスの固有地であのあれ
計上するわけだから小さくなってつまり
過去の影響はねこうゆっくり下がっていく
んようんうんうんでつまりね
トランスフォーマーはあのあるウンドて
いうのがあってそこまでは全部覚えてる
わけようんはそれを超えるとですねスパッ
と忘れるわけようんうんところがですね
マンバはねそれがねダラダラと忘れてああ
だからねこの忘れ方によってだから彼はね
ミリオントークン100万トークンでも
いけると言ってるわけようんそれはなぜか
と言うと今みたにで過去のこと全部覚え
てるわけじゃないですよで過去に行くと
要するにようやく覚えとんだよああそれは
ね非常に面白いグラフで書いてた
あの例えばなんかある変動があったにこれ
をですねあの再現してみると最初のうち
最初の方はね綺麗に再現するんだけど後の
方こう滑らかになってきてうんうんくるん
ですよねというわけ
であのマンバがなぜねすごいかというとそ
にその
えっとトランスフォーマーは
まのそのその制限があって特にインファ
ンスの時ねうんインファンスの時にあの
あのトランスフォーマー時間かかるんです
よところがマンバの場合はまrnnと一緒
だからね瞬間的に計算できるんですよでで
かつ過去のこと覚えて覚えてるということ
であのまいいとこ取りしてじゃあねじゃあ
ね学習の時どうすんだって言うんだけど
学習の時はね
あの
HえS4の場合はあのカーネルとかいうの
があってこれあのパラレル化できるんだ
けどs6になるとパラレル化ができなく
なるんですよあやっぱりそうですよねはい
はいうんでそこをねどうクリアしたかって
ここはね非常にねそこがハードウェア
GPUのSラムとDラムをねをの役割をね
して早くする計算はSラムであって
ゆっっくりしていいのはDラムであるとだ
からこれがねダオダオスグじゃなくてダオ
さんのコントリビューションだと思うだ
からS4の話とハードウェアをフルに使う
というこの2つが組み合ってマンバが出て
きてでこれは
スマしのぐということらしいです
ようんだそのハードウェアあのそのところ
は僕はまだまだ十分理解できてないでま
この辺はあのねあの斉藤さんぐらいじゃ
ないと分かんないと思うけどうんうん
なんかマンバの話はちょっとまた改めて
やるとかおっしゃっそうですねはい今は
そのS2の話だったんではいその先はまた
あそうかS2の話じゃあじゃあそのうS4
の話もはいえいやいや今のでだいぶ分かり
ましたけども結局あれですね
えっと制御理論の状態方程式をうんこの
llmのこの入力と出力にそうそう
そうそうあれでを借りてきた状態空間って
いうのを潜在空間みたいな感じにしちゃっ
た感じなんですねいやまさに世代空間です
よええいやそれはちょっとすごいうん変な
発想でうんあの面白いなとでこれであれ
ですけどねあの制御理論のおいしいとこを
活用できるんだったらいやその活用の仕方
がまたすごく面白くてえっとあれ線形な
システムなんですねだから1回1回計算し
なくてもずっとTに関して累積したものっ
てのは行列の掛け算になっちゃうので行列
かけてかけてかけてるとあらかじめその
行列の掛け算の結果って計算できちゃうん
ですねそうそうそうするとあの本質は
rlnであのrnっってその中間の隠れ
状態があるんだけど1個進んでそのそれを
使って結果を使ってつぎで行くから順々に
1個1個経験してかなきゃなんないって
あれねね線形なんですようんだから
マトリックスをガッとかけるみたいなこと
はできないええまあの大体雰囲気はそう
うんそれが線形なおかげでえっとrnは
そのNのオーダーで計算できるんですけど
あの式を数式書き換えるとあの畳み込みの
形に書き直せんですよねでそこまではいい
んだけどそのrnだとNでできるのに
畳み込みにするとN事情の計算回数になっ
ちゃうんですよあの1回畳み込みでそのR
Tに対してSで全部積分するんだこれで
あのn回あの全てのTでこの時のこの時
のってやんなきゃいけないから結局Nの次
の計算量になるんだけどもそこが実は高速
風流変換のやり方が使えてN事情のあの
計算をNlogNまで落とせるんですよ
それはその高速風変換として前々から知ら
れてるのでそれを利用しちゃえば一応Nが
N事情にったのNlogNまで落とせる
よっっていうそれでしかも並列計算が
できるようになったよってことでGPUが
有効活用できますねということでrnより
いいですねっての本当に制御理論の方から
借りてきたおかげでそういう前々から知ら
れてきた高速化のテクニックが利用でき
ちゃうっていう美味しさがあ
るっていうことですかうんで僕はあんまり
やってないけどよくやんrnnはなんか
あのバックプロパゲーションする時に
なんか勾配消とかあれ勾配があの発散する
とかいうような問題があってあんまり長い
だって基本的には無限の過去までね行ける
わけなんだけどそうはいかんよということ
らしいですねで今のあのはあのS4はその
問題がないとでマンバも多分それがないと
いうことらしいですうんうんうんまあなん
かいっぱい言いたいことありそうですけど
も聞く側にとってはなかなか辛い感じに
なっそうですねとりあえず今S2を突破し
ていたけえま改めてちょっと整理してです
ね解説するのがいいんじゃないかなと思い
そう思いますあいやなんか結構今ピンと
くるものがあってすごいなと発想がですね
いうのは雰囲気はよく分かりましたんで
改めてええええ雰囲気だけ分かってて
くださいででいや自分も先ほど言いました
ようねあ今週は万波週間とで僕図書館に
行ってですねあの徹底的に勉強しようと
思いなうん
あの野牛見て
しま誘惑が多いですね間は誘惑が
多いだからまたあの改めてねはいマンバの
解説というのをちょっと整理し直してうん
今日はま出しの部分と心みたいなやつです
ねはいうんうんはいはいあとちょっとだけ
自慢しときたいのはあの今までその
トランスフォーマってあのGoogle
から出てきたりとか要はGoogleと
オンエのだった時にあの今年の初めぐらい
の会の時に大学頑張ってくれたらいいのに
なって思ってたわけですよで大学はなんて
いうかそのトランスフォーマーの原理を
解析するとかそういうところでやってる
けどなんか大学が思いついた方法を
スタンダードとして使われてなんかみんな
が使うようになったって例は今までそんな
そんなに多くなかったような気がするので
大学頑張って欲しいなと思ってたところで
このマンバは大学なんですねプリンストン
大とカーデメロン大なんであのあそれを
言うならねもうせくださいリング
アテンションよあああのねあのジェミニー
が100万トークまでオッケーという
でしょうんんならうん次にあのインフレ
ションやないごめんごめんあのクロードも
そうなよねうんでねこのリングアテンショ
ンっちゅうのが大学から出ているうんで
これがね100万トクまでいけるってだ
から実は彼らは彼らってねんうんGoog
とかリングアテンション使ったと言って
ないのよ中身見してないからうんうんうん
だけどリングアテンション使うとですね
100万トークンまでねイグザクトに
アテンションかけられるんですようんうん
うんうんいやだから僕ね今ねマンバの話し
たけどけどリングアテンションがあれば
マンバがいらなくなる可能性もあるわけよ
ああはあはあはあはまあまあ言いたいこと
いっぱいあるでしょうけども今日ととと
あの松田生のあの異の内部状態がうん確か
にそれはいるはい
そ予想されますのではい終了したいと思い
ます
Browse More Related Video
The State of Data & AI - Trevor Jones
NVIDIA Reveals STUNNING Breakthroughs: Blackwell, Intelligence Factory, Foundation Agents [SUPERCUT]
Are Hallucinations Popping the AI Bubble?
Google’s AI Course for Beginners (in 10 minutes)!
How OpenAI Strawberry Works ― "ONE TEXTBOOK TO RULE THEM ALL" ― My Educated Guess
NO: GPT, Claude e gli altri NON SONO COSCIENTI. Propongo una soluzione.
5.0 / 5 (0 votes)