セーラー服で機関銃トーク:Mamba導入編〜制御工学の基礎+α

シンギュラリティサロン・オンライン
26 Mar 202440:09

Summary

TLDRThe video script discusses the complexities and foundational concepts of the Mamba architecture, a recent advancement in AI that has the potential to surpass transformer models. It delves into the intricacies of state-space models, which are integral to understanding the Mamba approach. The speaker aims to clarify these concepts for those who find the subject matter challenging, particularly those without a background in physics or engineering. The script also touches on the evolution from S2 to S4 models and the introduction of structured state-space sequence models, highlighting the innovative aspects that make Mamba a topic of significant interest in the AI community.

Takeaways

  • 📚 The speaker is part of a study group focusing on understanding the algorithms within a paper and its related video explanations, indicating a collective effort to grasp complex topics.
  • 🤖 The 'Mamba' architecture, introduced in a paper published around December of the previous year, is a new method that differs significantly from the Transformer model and has the potential to outperform it.
  • 🧠 The Mamba model is based on state-space models, which are foundational in control theory and physics, and it introduces a novel approach to handling sequential data.
  • 📈 The model has gained significant attention due to its innovative nature and the possibility of replacing the Transformer model in certain applications.
  • 🔍 The speaker discusses the difficulty in understanding the state-space model at first glance, especially for those not familiar with control theory or physics, and the importance of revisiting foundational knowledge.
  • 📐 The script delves into the specifics of state-space models, explaining the mathematical formulation that involves input (X), hidden states (H), and output (Y), and the associated differential equations.
  • 🤷‍♂️ There is a mention of confusion regarding the order of differential equations used in the model, as typical mechanical equations are second-order, but the model uses first-order equations.
  • 🔄 The explanation includes a detailed breakdown of how to transform higher-order differential equations into a system of first-order differential equations, which is key to understanding the Mamba model.
  • 🔧 The script touches on the practical application of control theory, using the example of an automobile to explain the concepts of input (U), state (X), and output (Y) in a real-world context.
  • 🔮 The speaker anticipates that further study and explanation of the Mamba model will be beneficial for those who have struggled with the initial concepts, aiming to provide an introductory explanation to help others understand the basics.

Q & A

  • What is the main topic discussed in the script?

    -The main topic discussed in the script is the study and understanding of a research paper and the related control theory, particularly focusing on the concept of state-space models and their application in a method known as Mamba.

  • What is Mamba in the context of this script?

    -Mamba, in this context, refers to a new architecture proposed in a research paper that is based on state-space models and has the potential to surpass the Transformer model in performance, making it a current topic of discussion.

  • What is a state-space model as mentioned in the script?

    -A state-space model is a mathematical model used in control theory to represent the dynamics of a system. It is described by a set of first-order differential equations where the state of the system evolves over time based on its previous state and control inputs.

  • Why are state-space models considered difficult to understand for some people?

    -State-space models can be difficult to understand because they involve concepts from control theory and differential equations, which are advanced topics that require a strong foundation in mathematics and physics.

  • What is the significance of the equation presented in the script involving X, H, and Y?

    -The equation signifies the state-space model where X represents the input, H represents the hidden state that evolves over time, and Y represents the output or observable data that results from the hidden state.

  • What is the role of the control signal U in the state-space model?

    -The control signal U is an input to the system that influences the evolution of the hidden state H. It can be thought of as the force or action applied to the system from the outside.

  • What is the purpose of studying the foundational level of understanding before delving into complex papers like the one on Mamba?

    -Studying the foundational level is crucial because it provides the necessary background knowledge required to comprehend complex concepts and theories presented in advanced papers, such as the one on Mamba.

  • What is the difference between the state-space model S2 and the structured state-space sequence model S4 mentioned in the script?

    -The S2 model is a traditional state-space model used in control theory, while the S4 model is an extension that introduces selectivity and structure to the state-space model, making it more suitable for certain applications like language models.

  • Why is the concept of 'forgetting' in the state-space model important for the Mamba architecture?

    -The concept of 'forgetting' is important because it allows the model to not remember every detail from the past, which is crucial for handling long sequences of data efficiently, such as in language models.

  • What is the significance of the term 'potential to surpass the Transformer model' in the context of the Mamba architecture?

    -The term signifies that the Mamba architecture, based on state-space models, has shown promising results that could potentially outperform the current standard of Transformer models in certain tasks, making it a noteworthy development in AI.

  • How does the script relate the concepts of control theory to the field of AI and machine learning?

    -The script relates control theory concepts by discussing how state-space models, traditionally used in physics and engineering, are being adapted and applied in the field of AI and machine learning, particularly in the development of new architectures like Mamba.

Outlines

00:00

📚 Struggling with Understanding State Space Models

The speaker discusses their experience with learning about state space models, likely from a control theory perspective, by reading papers and watching explanatory videos. They find the material challenging, particularly because the foundational concepts are assumed to be known and are quickly glossed over in academic papers. The speaker expresses a desire to create an introductory explanation for others who might be struggling with the same material, focusing on the basics to help them progress in their understanding of more complex topics.

05:01

🔍 Delving into the Basics of State Space Models

This paragraph delves into the concept of state space models, which are used to describe the dynamics of a system using state variables. The speaker explains that these models are essential for solving a variety of problems and can be represented mathematically using state equations and output equations. They discuss the general form of these equations, involving matrices and control inputs, and how they relate to physical states and observable outputs. The speaker also touches on the complexities of understanding these models, especially when they are presented with differential equations.

10:02

🤔 Clarifying Doubts about Differential Equations in State Space Models

The speaker continues to explore state space models, focusing on the differential equations that describe the system's dynamics. They express confusion about the order of the differential equations used in the models, questioning why a first-order differential equation is used instead of a second-order one, which is more common in physics and control theory. The speaker seeks to understand the rationale behind this choice and how it fits into the broader context of modeling physical systems.

15:02

🎨 Visualizing State Space Models with an Example

In this paragraph, the speaker attempts to visualize the concept of state space models using an example that involves a spring system. They describe the forces at play, such as spring force and friction, and how these forces can be represented mathematically. The speaker also discusses the challenges they faced in trying to create a visual representation of the system, highlighting the difficulties in communicating complex ideas clearly.

20:05

🚗 Applying State Space Models to Dynamical Systems

The speaker provides an application of state space models to dynamical systems, using the example of an automobile. They explain how the state variables, such as position and orientation, can be represented and how control inputs like steering, braking, and acceleration affect the system's behavior. The speaker also discusses the difference between observable and unobservable states and how state space models can be used to infer unobservable states from observable ones.

25:06

🌐 The Evolution of State Space Models in AI Architectures

This paragraph discusses the evolution of state space models in the context of AI architectures, specifically mentioning the transition from S2 to S4 models. The speaker highlights the innovative aspects of these models and how they differ from traditional state space models, focusing on the flexibility and potential of these newer models to handle complex tasks in AI, such as language modeling.

30:09

🤖 The Role of State Space Models in Language Modeling

The speaker explores the role of state space models in language modeling, drawing parallels between the concepts of control theory and the way language models process input and generate output. They discuss the potential of these models to handle long sequences of data and how they can be adapted to work with large-scale language models, such as GPT-3, which can process up to a million tokens.

35:11

🧩 Understanding the Components of State Space Models

In this paragraph, the speaker breaks down the components of state space models, discussing the transition matrices, control matrices, and observation matrices. They explain how these components interact and how they can be adjusted based on the input to the model. The speaker also touches on the challenges of parallelizing computations in these models and how recent advancements have addressed these issues.

🚀 The Impact of Hardware Utilization on State Space Models

The speaker discusses the impact of hardware utilization on the performance of state space models, particularly in the context of GPU computing. They explain how certain optimizations, such as the fast Fourier transform, can be applied to reduce computational complexity and enable parallel processing. The speaker also mentions the contributions of specific researchers in this area and how their work has advanced the field.

🌟 The Emergence of University Research in AI Innovation

In the final paragraph, the speaker reflects on the role of university research in driving innovation in AI, highlighting the development of models like Mamba and the Ring Attention mechanism. They express a desire for universities to continue pushing the boundaries of AI research and to have their contributions recognized and utilized by the broader AI community.

Mindmap

Keywords

💡Control Theory

Control theory is a branch of engineering that deals with the behavior of dynamical systems in response to external inputs. It is integral to the script's discussion as it forms the basis for understanding the state-space models mentioned. The script refers to control theory when discussing the origins of certain ideas in the Mamba model, highlighting its significance in the development of AI architectures.

💡State-Space Model

A state-space model is a mathematical model of a physical system that evolves over time. It is defined by a set of first-order differential equations. In the context of the video, the state-space model is the foundation for the Mamba architecture, which is a novel approach to sequence modeling in AI. The script discusses how this model is used to represent the internal state of a system over time, which is crucial for understanding the Mamba model's approach to handling sequential data.

💡Transformer

The Transformer is an architecture for building deep learning models that was introduced by researchers at Google. It is known for its use of attention mechanisms to process sequences of data. The script contrasts the Transformer with the Mamba model, suggesting that Mamba might offer a different and potentially superior approach to handling sequences, which is a central theme in the discussion of AI and natural language processing.

💡Mamba

Mamba, as discussed in the script, refers to a new AI model or architecture that is being proposed as a potential successor to the Transformer model. It is based on state-space models and is suggested to have performance that might surpass the Transformer. The script delves into the theoretical underpinnings of Mamba, making it a key concept in understanding the video's exploration of AI advancements.

💡Hidden State

In the context of state-space models and sequence modeling, a hidden state represents the internal state of a system that is not directly observable. The script mentions hidden states in the explanation of how state-space models work, where the hidden state evolves based on the input and the previous state, and it is a critical component in the Mamba model's approach to sequence data.

💡Differential Equations

Differential equations are equations that describe the relationship between a function and its derivatives. In the script, differential equations are used to express the state-space model, which is foundational to the Mamba model. The script's discussion of differential equations helps to illustrate the complexity and the mathematical rigor required to understand and apply models like Mamba.

💡Observation Matrix

The observation matrix is a component in state-space models that relates the hidden state to the observable outputs. It is used to map the internal state of a system to the measurements or observations that can be made. The script refers to the observation matrix in the context of explaining how state-space models work and how they are applied in the Mamba architecture.

💡Control Signal

A control signal is an input to a system that influences its behavior. In the script, control signals are discussed in the context of how they affect the state of a system in a state-space model. This concept is crucial for understanding how inputs are handled in the Mamba model and how they drive the evolution of the system's state.

💡Rings of Attention

Rings of Attention is a concept mentioned in the script that seems to relate to how attention mechanisms in neural networks are structured. While not fully explained in the transcript, it suggests a novel approach to attention that could potentially allow models to handle much longer sequences of data, which is a significant consideration in the advancement of AI models like Mamba.

💡Inference

Inference in the context of AI refers to the process of making predictions or decisions based on a trained model. The script mentions the efficiency of inference in models like Mamba and RNNs, highlighting the importance of computational efficiency when it comes to practical applications of AI models. This concept is key to understanding the practical implications of the Mamba model's design.

Highlights

The speaker is studying the Mamba architecture and its underlying algorithms, finding them challenging, especially the control theory aspects.

The Mamba paper is a hot topic due to its potential to outperform Transformers and possibly replace them.

The Mamba method is based on state-space models, which are foundational in control theory.

A state-space model is introduced with a formula involving input X, hidden state H, and output Y, which is central to understanding the Mamba approach.

The formula presented in the paper includes differential equations, which may be unfamiliar to those without a background in physics or control theory.

The speaker discusses the difficulty in understanding the state-space model due to its brief introduction in the paper and the assumption that readers are already familiar with it.

An explanation is provided on how to interpret the state-space model formula, relating it to physical control signals and observable outputs.

The speaker expresses confusion about the order of the differential equation used in the model, expecting a second-order equation based on their knowledge of physics.

The Mamba architecture is an innovative neural network design that builds upon state-space models, aiming to surpass the Transformer model.

The speaker mentions the iterative process of reading and understanding the Mamba paper, including revisiting foundational concepts.

The concept of 'S4' and 'S6' models are discussed, which are structured state-space sequence models that extend the traditional 'S2' models.

The speaker explains how the Mamba model differs from control theory by focusing on the relationship between input U and output Y, rather than seeking the state X.

The potential of the Mamba model in handling large-scale language models is highlighted, with the ability to process up to a million tokens.

The speaker discusses the hardware utilization in Mamba, suggesting that it makes efficient use of GPU memory to speed up computations.

The Mamba model's ability to forget past information gradually is contrasted with the Transformer model, which remembers all past information.

The speaker speculates that Ring Attention, another innovation from universities, could potentially make Mamba obsolete if integrated effectively.

The presentation concludes with a reflection on the significance of the Mamba model and its potential impact on the field of AI and neural network architectures.

Transcripts

play00:00

はいえっと今あの我々勉強会とかでもあの

play00:03

マンバの論文を読んだりあの解説動画を見

play00:06

たりしてあのその中身のアルゴリズムの

play00:09

理解に努めてるんですけれどもあれ強烈に

play00:12

難しいんですよねやっぱりであ特にあの

play00:15

えっと前々からああの何でしたっけ制御

play00:18

理論とかあの辺からあのアイデアを借りて

play00:21

きてるんですねなのであの論文を読むと

play00:24

いきなりあの状態空間モデルとはこれ

play00:27

これれであるって書いてあってそこはもう

play00:29

なんか当たり前にみんな知ってるよね

play00:31

ぐらいな感じでささっと12行で通過し

play00:34

ちゃうんで読もうとした時にそこでなん

play00:36

じゃこりって引っかかった人は過去のもの

play00:38

にたどってったりとかあの色々読みまって

play00:41

まずその基礎的な理自分の基礎レベルを

play00:44

上げとかないと続きが読めないという目に

play00:46

合うんですよそのえっと入り口の喚問が

play00:48

あるのでえっとそこであのぶつかって

play00:52

跳ね返されちゃった方々のためにそこの

play00:55

1番いるうちの入門のところをやりたいな

play00:57

と思いますということでえっとモンバの打

play01:01

をなす状態空間モデルについての導入的な

play01:04

説明という話をしますなのでえっとここが

play01:08

分かるとえっとそのしょっぱなの看を通過

play01:11

してえっと論文がもう少し先まで読めると

play01:13

いうそ本当の入り口のとこだけですで

play01:16

えっとえこれはえっと誰に書かせたんです

play01:19

けどえっとそういう話をしようとしてるん

play01:21

で表紙へ書いてくださいつったらこんなん

play01:23

でえっと北斎っぽい絵なんだけど数学

play01:26

っぽいなんかこんな面白い絵を書いてき

play01:29

ました

play01:30

でえっとあのマンバっていう手法がえ提案

play01:35

されたという論文があの去年のくれぐらい

play01:39

に出たんですけどもえっとそこのこのやり

play01:42

方っていうのはあのトランスフォーマーと

play01:44

ガラっと異なるやり方でえっと性能的には

play01:47

もしかしたらトランスフォーマーより上で

play01:49

置き換わるんじゃないかという可能性が

play01:51

言われているというすごく今話題になっ

play01:54

てる論文ですでえっとその論文の基本的な

play01:57

考え方として状態空間モデルステート

play02:00

スペースモデルというものをあの土台に

play02:02

連れてますでえっとそでその論文の第2節

play02:07

にこんな数式が現れてえっとこれが状態

play02:10

空間モデルですよってでなんかXって入力

play02:13

があってでそっからヒドスペースあの隠れ

play02:17

状態のHっていうのを経てそれでこのHが

play02:20

分かったらそのYというの自系列データ

play02:23

から自系列あの中間層を経て列デタY

play02:26

アウトプット出力を出してくるというこう

play02:28

いう数式なんですけど上は微分がついてて

play02:31

下は微がついてないっていうこの式

play02:33

そもそもなんじゃいって感じなんですねで

play02:36

えっと知ってる人にとってはああれだねっ

play02:38

てあの特に物理の制御理論をやってきた人

play02:40

にとってはあの馴染みのあれだねって思う

play02:42

のかもしれないすいません物理じゃないん

play02:44

ですよ制御理論は高額ですあなるほどそう

play02:48

ですね別にそうですね新しい発見したわけ

play02:51

じゃニュートン力学を借りてきてこう表現

play02:53

し直してっていうあのとにかく数値的に

play02:56

解いちゃえって話ですよねうんあそうでし

play02:58

たそうでしたでもまそっちをやってきた人

play03:00

にとっては馴染みがある式かもしれない

play03:03

ですけど私なんかも物理にも馴染むなけれ

play03:05

ば工学もこういうの知らなかったんでこの

play03:07

式見せられてもどどこをどう見たらいいの

play03:10

か分からんという目にあったので調べたら

play03:13

だんだん分かってきましたと特に疑問なの

play03:15

はこれえっとXがなんか入力というかあの

play03:18

こうジあのエンジンを噴射したとかこう

play03:21

こっちからコントロールできる制御信号な

play03:23

んですねそれでそれに対してえっとHって

play03:26

のが実際にの物理状態がこうなってたって

play03:28

のは直接観察でで計測できるわけじゃない

play03:31

けど本当はこうなこういうことが起きて

play03:32

ましたよっていう位置でそれでYがま観測

play03:35

できるレーダーに移った軌道がこうでした

play03:38

というようなことなんでこれはきっと

play03:40

ニュートンの運動方程式を表したりする

play03:42

あるいは電磁気学の法則とか物理法則を

play03:45

表してる微分方程式のはずなんだろうなと

play03:48

思うんですがその割には運動方程式って2

play03:51

階の微分方程式なのになんでこれ1階なん

play03:53

だろうっていうあのなんか大昔の

play03:55

アリストテレスの頃の世界観で力右辺が力

play03:58

だったらそれは速度を決める加速度じゃ

play04:00

なくて速度を決めるって微分方程式だとし

play04:02

たら変だなと思っちゃうというような疑問

play04:05

がありましたそこをクリアにしたかったと

play04:08

いうことでえっと対象の論文はマンバで

play04:11

えっとこれはえっと言った通り

play04:14

えっと去年のえ12月1日に出てきた論文

play04:18

ですねただこれはあのえっとその前でも

play04:21

これを通称s6というそなんですねなんか

play04:24

シークエンスにセレクティブにステート

play04:26

スペースにもう1つなんとかってなんかS

play04:29

がいっぱいついててS6っていうらしいん

play04:31

ですけどその前のバージョンでS4って

play04:33

いうのがあってあ同じくアルバートグー

play04:35

さんたちが書いてるあの前のがあって前の

play04:38

を読むともう少し詳しく書いてあるんで

play04:40

やっぱり前前遡って読むことになるんです

play04:43

けどもまあまああのこれこのロブ時代には

play04:46

さらっとしか書いてないですでえっと

play04:49

そもそもマンバて何ですかて安直に

play04:51

チャットGPTに聞いちゃったんですけど

play04:53

えっとこの2人によって発表された新しい

play04:55

クワクアーキテクチャーですとで状態空間

play04:58

モデルを基礎に据えてますでまあの色々

play05:01

工夫が凝らされていますってことでえっと

play05:05

あのトランスフォームモデルを超える可能

play05:07

性を持つとされていますなんここで止まっ

play05:09

ちゃいましたそんなようなものであの評判

play05:12

になってる新しいなんかニューラルネッ

play05:15

トってかなAIのアーキテクチャーいう

play05:17

ことですねええっとポスト

play05:19

トランスフォーマーになるかみたいなこと

play05:21

が言われているでえっとえっとそれでえ

play05:25

状態空間モデルとは何でかて言ったら

play05:27

えっとシステムの1回常備民法式または

play05:31

差分法式で有するための状態変数を使用

play05:34

するモデルですとだからま物理状態の

play05:36

書き表し方をこういう風に書くとあの

play05:38

いろんな問題が一般的に解けるねっていう

play05:40

のそういうことでえっとそのえっと1番

play05:44

えっとジェネラルなその一般系っていうの

play05:47

はこうなってて

play05:48

えっと状態方程式と出力方程式とこの日本

play05:53

の方式からなっててでabcdは行列で

play05:58

えっとUがそのそのコントロール可能だ

play06:00

このエンジンを噴射したとそういうえっと

play06:04

コントロールですねそれでえっとこのXが

play06:09

現実の状態でこれがこういう微分法式

play06:11

満たしつつX現実の状態が変わっていくと

play06:15

でそれに応じてその奇跡が分かればそれに

play06:19

応じてなんか的に当たったとか当たん

play06:21

なかったとか的からどんだけ離れたと落ち

play06:23

たとか軌道がどうだったとかあの燃料を

play06:26

どんだけ使ったとかそういうあの目的がし

play06:29

たかどうかかみたいなことが出てくると

play06:31

こういうえっとUからYへのえっと関数自

play06:36

系列から自系列の関数であって間にこの

play06:39

見えない現実状態という隠れ状態があの

play06:43

経由されてこう通っていくとそういうよう

play06:45

なモデルですでえっとあの今の式これなん

play06:50

ですけどねえっとXの方にだけ微分がつい

play06:53

てますだからこの第知式がXについての1

play06:57

回の上微分方程式って形してますねで

play06:59

えっと今言った通りXがUが入力でXが

play07:03

状態でえYが出力とそれでまこれそれぞれ

play07:07

行列なんですけどもえっと名前がついてる

play07:10

とでえっと元々はP次元だったのn次元を

play07:14

経てまた急次元に落ちるということで観測

play07:18

できる事件ってのは実際に起きてる事件

play07:20

よりも小さいことしか観測できないだっ

play07:23

たりするというのはよくあるあの設定の

play07:25

ようですで

play07:27

えっと気持ち的にはこのの式の読み方で

play07:30

ちょっとあのすでにハム言っちゃいました

play07:32

けどえっと言ってのが入力でこれはあの

play07:36

こっちから与えられる制御信号というか力

play07:41

ですよねだから重りを手で引っ張ったとか

play07:43

宇宙線のエンジンを付加したとか家事を

play07:45

切ったとかそういう風にこっちから制御

play07:47

できるあのえっと力です加えてる力で

play07:52

えっとXTはえっと現実の状態でえっと

play07:55

本当の現実の軌道はどうだったかていう

play07:57

ことですねでそれ自体は直接観察観測

play08:00

できるとは限らないので隠れ状態なわけ

play08:03

ですねで出力ベクトルはもしこのXが

play08:06

分かればあのすっと計算できるようなもん

play08:09

であって結論どだったと当たったの当たん

play08:11

なかったのというよなここでもし分かれば

play08:14

さっと計算できるべきものだという風に

play08:16

読めばいいんだと思いますでえっとそれで

play08:20

このえっと2つある方の1つ目の式これが

play08:24

微分方程式の形をしていてえっと未知の

play08:27

関成xtに対してえっと1回微分したもの

play08:31

がえっと元のXTとそれから与えたあの力

play08:35

の変遷とでこんな風に表されというのが

play08:38

えっと現実に起きてる世界を支配する物理

play08:43

法則みたいなもんだということですねでと

play08:46

いうことはあの普通の力学だったら

play08:48

ニュートンの運動法式が表してるもんだと

play08:50

見るべきものだとところがそれはあの本当

play08:53

は力右辺が力だったら左辺はMAとあの核

play08:57

速度を決めるはずなのになんでこれ1回

play08:58

微分なんだろうていうような疑問がある

play09:01

わけですでこれ答えを言っちゃうとこれ

play09:04

連立だからというのが答えですどういう

play09:06

ことかというとえっと2回とか3回とか

play09:09

公開の常備分方程式ってのはえっと1回の

play09:12

連立の常備分方程式の形で書き直すことが

play09:15

簡単にできちゃうんですねうんそれが答え

play09:18

ですということで以上ありですねえっと

play09:20

あの一般系であのXのTに関する2微分が

play09:24

TとXと1微分のなんかのある数式で表さ

play09:28

れてたつたらこれが2階の微分方程式です

play09:30

ねでこういうのがあった時これ確かに元は

play09:32

2階の微分方程式なんですがでXっていう

play09:36

関数が未知の関数でこの微分法式を満たす

play09:38

ような関数Tによってこう変わってくあの

play09:42

そのxの値をあの全てのTについて求め

play09:46

たいというのが解きたいという問題ですね

play09:48

でこれであのXが分からない未知の関数な

play09:51

んですけどもう1つVっていう関数を導入

play09:54

してVも分からんということにして分から

play09:57

ない関数を2つ用意してくるんですねでV

play09:59

は何かというとXを微分したものはV

play10:02

つまり今いる1を時間で微分したものだ

play10:05

から速度です速度ベクトルがVだという風

play10:07

にするとえっとX2ドってのは要はVを

play10:11

もう1回微分したもんなんでV.になる

play10:14

わけですねそれからここにX.ってある

play10:16

けどこれはVだねってなると左辺がX.=

play10:19

でv.=でで右辺がTとVとXの式とこう

play10:24

いう風になるのでだからXという関数とV

play10:29

という関数が2つの未知な関数だとすると

play10:33

この2つの関数に関する連立の1回の上

play10:37

微分方程式の形で掛らされて表してる内容

play10:41

は2回と同じだということでえっと何回の

play10:44

微分方程式でもこうやってあの1回の連立

play10:47

の形に直るとそうするとあそれでこれ

play10:50

ちょっとあのある例でやってみましょうと

play10:52

でこれちゃGPTうんとGPT4というか

play10:57

ダ3に書かせたんですけどあの図を書くの

play11:00

下手ですねみんな絵になっちゃってこれ

play11:02

本当は真横から見た普通のあの図を書いて

play11:05

欲しかったんですけどもどうしても書いて

play11:07

くれなくてかなり苦あのこの物体が中に

play11:10

浮いちゃったりしてもあのテーブルに

play11:12

接するように書いてくれとかあの右と左が

play11:14

逆になってたりとかなんかバネがあの壁に

play11:17

くっついてなかったりとかもうあのダメな

play11:20

絵ばっかり書いてきてやっと頑張ってここ

play11:22

まで書いたけど全然思いとりねが書け

play11:24

なかったんですがそれをそうとしてえっと

play11:27

これF=MAえっとが力で力の合計ですね

play11:30

Fですねそれからえ質量かけるえ加速度

play11:34

これがニュートンの運動方程式ですねで力

play11:37

の方はえっとこのえっとバネが

play11:40

ニュートラルなあの引っ張りも押しもし

play11:43

ない状態のところX=0と置いたらそっ

play11:45

から伸びてく方向がxだということにする

play11:48

とこの伸びたら縮みたいのであのその伸び

play11:51

た量に対してそれを引っ張りのすマイナス

play11:54

の方向にバネ定数系をかけたこれがバネ

play11:57

から受ける力ですそれからがこれが

play11:59

ズルズルっと動いてる時はその動いてる速

play12:01

さに応じて摩擦力がかかるので動いてる

play12:04

方向の逆向きにあの引き止める方に

play12:07

ブレーキをかける方に力が働いてこれが

play12:10

摩擦力ですねそれからえっと人が手で

play12:13

引っ張ってるとかなんか外から加えてる力

play12:15

ということでこれがえっと微分法出式です

play12:18

ねでこれはさっきと同じ手を使ってえっと

play12:21

Xの1回微分をVと置けばんとまずこれで

play12:24

1つ方程式が立ちそれからえっと左辺は

play12:28

えっとVをもう1回Tで微分したvtで

play12:31

なるので

play12:33

えっとでXこそのままそれからXダシュは

play12:36

Vで置き換えちゃうとそうすると左辺はX

play12:39

ダ=x.=とでV.=というあの1微分の

play12:44

形して右辺はあのXとVとTであの表現

play12:49

できてるという連立のえ1回常微分方程式

play12:52

になりましたとでこれをベクトルで書けば

play12:55

えっとXVっていうこう組にしたやつをT

play12:58

で実1回時間微分したものはこう行列の形

play13:01

でえっとxとVに対してこういう行列が

play13:05

かかってそれからUに対してはこれスカラ

play13:08

なんだけどこうやることで下の方にだけ

play13:11

えっとUを持ってくるっていこういう風に

play13:13

次元をえっと持ち上げるこうであの先ほど

play13:17

の状態方程式の形になったとあの作の1回

play13:21

ビイコールえっとこいつの1回微分

play13:24

イコールこいつに行列をかけたものとそ

play13:27

から制御信号にある行列をかけたものと

play13:30

こういう形になったということでえっと

play13:33

運動方程式もさっきの形にかけるという

play13:36

ことがこの例で分かりましたということで

play13:38

えっとあとはあの警戒になってもってこれ

play13:41

まついでにやっただけですけどえっと

play13:44

えっと

play13:45

数のえっと時間で警戒微分したものは

play13:49

えっとそれ以前のあのK-T回微分した

play13:52

ものまでで線形和で表せたっていうこ線形

play13:55

の常備法的しがあったとしたらえっとこれ

play13:58

も1回微分をえっとx+Vとおき2回微分

play14:02

をWと置き3回微分という風にこういう風

play14:04

に置いてくことによってえっとX0を1回

play14:08

微分したものはx1だとこうやってだから

play14:11

対角成分は0なんだけど対角成分の1個上

play14:15

右上に1が並ぶような変な体格用ですそれ

play14:18

で最後のところだけ微分式の形になったの

play14:21

でえっとKマ1回もう1回Tでビムして

play14:24

警戒微分したものはとこ下げでそれは

play14:27

えっとそれまでのやつの線経和で表される

play14:30

とこういう風になってるだからあそれで

play14:33

あとはUに関してはこの1番最後の微分

play14:36

方程式のところにだけつくけど次元を

play14:38

上げるために006つけとくとこれであの

play14:41

できたのでやっぱり先ほどのその状態方程

play14:43

式の形式に落とし込むことができたとだ

play14:46

から公開のやつをを連立にしたであの形に

play14:51

なるとあの式の形を書き直したということ

play14:54

がであの一応理解できましたということで

play14:58

えっと

play14:59

これでえっととりあえずなんかこう

play15:02

つっかえてた石をどけることができてその

play15:04

先に進めるようになりましたということで

play15:07

えっと入口の話でしたえということで

play15:10

えっと

play15:13

この問題のこのえっと状態空かものあの

play15:18

基礎的な方程式というのはえっと今のよう

play15:21

な解釈であの納得しましたとそういう話

play15:25

でしたはい以上ですはいえちょっと僕は

play15:29

この辺は相当勉強したんで1番最初から

play15:32

ちょっと見せてくださいええっといいや話

play15:36

ますまずねこういうエ出しこういう式これ

play15:40

は何を扱ってるかというと力学系はいはい

play15:45

ダイナミカルシステムというんですよはい

play15:48

でそれを記述する方程式がこれねはいはい

play15:53

はいで次行ってくださいえっとこれ論文

play15:56

ですねそれまいいですでま要するに

play16:01

なんまままこの辺はいいですはい元の一般

play16:04

的な形はこの行列abcdもTに依存って

play16:07

いうことになってここにもなんかUがつい

play16:08

てるこの形が1番一般的な形のようですね

play16:12

はいうんうんええ結局ねいや何が言い

play16:14

たかってかちった制御

play16:16

理論で言うならばですねあのいやじゃじゃ

play16:20

もっと元に戻してくださいUとかはいの

play16:23

解釈ねはいはいこの言っていうのがねこれ

play16:27

入力というのよはいはいで具体的に言えば

play16:30

ねはい例えば自動車を考えましょうとうん

play16:35

でXは自動車のまこれ2次元だから1うん

play16:41

それから自動車はね1の他にあの方向向

play16:45

きってのがあるからそれをまシとする

play16:48

でしょならこの自動車の座標X1X2と

play16:52

表すとそれから向きがスタと表すとこれで

play16:56

3つ変数があるわけねうんうんうんで

play16:58

さらにそのX1.X2.スドというのが

play17:02

あるわけようんうんうんだからこれで6

play17:05

変数になるんですようんうんうんでUとは

play17:09

何かというと入力ね入力信号とは何かと

play17:13

言えばそれはハンドルでありうんあるいは

play17:18

ブレーキでありアクセルなんですうんうん

play17:21

でアクセルとかブレーキを踏むとXドを

play17:25

大きくしたり小さくしたりするうんわけ

play17:28

でしょうんででハンドル回すとシを変える

play17:32

わけよでYって何なんだってこれは観測さ

play17:35

れるもんなんですよでXは今みたいにこの

play17:39

本体のま状態ね今みたいに自動車の位置と

play17:43

向きなんですよでYはねメーターなんです

play17:46

よあ観測できるの速度系うんうんうんとか

play17:51

あるいはGPSを積んでるなら位置が

play17:54

分かるわけよねうんうんあのタコメーター

play17:56

みたいで何k走ったとかそういう積分とか

play17:59

そういうやつですなはいだから要するにY

play18:01

っていうのはね観測できるものそれが

play18:04

メーターなんですようんでXは観測でき

play18:07

ないものうんうんうんそのままではわかん

play18:11

ないものでUは入力うんそういう解釈なん

play18:15

ですよですからこの制御理論っていうのは

play18:18

自動ま飛行機なんかもそう飛行機の場合は

play18:20

ねXYZって3次元でその速度があるから

play18:24

6次元でで向きが飛行機の場合3つあるの

play18:27

よだからそそれで3でだから結局ね全部で

play18:31

12次元になるわけよででじゃあUは何な

play18:35

わったら操縦感とかスロットルとかそんな

play18:37

もんですねででYって何ですかちったらね

play18:41

その速度計とか高度系とか傾きのとかあれ

play18:45

GPS積んでるならま1もそのまま分かる

play18:48

とかまそういうもんなんですよでYが

play18:50

分かったからって

play18:52

ねで専用理論ちゅうのはですね普通UとY

play18:58

を与えてまUはね自分で操縦すんだか

play19:02

分かるわけよでYはあのあれメーター見れ

play19:06

ばわかるわけそっからxを求めるというの

play19:10

が制御理論なんです

play19:12

よところがですねマンバ云々はねの状態

play19:17

空間モデルっちゅいうのはこれ僕ね勉強し

play19:19

ててさあの勉強会でま勉強会に参加してる

play19:23

人はま自分は物理学者だけどあの後はま

play19:27

工学系の人も言っててですねまあの制御

play19:31

理論ちゅうのはまあだいぶ勉強したから

play19:33

分かってんだけどここで大きく違うことは

play19:36

ね制御理論はUとYを与えてxを求め

play19:41

るっていうのが制御理論の目的なのよ

play19:44

ところがですねマンバとかどうとかいう話

play19:47

はですねXっていうのはねどうでも良いの

play19:51

よ実はうんUを与えてYを求めるとうん

play19:57

うんうんで普通はこう書この方程式で書く

play20:01

とこれ連続信号なわけよねうんうんでUに

play20:05

連続例えば音波あの音の強度みたいなのも

play20:09

与えるわけようんででYが何か出てくると

play20:13

いうそういう時こう連続の場合そうすん

play20:16

ですよででですねあの結局この彼ら彼ら

play20:22

ちゅうのはあのダオさんとかグさんはね

play20:27

これをですねあの言語モデルに使いたいと

play20:31

うんこれがマンバなんですよでSさっきね

play20:35

S4と言われましたけどね普通ここで出

play20:38

てんのはS2なんですよでステート

play20:41

スペースモデルS2ああそうか元祖という

play20:45

かそういうことになるんですねはいそう

play20:47

これだから今話しされたのはS2の話され

play20:49

たなるほどあそうそうだったんですなあ

play20:51

それに当その次にS4というのがあってね

play20:55

はいはいはい彼はねストラクチャードえ

play20:59

ステート

play21:00

スペースシークエンスモデルかなんか言い

play21:03

てまこれはねゴロ合わせですよはいはい

play21:05

はい元々あっったのはS2ステート

play21:08

スペースモデルなんですよそこで彼らが

play21:10

発明したのがS4でSSSSうんうんうん

play21:14

うんこれがねストラクチャードってところ

play21:17

が特徴うんうんうんうんうんなんですよ

play21:20

はいはいはいでそれでマンバたのS6に

play21:23

当たるもんでこにさらにセレクティブが

play21:25

ついたからもう1Sだつってそうそうそう

play21:28

そうそうそう本当ならね僕S5だと思うね

play21:31

よセレクティブだけでそこにねゴロ合せ

play21:35

するためにスペシャルかなんか入れてああ

play21:37

24と来たから6にしたくなっちゃっ

play21:39

たっていう遊びですよはいはいはいそう

play21:41

ですねでだからS2モデルが今までの説

play21:45

理論とかで非常によく知られておってでS

play21:50

4を彼らがねうん実は提案したのよそれが

play21:54

もう2年ぐらい前か3年ぐらい前かそんな

play21:57

前ですねはいそうでいや僕は彼のねあので

play22:02

ぐさがえスタンフォードのドクターの時に

play22:07

ま去年ですよドクターのであのセミナーで

play22:11

講演して聞いたわけまそれ見てね頭の人だ

play22:14

なて僕思ったアルバートグーさんですね

play22:16

はいんすごい早口でたまんないいすよ方

play22:20

大変でしたほんでね彼がねで今あのジョグ

play22:23

マーケットにいますとか言ってたからま職

play22:26

を探してると言ってたわけねうんうんほん

play22:28

そん次はねもうね金木メロのね

play22:30

アシスタントプロフェッサーになっててで

play22:33

それの講演をま我々の勉強会で見て小林

play22:36

さんそれ見られたわけでそれが早口だった

play22:39

わけ僕はその前のねうんあの彼がphdの

play22:43

時あのドクターの学生の時の声も聞いた

play22:46

けどそん時は顔が見えてるからねまあもそ

play22:49

若い人うんうんうんうんうんうんま

play22:51

ドクター出たばっかりですからまままだ

play22:54

20代かもしれんよねいやだから僕は天才

play22:57

だと思うんだけどでで彼が提案したのがS

play23:00

4ちいうモデルを提案してでマンバはS今

play23:04

みたい6ねこれはね何が違うかと言とです

play23:07

ねまずねS4でもねすごいのはすごいのは

play23:11

ね今体にS2のステートスペースモデルは

play23:15

さっきも言うたにUを与えてYを与えてx

play23:19

を求めるっちゅうのはま目的だったんだ

play23:21

けど度はですねXはどうでも良いのうん

play23:26

うん毎回変数みたいなもんなんですようん

play23:28

Uを与えてYを出すとその間の関係をです

play23:32

ねあのそのXというあの潜在空間を回すで

play23:39

さらに面白いことはねこれはね僕ま勉強会

play23:42

でもそうみんなさ目からうだて言ったんだ

play23:45

けどこの場言ってスカラじゃないですか

play23:48

あの簡単なケースはねもちろんこれベクト

play23:52

してもいいんですよまアクセル踏むとか

play23:53

踏まないとかそういううん1番簡単な

play23:56

ケースはUがスからねうんところがxはね

play24:00

ベクトルなんですようんこれはどういう

play24:02

ことかっちゅうとですね潜在空間ね広げる

play24:06

んよ今までね潜在空間ちうと圧縮すること

play24:09

考えてうんそうじゃないんですよ広げるん

play24:13

です

play24:13

よこれがね僕らね聞きておおそうかってで

play24:19

なんで広げるんだって

play24:21

うんこれはねその後あのあれ言語モデルに

play24:27

やる時にねこのことが生きてくんですよ

play24:30

どういうことかて言語モデル

play24:32

トランスフォーマー考えてみてください

play24:34

トランスフォーマー考えた時に

play24:37

ね言語あまトクの列があるじゃないですか

play24:41

このトクの列ちゅうのがUの列みたいな

play24:44

もんなんですよでで出てくるYってのがね

play24:49

あのそのトランスフォーマーにえその

play24:53

プロンプと入れた結果が答えがなんか出て

play24:55

くるじゃないですかそれがYなんですうん

play24:58

うんだから入力のプロンプトがUでね出力

play25:02

のプロンプトがYなんですようんでその間

play25:05

にいろんなことやってるじゃないですか

play25:07

トランスフマの中であれがxなんですよ

play25:10

はいはいはいじゃあのXのね次元がねうん

play25:13

ね何次元であるかって実はどうでも良かっ

play25:17

たでしょ例えば小林さんがねあのGPT3

play25:20

で試され1番安いのが104次元でその次

play25:24

が248次元でその次4000何次元その

play25:28

い1万2000そうですたなはいつまりね

play25:32

ところがどれを使ったって基本的に同じ

play25:35

やっておくと同じでしょうんただ安いか

play25:38

高いかに応じて性能は違うけどうん

play25:41

うんでも性能がね高いか低いかはね出て

play25:45

くるプロンプトがねどれだけ最もらしい

play25:48

かっちゅうだけの話であってね要するに

play25:51

なんか質問のプロンプと今で言いたUを

play25:54

入れたら答えのプロンプとYが出てくると

play25:56

いうことに関しては同じであって中の次元

play26:00

が104次元であろうが1万2000次元

play26:03

であろうが結局はどうでも良かったわけ

play26:05

じゃないですかうんうんそれと同じにあ

play26:08

これもあのXっていうのはね次元を広げる

play26:11

ことによってねでどう何次元にするかね実

play26:15

はどうでも良いのうんで実は彼はねあの

play26:20

試してんですよ次元が同じね入力今の場合

play26:25

言うはあのスカラーだけどあれはまま

play26:27

ベクトルとましますよねでその時にねどん

play26:32

だけね大きくするかでね1倍2倍4倍8倍

play26:37

16倍とか色々やってんのよで大きくすれ

play26:41

ばするほど性能はいいんだけど計算時間は

play26:43

かかるわけでああで2倍でもいい1倍でも

play26:48

いいってのは何なんだってことでこれはね

play26:51

僕らもびっくりしたんだけどま要するにね

play26:53

広げるんですよで今までのイメージはね

play26:56

圧縮するイメージだうんねそうじゃないん

play26:59

だ広げるんだでなんで広げるといいかと言

play27:02

とですねここ

play27:04

で彼のあのあの偶さがねこれ言語モデルに

play27:09

使うということ考えたんだけどS4はダメ

play27:13

なんですよS4はね連続的な入力が入って

play27:17

連続的な出力が出てくるという問題に関し

play27:21

てねいろんなものをテストしてみた結果

play27:23

非常にいい成績出してんのようんところが

play27:26

言語モデルではダメなんだああなんでかう

play27:29

とねあの加したにあれ時間的に参加する

play27:34

ですよね小さんさっの話時間的に連続の話

play27:38

時間的に2が対したこれをねコンスタント

play27:40

の感覚にするというのがまS4でS4で

play27:45

あの言語扱った場合なんですはいはいその

play27:48

場合はね成績が悪いのよああでこれをね

play27:52

こうこの時間感覚をね変にすんのようんで

play27:57

それもねしてきたもので変えるんですよ

play28:01

うんだからさっきねABBCDとあった

play28:04

けどまDは実はどうでもあのDはねうん

play28:07

あれはもう略してますねはいあれスキップ

play28:09

コネクションなんですよはいはいはいでA

play28:11

がねトランジションマトリクスいうねうん

play28:14

でBがねあのコントロールでCがねこれは

play28:18

ま出力ですがまこれエミッション

play28:20

マトリックスとかまオブザベーション

play28:22

マトリックスとか言うんだけど

play28:24

うんで入力してきたいううんによってBと

play28:30

Cを変えるんよでAは変わんないのようん

play28:36

でこれ僕ねあのヤニキリアのあのあれ

play28:41

えっとあれを見たんだけどねうん僕

play28:45

いろんな人がねあの解説してるけどね

play28:47

分かってないんじゃないかと思ったんよ

play28:50

ヤニクキアも理解してなくて言ってんだと

play28:52

僕は思ったなんでかちゅうたらあのがねね

play28:58

時間的に変化するって言ってんだけどでも

play29:01

あの偶さはですねいやそれそうしたらいい

play29:04

けどそこは難しいからAは一定でBとC

play29:08

だけが入力の関数とすんだようんうんで

play29:11

どういうことかっち言うたらですね言葉が

play29:14

入ってきた時にねこれ飛ばしてもいい言葉

play29:17

とそうでないこと例えばうとかあとかいう

play29:19

のがあるじゃないですかうんこんなものは

play29:21

飛ばしていいわけだからそん時にはねうん

play29:24

あのこの状態空間モデルっちいうのは今の

play29:28

が過去の状態と入力から決まるんですよで

play29:31

どっちに植えとおくかとね

play29:35

でこの状態に過去の履歴をね一応みんな

play29:38

覚えとるんですようんでで何か言葉が入っ

play29:43

てきた時にこれをねこれを重視するか前

play29:46

からの履歴を重視するかっていうのでで

play29:50

そこをだからはあうん前からの履歴ちいう

play29:55

のはAなんですよね下から入ってくうんは

play29:58

BなんですようんうんうんでAは一定なん

play30:00

だけどでもね時間感覚を変えるとAの影響

play30:04

は当然変わるんですよああうんあのAって

play30:09

のは連続なんだけど普通はエバを使って

play30:11

あの算的にしABを使うあれはi-デルタ

play30:17

のAとなでだからデルタを変えれば当然A

play30:20

バが変るわけあはいうんそういうわけで

play30:24

感覚を変えることによってですねこの下

play30:27

からくるのか上から来のあ横から来んの

play30:30

どっちをまジスするかそうしないとあの

play30:33

言語モデルとしてはうまくいかないという

play30:35

ことが1つでさらにね僕はねこれ見て

play30:39

なるほどと思ったのですね

play30:42

このその色々入力あった時に過去のあのた

play30:47

あの何が入力されたかちゅうと一応ねこの

play30:49

状態空間を覚えとるわけようんね覚えとる

play30:53

んだけどね全部は覚えきれないんですよ

play30:55

だってさあれ無限の過去あの過去からの

play31:00

経歴も一応覚えられないそんなも覚えられ

play31:02

ないだから忘れていかんといかんねようん

play31:05

でそれがね小林さんがおっしゃったあのA

play31:08

っていうマトリクスの固有地であのあれ

play31:11

計上するわけだから小さくなってつまり

play31:14

過去の影響はねこうゆっくり下がっていく

play31:17

んようんうんうんでつまりね

play31:21

トランスフォーマーはあのあるウンドて

play31:24

いうのがあってそこまでは全部覚えてる

play31:26

わけようんはそれを超えるとですねスパッ

play31:30

と忘れるわけようんうんところがですね

play31:33

マンバはねそれがねダラダラと忘れてああ

play31:37

だからねこの忘れ方によってだから彼はね

play31:40

ミリオントークン100万トークンでも

play31:42

いけると言ってるわけようんそれはなぜか

play31:45

と言うと今みたにで過去のこと全部覚え

play31:49

てるわけじゃないですよで過去に行くと

play31:51

要するにようやく覚えとんだよああそれは

play31:55

ね非常に面白いグラフで書いてた

play31:58

あの例えばなんかある変動があったにこれ

play32:01

をですねあの再現してみると最初のうち

play32:06

最初の方はね綺麗に再現するんだけど後の

play32:08

方こう滑らかになってきてうんうんくるん

play32:12

ですよねというわけ

play32:14

であのマンバがなぜねすごいかというとそ

play32:18

にその

play32:21

えっとトランスフォーマーは

play32:25

まのそのその制限があって特にインファ

play32:31

ンスの時ねうんインファンスの時にあの

play32:36

あのトランスフォーマー時間かかるんです

play32:38

よところがマンバの場合はまrnnと一緒

play32:42

だからね瞬間的に計算できるんですよでで

play32:45

かつ過去のこと覚えて覚えてるということ

play32:47

であのまいいとこ取りしてじゃあねじゃあ

play32:53

ね学習の時どうすんだって言うんだけど

play32:56

学習の時はね

play32:58

あの

play33:00

HえS4の場合はあのカーネルとかいうの

play33:05

があってこれあのパラレル化できるんだ

play33:07

けどs6になるとパラレル化ができなく

play33:11

なるんですよあやっぱりそうですよねはい

play33:13

はいうんでそこをねどうクリアしたかって

play33:17

ここはね非常にねそこがハードウェア

play33:21

GPUのSラムとDラムをねをの役割をね

play33:28

して早くする計算はSラムであって

play33:30

ゆっっくりしていいのはDラムであるとだ

play33:33

からこれがねダオダオスグじゃなくてダオ

play33:38

さんのコントリビューションだと思うだ

play33:41

からS4の話とハードウェアをフルに使う

play33:45

というこの2つが組み合ってマンバが出て

play33:49

きてでこれは

play33:51

スマしのぐということらしいです

play33:55

ようんだそのハードウェアあのそのところ

play33:58

は僕はまだまだ十分理解できてないでま

play34:03

この辺はあのねあの斉藤さんぐらいじゃ

play34:06

ないと分かんないと思うけどうんうん

play34:10

なんかマンバの話はちょっとまた改めて

play34:13

やるとかおっしゃっそうですねはい今は

play34:15

そのS2の話だったんではいその先はまた

play34:18

あそうかS2の話じゃあじゃあそのうS4

play34:21

の話もはいえいやいや今のでだいぶ分かり

play34:25

ましたけども結局あれですね

play34:29

えっと制御理論の状態方程式をうんこの

play34:33

llmのこの入力と出力にそうそう

play34:37

そうそうあれでを借りてきた状態空間って

play34:40

いうのを潜在空間みたいな感じにしちゃっ

play34:43

た感じなんですねいやまさに世代空間です

play34:46

よええいやそれはちょっとすごいうん変な

play34:49

発想でうんあの面白いなとでこれであれ

play34:54

ですけどねあの制御理論のおいしいとこを

play34:58

活用できるんだったらいやその活用の仕方

play35:02

がまたすごく面白くてえっとあれ線形な

play35:05

システムなんですねだから1回1回計算し

play35:08

なくてもずっとTに関して累積したものっ

play35:11

てのは行列の掛け算になっちゃうので行列

play35:13

かけてかけてかけてるとあらかじめその

play35:14

行列の掛け算の結果って計算できちゃうん

play35:17

ですねそうそうそうするとあの本質は

play35:20

rlnであのrnっってその中間の隠れ

play35:24

状態があるんだけど1個進んでそのそれを

play35:26

使って結果を使ってつぎで行くから順々に

play35:29

1個1個経験してかなきゃなんないって

play35:31

あれねね線形なんですようんだから

play35:34

マトリックスをガッとかけるみたいなこと

play35:36

はできないええまあの大体雰囲気はそう

play35:40

うんそれが線形なおかげでえっとrnは

play35:43

そのNのオーダーで計算できるんですけど

play35:46

あの式を数式書き換えるとあの畳み込みの

play35:49

形に書き直せんですよねでそこまではいい

play35:52

んだけどそのrnだとNでできるのに

play35:56

畳み込みにするとN事情の計算回数になっ

play35:58

ちゃうんですよあの1回畳み込みでそのR

play36:01

Tに対してSで全部積分するんだこれで

play36:04

あのn回あの全てのTでこの時のこの時

play36:08

のってやんなきゃいけないから結局Nの次

play36:09

の計算量になるんだけどもそこが実は高速

play36:13

風流変換のやり方が使えてN事情のあの

play36:17

計算をNlogNまで落とせるんですよ

play36:20

それはその高速風変換として前々から知ら

play36:23

れてるのでそれを利用しちゃえば一応Nが

play36:26

N事情にったのNlogNまで落とせる

play36:29

よっっていうそれでしかも並列計算が

play36:31

できるようになったよってことでGPUが

play36:34

有効活用できますねということでrnより

play36:37

いいですねっての本当に制御理論の方から

play36:40

借りてきたおかげでそういう前々から知ら

play36:42

れてきた高速化のテクニックが利用でき

play36:45

ちゃうっていう美味しさがあ

play36:46

るっていうことですかうんで僕はあんまり

play36:49

やってないけどよくやんrnnはなんか

play36:53

あのバックプロパゲーションする時に

play36:56

なんか勾配消とかあれ勾配があの発散する

play37:00

とかいうような問題があってあんまり長い

play37:03

だって基本的には無限の過去までね行ける

play37:06

わけなんだけどそうはいかんよということ

play37:08

らしいですねで今のあのはあのS4はその

play37:13

問題がないとでマンバも多分それがないと

play37:16

いうことらしいですうんうんうんまあなん

play37:18

かいっぱい言いたいことありそうですけど

play37:20

も聞く側にとってはなかなか辛い感じに

play37:23

なっそうですねとりあえず今S2を突破し

play37:26

ていたけえま改めてちょっと整理してです

play37:29

ね解説するのがいいんじゃないかなと思い

play37:33

そう思いますあいやなんか結構今ピンと

play37:36

くるものがあってすごいなと発想がですね

play37:40

いうのは雰囲気はよく分かりましたんで

play37:42

改めてええええ雰囲気だけ分かってて

play37:45

くださいででいや自分も先ほど言いました

play37:48

ようねあ今週は万波週間とで僕図書館に

play37:53

行ってですねあの徹底的に勉強しようと

play37:56

思いなうん

play37:58

あの野牛見て

play38:00

しま誘惑が多いですね間は誘惑が

play38:05

多いだからまたあの改めてねはいマンバの

play38:10

解説というのをちょっと整理し直してうん

play38:13

今日はま出しの部分と心みたいなやつです

play38:17

ねはいうんうんはいはいあとちょっとだけ

play38:20

自慢しときたいのはあの今までその

play38:22

トランスフォーマってあのGoogle

play38:24

から出てきたりとか要はGoogleと

play38:26

オンエのだった時にあの今年の初めぐらい

play38:29

の会の時に大学頑張ってくれたらいいのに

play38:32

なって思ってたわけですよで大学はなんて

play38:35

いうかそのトランスフォーマーの原理を

play38:37

解析するとかそういうところでやってる

play38:39

けどなんか大学が思いついた方法を

play38:41

スタンダードとして使われてなんかみんな

play38:43

が使うようになったって例は今までそんな

play38:46

そんなに多くなかったような気がするので

play38:48

大学頑張って欲しいなと思ってたところで

play38:50

このマンバは大学なんですねプリンストン

play38:53

大とカーデメロン大なんであのあそれを

play38:56

言うならねもうせくださいリング

play38:58

アテンションよあああのねあのジェミニー

play39:03

が100万トークまでオッケーという

play39:05

でしょうんんならうん次にあのインフレ

play39:11

ションやないごめんごめんあのクロードも

play39:14

そうなよねうんでねこのリングアテンショ

play39:19

ンっちゅうのが大学から出ているうんで

play39:21

これがね100万トクまでいけるってだ

play39:24

から実は彼らは彼らってねんうんGoog

play39:28

とかリングアテンション使ったと言って

play39:30

ないのよ中身見してないからうんうんうん

play39:33

だけどリングアテンション使うとですね

play39:35

100万トークンまでねイグザクトに

play39:37

アテンションかけられるんですようんうん

play39:39

うんうんいやだから僕ね今ねマンバの話し

play39:43

たけどけどリングアテンションがあれば

play39:46

マンバがいらなくなる可能性もあるわけよ

play39:49

ああはあはあはあはまあまあ言いたいこと

play39:52

いっぱいあるでしょうけども今日ととと

play39:56

あの松田生のあの異の内部状態がうん確か

play40:01

にそれはいるはい

play40:03

そ予想されますのではい終了したいと思い

play40:08

ます

Rate This

5.0 / 5 (0 votes)

Related Tags
AI ArchitectureState-Space ModelMamba TheoryControl TheoryNeural NetworksTransformer ModelsInnovation AnalysisTech RevolutionResearch InsightsFuture Predictions