クリエイティブAI講座:小規模言語モデル(SLM)
Summary
TLDR最近の言語モデルの動向として、小規模言語モデル(SLM)の注目度が高まっている。大規模言語モデルがどんどん拡大する一方で、小規模モデルはカスタマイズ性やローカルでの運用が可能で魅力的。AppleやMicrosoftが小規模モデルを発表し、高い性能を発揮する例がある。質の高いデータセットで学習することで、パラメーター数が少なくとも同等の性能が出せるとされる。研究では、人間のように限られたデータで効率的に学習するSLMの開発が進む。
Takeaways
- 🌐 最近、小規模言語モデルの話題が注目されています。これは、より小規模な言語モデルを指しており、大規模言語モデルに比べて性能は劣りますが、使いやすさが強調されています。
- 📈 大規模言語モデルはこれまで拡大を続けてきましたが、AppleやMicrosoftなどは小規模言語モデルを開発しています。これは、小規模でも高性能なモデルを目指す新しいトレンドを示しています。
- 🔍 IEEE Spectrum誌によると、小規模言語モデルは高品質のデータセットを用いて学習することで、パラメーター数が少なくとも同等の性能を発揮できるとされています。
- 📚 Appleの開発者カンファレンスで発表されたAppleのインテリジェンスは30億パラメーターで、ローカルで動作することが特徴です。
- 🤖 Microsoftが開発した53 miniは38億パラメーターで、その性能は150億パラメーターのGPT3.5とほぼ同等とされています。
- 📈 Googleのジェンマは70億パラメーターで、53 miniと比較してパラメーター数が倍近くあるにもかかわらず、同等の性能を発揮できると報告されています。
- 🧠 小規模言語モデルの開発は、学習データの質を高めることで、より効率的な学習が可能になるという考え方に基づいています。
- 👶 ベイビーLMは、子供たちが言語をどのように獲得するかを研究するためのAIであり、限られた言語セットで学習することで知能を高めるチャレンジを行っています。
- 🔑 小規模言語モデルの利点は、ローカルでの動作やカスタマイズの可能性、そして個々のデバイスに特徴のあるAIを提供することです。
- 🔮 将来のAIの方向性として、小規模で効率的な学習を模倣し、AIにフィードバックすることを目指す研究が進んでおり、これは新しい学習方法の可能性を示しています。
- 🌟 小規模言語モデルは、学習データセットの質を重視し、コンパクトで高性能なAIを目指す新しいアプローチを示しており、これはAI開発の重要なトレンドです。
Q & A
小規模言語モデル(SLM)とは何ですか?
-小規模言語モデル(SLM)は、パラメーター数が少ないが、高い性能を持つ言語モデルのことを指します。大規模言語モデル(LLM)と比べて、小さなデータセットや限定されたデータセットで学習し、効率的に動作することを目指しています。
最近のトレンドとして小規模言語モデルが注目される理由は何ですか?
-最近のトレンドとして、小規模言語モデルが注目される理由は、大規模言語モデルが持つ巨大な計算資源を必要としないで、高い性能を発揮できるからです。特に、AppleやMicrosoftが小規模言語モデルの開発を進めており、質の高いデータセットで学習させることで、パラメーターが少なくても高い性能を出せるようになっています。
Appleが開発した新しい小規模言語モデルについて教えてください。
-Appleが開発した新しい小規模言語モデルは、Appleインテリジェンスと呼ばれ、30億パラメーターを持つモデルです。このモデルは、ローカルで動作し、スマートフォンやラップトップ、PCなどで利用することができます。
Microsoftが開発した小規模言語モデルについての詳細を教えてください。
-Microsoftが開発した小規模言語モデルは、Phi-3と呼ばれ、最も小さいものは38億パラメーター、最も大きいものは140億パラメーターを持ちます。特に注目されるのは、Phi-3 Miniで、38億パラメーターながら、性能評価でGPT-3.5(150億パラメーター)とほぼ匹敵する成績を出しています。
データセットの質が小規模言語モデルの性能に与える影響は何ですか?
-データセットの質は小規模言語モデルの性能に大きな影響を与えます。高品質なデータセットを使用することで、パラメーター数が少なくても高い性能を実現できます。例えば、教科書レベルの質の高いデータを学習データとして使用することで、無駄のない効率的な学習が可能になります。
BabyLMプロジェクトについて教えてください。
-BabyLMプロジェクトは、チリ大学の研究者が、子供が言語を獲得する過程を研究するために開発した小規模言語モデルです。このプロジェクトでは、子供が学ぶ言語量に近い限定されたデータセットを使用し、AIに学習させることで、どのように知能を高めるかを研究しています。
SLMがLLMと比べて優れている点は何ですか?
-SLMがLLMと比べて優れている点は、コンパクトでローカル環境で動作するため、クラウドに依存せずに利用できることです。また、パラメーター数が少ないため、計算リソースやエネルギー消費が抑えられ、効率的に運用できる点も挙げられます。
サム・アルトマンが言う「巨大モデルの時代は終わった」とはどういう意味ですか?
-サム・アルトマンが言う「巨大モデルの時代は終わった」とは、LLMのようにパラメーターをどんどん増やすだけではなく、データの質を向上させることで性能を上げるという新しい方向性を示しています。これにより、SLMのような小規模なモデルでも高い性能を発揮できるようになります。
LLMとSLMの違いは何ですか?
-LLMとSLMの違いは主にパラメーター数とデータセットの扱いにあります。LLMは非常に多くのパラメーターを持ち、巨大なデータセットで学習しますが、SLMはパラメーター数が少なく、質の高い限定されたデータセットで学習します。これにより、SLMは効率的かつローカルでの利用が可能です。
今後のAI研究の方向性について、SLMの役割はどのように考えられていますか?
-今後のAI研究の方向性において、SLMは効率的でカスタマイズ可能なAIの実現に重要な役割を果たすと考えられています。SLMはローカルで動作するため、個別のニーズに応じたカスタマイズが可能であり、特定の用途に特化したAIの開発が進むと期待されています。
Outlines
🤖 小規模言語モデルの注目とトレンド
最近注目されている小規模言語モデルについて。小規模モデルは大規模モデルと比べて性能が劣りますが、独自にカスタマイズしやすいという利点があります。アメリカの電気電子学会のスペクトラ誌の記事では、AppleやMicrosoftが小規模言語モデルを開発し、高パフォーマンスを発揮させるという最新トレンドが報道されています。また、メタが発表したラマ3は4000億パラメーターの大規模モデルで、オープンソースのモデルも同様に大きなパラメーター数を持ちつつも、小規模モデルと比較して性能が向上しています。
📚 高品質データセットによる小規模言語モデルの性能向上
小規模言語モデルが高品質なデータセットを用いて学習することで、パラメーター数が少ないにもかかわらず同等の性能を発揮できるという点が強調されています。具体的には、Microsoftの53やAppleのインテリジェンスなど、小規模モデルは教科書レベルのデータを用いて学習し、その結果、大きなパラメーターを持つモデルと比較してもほぼ同等の性能を示すことができます。このアプローチは、学習データの質を重視し、効率的なモデル開発につながると示唆しています。
🧠 学習データセットの量と質の重要性
学習データセットの量と質がAIの性能に与える影響について議論されています。小規模言語モデルは限られたデータセットで高い性能を発揮する研究が進んでおり、例えばBabyLMは5歳〜6歳までの子供が学ぶ言語レベルのデータセットのみで学習されています。このアプローチは、人間のように効率的に学習することができることを示しており、学習データセットの選択と利用方法がAIの性能に大きく影響すると示唆しています。また、データセットのビジネス価値についても触れられており、高品質なデータセットは企業の競争力につながる重要な要素であるとされています。
Mindmap
Keywords
💡小規模言語モデル
💡大規模言語モデル
💡パラメータ
💡Apple
💡Microsoft
💡学習データセット
💡OpenAI
💡Llama 3
💡BabyLM
💡質の高いデータ
Highlights
最近小規模言語モデルの話題が目立っている。
小規模言語モデルは大規模モデルと比べて性能が劣るが、使いやすいという利点がある。
IEEE Spectrum誌に、小規模モデルで性能を上げるトレンドが報道されている。
AppleとMicrosoftが小規模言語モデルを開発しているという記事がある。
メタが4000億パラメーターのモデル「ラマ3」を発表し、オープンソース化している。
GPT4のパラメーター数は1兆8000億と噂されている。
Appleの「Appleインテリジェンス」は30億パラメーターでローカルで動作可能。
Microsoftの「53」は38億パラメーターで、小規模ながら高性能。
小規模言語モデルはデータの質を向上させることで高性能を実現している。
学習データセットの質の向上が小規模モデルの性能向上に寄与している。
Googleの「ジェンマ」は70億パラメーターで、53 miniと同等の性能を発揮。
小規模言語モデルはローカルで動かすことが魅力的で、カスタマイズが可能。
ベイビLMは子供の言語習得を模したAIで、限られたデータセットで学習させている。
学習データセットの量と質が小規模言語モデルの性能に大きな影響を与える。
学習データセットの選択とスクリーンが小規模言語モデルの開発の鍵となる。
小規模言語モデルはエッジAIニーズに適しており、進歩が期待されている。
学習データセットの研究が広まっており、ビジネスのコア部分になる可能性がある。
小規模言語モデルはコンパクトで高速に動作し、多様なアプローチが存在する。
小規模言語モデルは学習方法の改善により、より良い性能が期待される。
Transcripts
小規模言語モデルっていう話が最近
ちらほらと出てきてますよ最ていうかま前
からあのあれですよねラマのちっちゃい
モデルって言ったら小規模なやつですよね
ああまそうですねこれからあるといあり
ますけどうんうんただ今まではどっちかと
いうと大規模言語モデルがあってそれがま
どんどんどんどんさらに大きくなっていっ
てえでまその小期現モデルどっちかって
いうとそのそれに対してはちょっと性能を
劣るけどもま自分たちで好きに使えるから
使おうかぐらいのうんうんそうですねじゃ
ないですかただ今あのiEというですね
あのえこれなんですか米国電気電子学会
っていうんですか日本えアメリカの電気の
学会最大世界最大規模の学会世界最大の
エンジニアの所属するやつのまスペクトラ
ムっていうあの雑誌まウェブマガジン記事
にえっとむしろそのちっちゃなモデルで
性能をむしろ上げるとああいう方向性がま
最近とそういうトレンドが出てきてるよっ
て話の記事がありました短い記事ですけど
もま特にそのAppleと
Microsoftはいがそういうことを
やっているという記事ですああそうですか
はいでまちょっとそのllmの話をまご
存知と思いますけどするとえっとま最近で
言うとメタがですねラマ3というのを出し
たはいはいわけですねまこれも4000億
パラメーターなんでどっちかと大きなはい
ですねこれはまオープンソースとはいえで
2022年まオーンAIはGPTを出して
チャットGPTを出してまこうそのその時
の2022年のチットGPTの
パラメーター数より最近出たそのメタの
ラマ3はパラメタ倍あるはいだから当時
ちゃ自2000億パラメーターで最近出た
そのオープンソースのラマ3でさえもう
4000億
パラメーターなんですねだからどんどん
大きくなっていってるということですで
GPT4に至ってはあのはっきりとは
分からないわけですけどもまよ1兆
8000億とかまそんな感じで言われてる
と言われてるとまとにかくどんどんでかく
なっていってるっていうのが1つの
トレンドとしてまあったわけですねえ
ところがまこの数ヶ月ま最近この
AppleやMicrosoftがえ
もっとちっちゃいモデルを出してるでこれ
小規模言語モデルと英語でも
えっとなんだスモールラングモデルと
モデルというらしいですね
あええ小規模言語モデルってまあ我々
だいぶ前から言ってましたけどもそれは
なんか俗称みたいな感じでうんうんね思っ
てましたけどそうちゃんとはそういう言い
方してなかったんでしょうねきっと最近え
そういう言い方が定着してきたっていう
感じなんでしょうかねなんでしょうね私も
このiEの英語のタイトル見てそう思い
ましたあ正しくslmはいはいと言そう
ですはいえまSと言っても大きいんです
けどねかなり
ねでえまそういうことですよでですねま
これのま最近の流れで言うとえ新型サロン
でもあのご紹介したま6月10日のあの
Appleの発表デベロッパーズ
カンファレンスでえApple
インテリジェンスを出しま出したっていう
のもねついこの間ランキングで10位で
紹介してますけどまこれ30億
パラメーターなんそうですねああはははは
30億だからまあまあ今の流れでいくと
ちっちゃいわけですよすごくでローカルで
動くということですよねでもう1つの53
っていうのも出ましたね
Microsoftからでこれがえ4月
下旬ですけど1番ちっちゃいのは38億
パラメータあ上が140なんですねそう
そうAppleインテション同じぐらいな
んですよちょっと大きいぐらいということ
でえ今のトレンドから言うとかなり
ちっちゃいわけですこの2つでまこれを
一応こういうのはslmという感いうこと
ですねでですねじゃあまちっちゃいから
性能が劣るのかと言うとまそうでもなく
最近のそのslmはかなり性能が高いと
いうことでえ例えばえ53のMinニって
やつがまさっき億ってやつですけど30億
パラメーターですがこれはあのオAの
ちょっと1つ前のGPT3.5ええこれ3
GP3は150億パラメーターですよだ
から50倍ら違うんですねパ数で言うとだ
けどはい性能の評価でほぼ匹敵するとはい
いうことらしいですパラメーター数は50
倍も違うのにえ性能もほぼ同じになってき
てるとうんでGoogleのえっと
オープンソースでえっとジェンマというの
があるんですけどまこれ70億
パラメーターですこれはまさえっと53
miniの倍ぐらいあるんですけどえ53
miniはそのジェマとも同じぐらいの
成績出してるってことでえちっちゃいけど
いいんですよ比較的いいというのが今の
新しいslmのえ特徴であるということ
ですでこれがですねえっとまなんでそう
いい成績出せるかっていうことなんです
けど
えっとデータを学習するデータというもの
がの質を上げてるということなんだそう
ですねあはいはいだからいわゆるlmと
いうともインターネットでもいろんなもの
を入れて学習するってのが1つの方向なん
ですけど今のこの53とか
Microsoftのファイ3なんかは
いわゆる教科書レベルの質っていうものに
データセットを学習データをこうある程度
スクリーニングしてそれだけ学習させてる
ということなんですですだから質の高い
データでトレーニングすることでえ
ちっちゃなパラメーターでもえ同等の性能
ま大きなものと同じような性能が出せてる
ということなんだそうですうんなので
なんか以前ねえっとllmに学習して
もらうという話出てませんでしたLM
モデルは
llmでが縮するっていうのがあllmが
出した答えをがまたあそうそうそうそれ
結構効率いいとかいうようなあうんテ
データなるほどそこですそれ違いますうん
このデねどうやって作ったるかちょっとは
書いてなかったですけどねえ確うん
インターネットのね多くのデータってくず
よねああ良くないデータが多いっていう
ことですかうん僕はねあのコピーとかね
ああうんああはあだからいっぱい集めたら
いいってもんじゃないわけよねじゃないっ
てことなんでしょうねうんはいままどう
やってスクリーンするかっていうとこかね
やっぱ問題にはなると思いますけどま1つ
の方向性としてそれは面白いなと思いまし
たえでとま大規模言語モデルの事態は
終わったとこれサムアルトマンが言って
ますよねああはあは言ってましたよね
ちょっと前にだからまgbt4から5は
どうなのかわかんないんですけどもしかし
たらパラメータースを増やすていう方向
じゃなくえいわゆるこういう考え方データ
の質を上げるという考え方かもしれないと
いう風にえ推測されているということだ
そうですあ4月のイベントですね4月の
イベントでの使用であるサルトがえ巨大
モデルの時代を終わりつつあるという風に
述べているということだそうですで私たち
は別の方法でそれをよくしているあよくし
ていくという風に言ってるんであなんか
ちょっと方向性が変わってるのかなという
ことをま推測してるということだそうです
はいえっとでま私としてもそのスモール
slmっていうのはまローカルで動かせる
とま塚本先生のねウェアラブルとかもそう
ですけどええええクラウではなくスマート
フォンとかラップトップとかまここのPC
とかそういうも動かせるっていうところが
ま非常に魅力的でえそのもカスタマイズと
かできますしまそれぞれが違うAIを持っ
てそれ特徴のあるAを持つっていう時代
っていう風になっていくのかなと期待はし
ているとうんいうことですでえっとまこれ
の1つのえっと例としてですねあのまこう
いうのを使ってる例としてあのあれベイビ
LMってのはご存知ですかねこれはあの
チリ費効果大学のえっとアレックスワシ
タットというええ研究者があのこの人の
問題意識はですね子供たちがどのようにえ
言語を獲得するのかっていうそれを研究
するためのAIを作ってるとああそうです
かいう研究があるんですよでベイビーLM
ってのまさにその子供が学習するっていう
意味のベイビーでもあるしまちっちゃいっ
て意味のベビーっていうのもかけてんのか
なと思いますねでこれでですねあの参加者
いろんな普通の人が参加するえっと
チャレンジっていうのをやっていてこれは
ねあのデータセットを非常に絞ってつまり
本当に子供がですね学ぶ言語の数ぐらい
その5歳とか6歳とかぐらいまで学ぶ言語
だけに絞ってAIに学習させるとそれで
AIがどこまで知能を高められるかって
いうのはえまチャレンジ型のイベントを
やってるんですよね参加誰でも参加できる
でことそれ前やって今年またその2回目を
やるってことでえまそういうところでです
ねこのslmっていうのを使ってえ今の
この人間がどうやって学習するかってこと
をま研究してるとまこういう研究にも使わ
れてるそうですでだから小規模で効率的な
人間らしい学習をリバース
エンジニアリングしてえそれをさらにこう
AIにフィードバックしようというような
ことをやっているということがこの記事に
書いてましたはいまあ大規模でね成功した
から次のステップとしてはま同じ大規模で
性能を良くするっていうのとさらに大規模
にしてもっと良くするっていうのと
ちっちゃいやつで同じぐらいの性能を
目指すといういろんな研究出てきてま成功
例があると次のステップ踏みやすいとうん
いうのはあね小規模っていうのはもちろん
エジエAIでですねニーズが高いわけです
からね進歩してくるっていうのはま予想
通りな感じしますけどま学習データセット
でよくするっていうのはあれですね
なかなか1つの方法だという気がしますね
あの実際国内でllm開発するって話あの
割と進んでるみたいですけども学習データ
セットでとにかく当たり外れが大きいと
うんうんうんうんいうような話聞きますね
もう本当にやってみないとわからないと
なるほどうんいうことでだからそれでいい
学習セット用意するっていうのはうん僕
いいアプローチなのかなねデータセット
自体の研究をされてる方ともいらっしゃる
んですかねどんなデータセットがいい
かっていうの研究ってのもああ多分ね研究
がすごい広まってますからねいろんな研究
あるという感じ
そうそうそうださっきのそのBabyLM
で言うとあここに書いてありましたけど
その13歳後になるまでにえ大体1億5
らしいんですよこうああ触れる言語う量
ですね1億5ってのは多いように思います
けど今のllmでのやってることに比べ
たらむちゃ少ないらしいんですよねああ
そうですね落手させてる量に比べるとだ
からこれ非常にこれの限られたデータ
セットでどこまで行けるかっていうのをや
るっていう研究がま今こうやって
るってことそうですよまあねそのデータ
セットの量が少ないっていうのとデータ
セットの質がその子供でるっていうのと
あと結語モデルのパラメーター数が少な
いっていうのとはうんうんま関連性はある
でしょうけどもま別基本別の話ですからね
まあまあそれはそうですねま脳脳の事体の
ね構造はあのllmよりも大きいかもしれ
ないですね今のええええええデータセット
に着目するっていうとこが新しいんですか
ね研究としてはねえあ思い出しましたその
日本のねLM開発してるところのあの話で
言うとそのデーターセットこそがこ
ビジネスの角であってに出したくないと
社会一番大事なものなんだみたいなそう
いう動してたことがあ聞いた覚えがあり
ますねからえなかなかそれをオープンにし
ていくっていうのは世の中の進展にはいい
でしょうけども逆にそれをもういいデータ
セットに関してはクローズドにしてそれを
ビジネスの種にしていくてっていうのは
考え方かもしれませんねなるほどでこの
すごくいいデータセットですごいこの
コンパクトなllmでも性能がいいって
いうのはこれは勝負の1つだとうんうん
思いますねうんねその辺でこう勝負できれ
ばいいですねえじゃどういうデータセット
がいいのかっていうのも多分研究のテーマ
であり実は商売のこの種の1番コアな部分
でありっていうところあるかもしれねだ
からうんうん研究としてオープにしてい
くって話と失敗のとしてクローズうんして
いくっていう話とありそうな感じが
うんうんうんねまなんとなくこう純粋バオ
的なAIの作り方かなと思ってまいろんな
ことをいいことも悪いことも含めて知っ
てるAIの方がまあちょっと打たれ強い気
はしますけどいろんなことそれはそうです
ねまあるものに特化するま目的がある程度
絞られているんだったらまそれに向かって
純粋倍をするみたいなAIの学習の仕方も
あるんでしょうねきっとねま人間でもね
いいことも悪いことも知ってる人の方がね
強いですからねま最終的には最終的には
いろんなもの対応できますけどどうなん
でしょうエリートAIとかいろんなものが
できるかもしれないですねやっぱりね人間
は赤子供は非常に少ない声でね学習できる
うんやっぱりどっかアルゴリズムになんか
やっぱり違いがあるんじゃないかって気が
しますけどねああ今のllmではあslm
では限界があるかもしれないいって話です
から違うんうんええまだ確かにLL今の
例えばGPT4とか5でのぐらいの
スケールで学習の仕方がさらに良くなれば
うんすごいものができるかもしれないです
ねそうかそういう意味ではあれじゃない
ですか1.5ビットっていう方向性もあっ
てそのコンパクトで早く動かすというのに
関してはちょっといくつかアプローチは
あるうんあそうですねうんいくつか
それぞれ違うちょっと違うんだけどもこれ
からいろんなもの出てきそうですねえはい
そういうことですねはいはいそういうこと
で
5.0 / 5 (0 votes)