【必見】ファインチューニング入門~コスト98%削減も!ビジネスマンは知っておきたいファインチューニングの基本&活用事例&活用パターン
Summary
TLDRリモートアク研究所はファインチューニングの入門と活用方法を紹介します。GPTモデルや生成AIモデルを特定のタスクに合わせて最適化する手法で、処理コストがGPT-4活用に比べて98%削減された事例もあります。ファインチューニングの基本、具体的な活用方法、コスト削減の詳細について説明し、実際のビジネスでの利用例を示します。AI活用の最新情報を提供し、ビジネスマンにとって重要な知識をお届けします。
Takeaways
- 😀 ファインチューニングは、既存のAIモデルを特定のタスクに合わせてさらに学習させる技術です。
- 🔧 ファインチューニングの活用はビジネスで大きなメリットがあり、例えば処理コストを大幅に削減することが可能です。
- 💡 ファインチューニングの基本は、データを与えAIモデルをカスタマイズすることです。
- 📈 ファインチューニングの例として、通訳パターンの分類タスクにおいて98%のコスト削減を実現した事例が紹介されています。
- 🛠️ ファインチューニングは、独自のAIモデルを作り始めからトレーニングするというよりは、少ないデータで既存モデルを調整する手法です。
- 📚 学習データは最低でも10サンプル必要とされ、そのデータはJSON形式に変換してOpenAIに提供します。
- 🎯 ファインチューニングは、分類タスクや変換タスク、スタイルやトーンの設定、特定のフォーマットへの変換など、多様なビジネスニーズに応じて活用できます。
- 📉 ファインチューニングを通じて、プロンプトでのルール化が難しい場合やエッジケースが多い場合にも対処できます。
- 📈 学習過程はOpenAIの管理画面上で確認でき、トレーニングロスが0に近づくにつれて理想的なアウトプットに近づくことがわかります。
- 🚀 ファインチューニングは、ビジネスでルールベースの方法や人間による処理と組み合わせることで、効率化とコスト削減に大きな貢献をします。
- 🌐 リモートワーク研究所では、AIの活用事例や最新情報を提供し、ビジネスでのファインチューニングの重要性とその効果を強調しています。
Q & A
ファインチューニングとはどのような技術ですか?
-ファインチューニングは、既存の学習済みのAIモデルに対して特定のタスクに合わせて追加学習させる技術です。これにより、モデル自体を少しカスタマイズすることができます。
ファインチューニングのメリットは何ですか?
-ファインチューニングの主なメリットは3つあります。1つ目は出力結果が安定すること、2つ目はプロンプトに含められない大量の例を学習できること、3つ目はプロンプトを短縮することでトークンの節約や低遅延リクエストが可能になることです。
ファインチューニングはどのビジネスシーンで有効ですか?
-ファインチューニングは分類タスクや変換タスクなど、特定のパターンに合わせたAIのカスタマイズが必要なビジネスシーンで有効です。また、ルールベースで難しい場合やエッジケースが多い場合にも適しています。
ファインチューニングによって処理コストを98%削減した事例について教えてください。
-ある事例では、通訳パターンの分類タスクにおいて、GPT3.5のファインチューニングを行った結果、処理コストが大幅に削減され、精度も90%以上に向上しました。
ファインチューニングを実施するためにはどのような手順が必要ですか?
-ファインチューニングを実施するためには、まず学習データの準備が必要です。次に、学習データをJSON化し、OpenAIの管理画面で学習を実行します。そして、新しく作られたモデルを利用して、期待される結果を得ることができます。
学習データはどのように準備すれば良いですか?
-学習データは、システム、ユーザー、アシスタントの3つの列を持つスプレッドシートなどで整理し、必要なパターンが十分に網羅されていることを確認して準備します。
ファインチューニング後のモデルはどのようにして利用できますか?
-ファインチューニング後のモデルは、OpenAIの管理画面上のプレイグラウンドから直接利用することもできますし、APIを通じてプログラムから読み出して大量に使用することも可能です。
ファインチューニングのトレーニングコストはどのくらいになりますか?
-ファインチューニングのトレーニングコストはデータセットの規模によって異なりますが、一般的には数百円から数千円程度と比較的低く抑えられます。
ファインチューニングはどのような種類のAIモデルに適用できますか?
-ファインチューニングはGPT3.5やGPT4などの大型言語モデルに適用できますが、GPT4はテスト版であり、コストが高くなりやすいためGPT3.5が一般的に選択される傾向があります。
ファインチューニングはどのような場面でおすすめされますか?
-ファインチューニングは、特定のビジネスタスクに合わせたAIのカスタマイズが必要な場面や、人間がやるよりもスピーディでスケーラブルな結果が必要な場合におすすめされます。
Outlines
😀 ファインチューニングのビジネス活用とメリット
この段落では、ビジネスマンにとってファインチューニングの重要性とその活用方法について紹介しています。GPTモデルを特定のタスクに合わせてファインチューニングし、ビジネスでの活用とそれに伴うメリットについて解説しています。具体的な技術詳細よりもビジネスでの活用方法にフォーカスし、処理コストの大幅な削減など、ビジネスシーンでの有効活用例を紹介しています。
😉 ファインチューニングの基礎知識と価値
ファインチューニングとは、既存の学習済みAIモデルに対して特定のタスクに合わせて追加学習させる技術であると説明されています。その基礎知識から始まり、具体的な活用方法とコスト削減の例を交えて話が進みます。また、ファインチューニングの3つの価値として、出力結果の安定化、プロンプトに含められない大量の例を学習できること、プロンプトの短縮によるトークン節約や低遅延リクエストの実現について触れています。
😃 ファインチューニングの具体例とコスト削減
具体的な事例として、通訳パターンの分類タスクにおいてファインチューニングを行った結果、高精度での大きな成果が得られたと紹介されています。人間による作業からAIへの移行が検討され、その過程でプロンプト方式とファインチューニング方式のコストと精度を比較分析しています。最終的に、ファインチューニングによって98%のコスト削減を実現し、高精度でのビジネス適用が可能になったと強調されています。
😁 モデルごとのコスト比較とファインチューニングのコスト效益
GPT3.5ターボとGPT4O、GPT4ターボのモデルごとのコスト比較が行われており、それぞれのモデルにおけるインプットとアウトプットのコストについて説明されています。ファインチューニングによって、モデルのトレーニングコストが比較的低い金額で済み、かつ効果的な結果が得られることが示されています。トレーニングコストは人件費と比較して圧倒的に低いため、ビジネスでの活用が非常に有利であると主張しています。
😄 ファインチューニングの実施方法と手順
実際にファインチューニングを行う手順が紹介されています。学習データの準備、JSON化、OpenAIの管理画面での学習実行、新モデルの利用方法について説明が進んでいます。データの準備からJSON形式への変換、OpenAIのAPIを利用したデータのアップロードとモデルの学習実行、そして新モデルの利用方法について、手順通りに説明されています。
😉 学習プロセスの紹介とファインチューニングの効果
ファインチューニングの学習プロセスがグラフで可視化されており、トレーニングロスがどのように減少し理想的なアウトプットに近づいていっているかが解説されています。学習前後のモデルの比較を行い、ファインチューニングによって精度の向上が示された例を紹介しています。また、学習したモデルをプレイグラウンドでテストし、その効果を実際に確認することができると説明しています。
😀 ファインチューニングのビジネス適用と今後の展望
ビジネス現場でのファインチューニングの適用について話が進んでおり、分類や変換タスクにおいての活用が具体的に紹介されています。ファインチューニングがビジネスフローの特定の部分で大きな成果を出すと主張しています。また、今後の展望として、ファインチューニングの適用を増やし、ビジネスでの活用を拡大していきたいと述べています。最後に、チャンネル登録や各種イベントへのご参加を呼びかけています。
Mindmap
Keywords
💡ファインチューニング
💡生成AI
💡GPT
💡プロンプト
💡分類タスク
💡コスト削減
💡モデル
💡AIの応用
💡データセット
💡ビジネスシーン
Highlights
ファインチューニングとは、既存の学習済みAIモデルを特定のタスクに合わせて追加学習させる技術
ビジネスでファインチューニングを活用することで、処理コストを大幅に削減できる
GPTモデルファインチューニングの成功例として、98%のコスト削減を実現
ファインチューニングの基本知識はビジネスマンに知っておくべき必須知識
独自のllmラージランゲージモデルを作る方法とファインチューニングの比較
ファインチューニングは少数のデータを与えることでAIモデルをカスタマイズ
ラグと呼ばれる検索拡張生成方法とファインチューニングの相違点
プロンプトの最適化を通じて一般的な方法でAIを活用することができる
ファインチューニングの3つの価値:結果の安定化、大量の例を含む学習、プロンプトの短縮による利便性の向上
実際のビジネス事例でファインチューニングがどのように役立つかの解説
ファインチューニングにより、通訳パターンの分類タスクでの精度向上とコスト削減
GPT3.5ターボとGPT4O、GPT4ターボのコスト比較とその意味
ファインチューニングのトレーニングコストは比較的低い
ファインチューニングが向いているケース:分類系タスク、見せる系のタスク、スタイルやフォーマットの設定
具体的なファインチューニングの実施方法と手順の紹介
学習データの準備とその重要性、多様なパターンを持つデータの活用
OpenAIの管理画面でのファインチューニングの実行と新モデルの利用方法
ファインチューニング後のモデルは特定のタスクで精度が向上し、トークン数も減らすことができる
7月17日に開催される生成AIサミットVol2の告知と参加のお誘い
リモートワーク研究所のチャンネル登録と各種サービスの案内
Transcripts
リモートアク研究所えとです今回は生成
活用の必須知識ビジネスマンは知っておき
たいファインチューニング入門と題しまし
ておそらく皆さん名前は聞いたことあると
思うんですけれどもGPTのモデルであっ
たりとか生成AIのモデルをより自分の
タスクにフィットした形にするファイン
チューニングという手法に関して具体的な
技術面というよりは実際ビジネスでどんな
風に活用できるのかどんなメリットがある
のかどんなケスは有効なのかということに
フォーカスをしてご紹介できればと思い
ます実は最近私ある案件でファイン
チューニングやったんですけどもなんと
処理コストがGPT4活用に比べて98%
削減というのを成功した事例もありまして
あるシーンではファインチューニング知ら
ないとめちゃくちゃ損する話にならないと
いうケースもビジネスシーンで出てきて
おりますので是非今回の動画でこの
ポイントをお伝えできればと思います内容
としましてはまずファインチューニングと
は何なのかそして2つ目ファイン
チューニングの具体的な活用と共にどう
やってコスト98%も削減したのかどんな
シーンで活用できるのかをご紹介しますえ
続けて3つ目はちょっと具体的な
テクニックになるのでま興味がある方だけ
ご覧いただければなと思うんですがオー
AI上でいかにファインチューニングを
実施するのか実際画面を見ながらご紹介し
たいと思いますえこのチャンネルではAI
リモート時代に必要なツールやノウハウ
最新情報をビジネス視点でお届けしてるの
でチャンネル登録をよろしくお願いします
間もなく10万人突破予定ですではまずは
ファインチューニングとは何なのか基礎
知識からご紹介していきますファイン
チューニングとは簡単に言うと既存の学習
済みのAIモデル例えばGPT3.5
ターボとかGPT4Oとかですねを特定の
タスクに合わせて追加学習させる技術で
あるというのがファインチューニングに
なりますモデルにデータを与えて学習さ
せることによってモデル自体を少し
カスタマイズするという方法になるんです
ねでこれと近い技術でいくつかありまして
これアクセンチュアさんの資料を拝借し
てるんですけども自分たちのデータを使っ
てうまくそれに合わせた形でやるために
どういう手法があるのか1つは1番ま
ハードルが高くて大変な方法である独自の
llmラージランゲージモデルを作ると
いう方法ですねこれはデータを大量にえ
与えた上で実際も自分たち独自のAIを0
から作ってしまうという発想でしてま
NTTさんとかですねそういう規模の会社
は今トライしてますけれどもまほとんどの
会社には関係ないというレイヤになります
でに来るのがファインチューニングでして
これは元々あるモデルに対して少数の
データを与えてそこに最低化した形でAI
のモデルを変えるということですねで3つ
目がラグと呼ばれるえ仕組みで日本語で
言うと検索拡張生成という風に言われます
がデータベースからデータを毎回検索して
それをプロンプトの中に入れて回答を作る
という方法で実はラグではAIのモデル
自体全く変えてなくてAIのモデルに回答
を作ってもらう前に別で検索してデータ
持ってくるという方法になるんですねで
大きくはこの2つがま実際にビジネス
シーンで考える時には選択肢に入る方法に
なりますで特定タスクに最適化しようと
思うと今の3つに加えてもう1個方法が
ありましてそれが1番ですねプロンプトを
作成して頑張るとつまり別にラグもせず
ファインチューニングもせず独自Lもやら
ずプロンプトを最適化してそのプロンプト
の文言の中にいろんな定義をしたり例を
入れたりして何とかするまこれが1番一般
的な方法でして簡単にできますし費用体
効果も高いと言われていますただ
プロンプトだと毎回当然データを変える
ことはできないので基本的に固定のある
処理しか使えないとでラグというのは
例えばQ&Aのように回答するべきテーマ
が大量にあって毎回使うべき回答データが
違うとこういう場合にはフロントを全部
作ることはできないのでユーザーの質問に
対して1回検索してデータスから必要な
情報を引っ張ってきて回答するまこれが
ラグなるわけですね立方ファインチュー
ニングっていうのはラグのように毎回
データを持ってくるのではなくてもう事前
にデータをセットを与えた上でAIに学習
させておいて新しいAI作っておいて実際
使う時にはこの新しいチューニングした
AIモデルを使うというのがファイン
チューニングになりますで1番難しい方法
で6LMがありますがこれが実際の
ビジネスで選択肢に上がることはほとんど
ないかなと思うので我々で一般的なその
ビジネスをやっていてビジネスシーンで
考えていくとまずプロンプトで頑張るが第
1候補で私もこれまではほとんどこれをし
ていましたで続いてラグ検索データと
組み合わせることによって結果を活用して
いくで次にファインチューニングという
ことになっていますでファイン
チューニングに関しては私も正直自分で
あるまでは言葉は知ってるしなんとなく
概念は分かるんだけれども結構難しくて
ハードルが高いなとそしてファイン
チューニングしてもそんなに成果出ないし
生徒も出ないでしょうとやっぱり
プロンプトを頑張るかもしデータが
たくさんある場合はラグの仕組みで合わし
てデータ持ってきて回答するまこの2つが
主であってファインチューニングってなん
か概念はあるけどそんなに有効じゃないん
じゃないかなと思っていたんですけども
そんなことはないというのが今日の次第
でして使えるシーンでめちゃくちゃ使えて
絶対使った方がいいなという風に最近は
確信を得ていますさて具体例に行く前に
ちょっと一般論でファインチューニング
することの3つの価値って何なのかという
話をしますこれOpenAIのファイン
チューニングの記事がありましてそっから
抜粋してちょっと要約をしてるわけなん
ですけども大きく3つあると1つは出力の
結果が安定するファインチューニングを
する際にはこういうインプットだったら
こういうアウトプットにしてねまこの学習
セットを作るんですねこのパート3で実際
学習セットを渡出したりとか実際学習する
様子をお見せできればなと思うんですが
それによってアウトプットの例をたくさん
出すのでそこに出したようなアウトプット
に非常になりやすいんですねで2つ目
プロンプトには含められない大量の例を
学習できるとこれプロンプトの中に例を
たくさん入れるっていう方法もあるんです
例えばまこれからご紹介するのは分類
タスクになるんですけど20パターンの
分類がある場合に20個の定義をした上で
このインプットであるデータがどれに該当
するかを考えてというのをプロンプトで
あると20個の例をプロンプトの中に
含める必要があるわけですねで20個程度
であれば今のプロンプトって頑張れば
10万文字くらい入るので全然余裕で入る
んですけどもっともっと大量なケースが
あって何百とかあるとさすがに定義を
つつけるのも大変またその例もただ定義
するだけではなくて01の場合にはこう
いう定義で過去のデータではAとBとCと
いうパターンの場合にはこれに該当しまし
たみたいなことを何百パターンもしようと
思うとプロンプトの中に入れるのは非常に
難しくなってくるケースがあるんですね
もちろん今プロンプトの量は増える方向に
あるので何百パターンで参考例入れても
プロンプトに入れることができないかと
いうとできるケースも出てきてるわけなん
ですけどさらに3つ目プロンプトを
たくさん作らなくてもいいとプロンプトの
短縮によるトークン節約や低遅延
リクエストができるということでGPT4
Oとかもしくは全然関係ないジェミニとか
で大量のデータをプロンプトに含めて分類
をすることはトクの制限的にはできるとし
てもこれをすることによって毎回指示の旅
に大量の定義表を送り付ける必要があって
トークンがめちゃくちゃ増えちゃうこれに
よってコストが上がっで処理も遅くなるん
ですねこういったことに対してファイン
チューニングで底の賄えておければ学習さ
せる大量のデータっていうのはもうAIの
モデルの中に組み込まれていてプロンプト
に入れる必要はないのでプロンプトを短く
できるその結果トークンも減りえスピード
も早くなるまこれが3つ目の価値でして
この2つ目3つ目が特に大きいかなと思っ
ていて今回実際の自衛でご紹介したいと
思いますではファインチューニングの活用
事例でこれ実際最近私が案件入らせて
いただいて一緒にコサれてで議論しながら
やっていた例になり
ますまずどんな事例かと言うと通訳
パターンの分類タスクがあるとまいろんな
文字列とか加情報があるとま文字列があっ
た上で追加情報でこれはタイプAですよと
かカテゴリーBですよみたいなものがある
上でこの情報を元にして何百パターンか
ある定義に基づいて分類をしていきたいと
いうような要望がありこれって生成AI
使ってできるんじゃないかなというご相談
があったのでまこれに対して結論としては
GPT3.5のファインチューニングを
することによって非常に大きな成果が出た
ということになるんですけどまず入り口
前提はどうだったかて言うと元々は当然
人間がやっていたわけですねでこのコスト
に関しては資産なんですけれども例えば
時給1000円で1分あたり1件できると
するとま大体18元とかぐらいこれが30
秒で1件できると10円ぐらいという感じ
になるんですけれどもま定義表見ながら
文字列を見てこれは何百種類のうちのこの
パターンだこのパターンだていう風にやっ
ていくのでまさすがに1分ぐらいかかるか
なと見るとま20円ぐらいは人間対応で
少なくともかかっているとでこれは単純に
時給でずっと働き続けてもらう前提になる
ので実際には採用コストであったりとか
育成コスト管理コストも入ってるわけです
しま人間なんで疲れてサボるみたいなこと
でペースが下がるとかですねまた人間の
頭数にこの処理量が比例するのである時に
はスポットで増やさなくちゃいけなくて
そういう部分の臨時コストかかるみたいな
感じでこの処理コストにかからない
いろんな管理コストであったりとか様々の
があるミニマムに見て少なくともこの
ぐらい処に勝っていたんですねで最初この
案件を聞いた時に私が頭の中でこれで
いけるかなと思ったのはプロンプトで何百
パターンか定義してこれを処理するという
パターンでいけるんじゃないかなという
ことだったんですねプロンプトに入れる
ことによって多少コストがかかるけれども
人間がやるよりは多分低コストで何百
パターンな何百何千も処理ができるので
スピード感やスケーラビリティは人間より
も高いとなので制度が出さすればコストが
劇的に改善しなかったとて結構有用性が
あるかなと思って最初はプロンプトの中に
分類パターンを含めていくということで
トライをしてましたその結果どうだったか
と言と1件あたりのコストは23000と
かまこのぐらいでいけるかなというのが
目安でしたまトク数とかですねそういうの
を計算した上でこのぐらいのコストかなと
いうところだったんですけれどもい残念
ながら精度が非常に低かったんですね一致
率が本当10%とかそのぐらいしかなくて
で理由として分類元データがあって分類表
の定義に基づいて分類をするんですけど実
は結構過去から培ってきた定義表では
分からないこの場合にはこの分類にする
みたいなこういう過去データがま10年
20年と蓄積されていてそっち側を見ない
と単なる文字面と定義だけでは判断でき
ないみたいなケースが結構たくさんあった
んですねなのでその瞬間だけ定義表に
基づいて見ていけばこれという風には
言えるとしても過去からの知見とか例を
踏まえるとそれはちょっと難しいよねと
いうことで元データーに対し定義法だけを
使った分類ってのは相当残念な感じでして
コストをさておき精度が低すぎてこれ全然
ダメだねとでプロンプトの中に過去の例を
たくさん入れ込むかということも考えたん
ですけれども実はこれ数百パターンの分類
タスクがさらに数十あるという結構
ちょっと複雑な事業体になってましてそれ
やってくるともうプロンプと作るのは大変
すぎて現実的には難しいなってことで
ちょっと一瞬止まったというか厳しいなっ
て空気になったんですねここでファイン
チューニング的なアプローチつまり
いろんなパターンをモデルに学習させた上
でこのパターンだったらこうというやつを
過去の事例が大量にあるということは学習
する過去データをまちゃんとデータを整備
してあげれば簡単に使えるんじゃないかと
作れるんじゃないかということがあったの
でファインチューニングでやってみようと
いうことを実際にやってみたんですねその
結果どうなったかファインチューニングで
の一見当たりコストは0.05となぜかと
言うとトクをめちゃくちゃ減らすことが
できましてプロンプトの場合は分類の定義
を毎回のプロンプトに入れて依頼する必要
があるんですけどファインチューンした
AIモデルに対しては定義はすでに過去の
データで学習データとして入れてるので
そっちを全部はってインプットデータ元
データだけ入れると過去のに合わして
アウトプットの分類が返ってくるという
ことができることにが分かったんですね
確認ができたとそして精度結構高いと
90%を超えて95%ぐらいこのトライの
段階では何百種類かのデータを読み込まし
て実際やってみた上で同じく何百件かのえ
データに含めていないテストデータで検証
したという感じになるんですけど十分
すぎる高さで元々90%を超えていれば
結構現実的に使えるねいう話ではあったの
で95%超でこれはいけるねという感じに
なりましたこのコストなんですけれどもで
98%コスト避という感じですねま2円
から0.05になってるのでこのプロンプ
とかファインチューンかで言うと98%
削減できたとま具体的なGPT4Oで
プロンプトで行くかGPT3.5ターボ
ファインチーンで行くかでこんだけの
コストが変わりしかも精度が圧倒的に違う
のでもう正直GPT4のプロトで話になん
なかというのが今回の事例ですねかつ人間
対応から考えるともっと劇的に99.何%
のコスト削減にこれ成功するという感じに
なっていて今ここまでは分かっていてこの
後実際の取り組みていうのはこれから動い
ていくわけなのでまこのファインチンの
仕組みを作る仕組みを作ったりとか初
コストはかかるわけなんですけれどもこれ
を踏まえても十分に事業として使えるよう
な実績がファインチーンを使うできると
いうことが分かった事例でこれ非常に
熱かったなという風に思っていますまそま
にこういう事例どんどん作っていきたいな
と1回やって思ってまして是非なんか
ファインチューニング的なものでこんな風
なことができるんじゃないかこれできそう
かなと思った際にはご相談いただければま
ちょっと議論した上でいけそうだなと思っ
たらご提案しますしちょっと僕が聞いた
感じ難しいかなと思ったらまできるかも
しんないけど分かりませんって回答するか
もしれないんですけど是非ご相談ください
さてコストなんですけれどもなぜこんなに
安くなるのかというところなんですがまず
これがですね各モデルごとのコストの比較
になりますGPT3.5ターボっていうの
は今インプットプロンプトて入れるものと
出てきたアウトプットいくらぐらいかと
言うと1000頭君あたりのエベースの
カウントになるんですけどインプットは
1000頭君ま大体1000文字あたり
0.0718000ぐらいアウトプットは
0.23gぐらいというのが1000文字
あたりのコストなんですねこれがGPT4
Oになると実は10倍ですで実はGPT4
ターボはOのさらに2倍になるのでGPT
3.5ターボとGPT4ターボは20倍差
があったんですねまこれが10倍まで
狭まったというところになるんですけれど
もでこれだけでも正直十分めちゃくちゃ
高くないというか安い金額かなと思うん
ですけれどもまとはいえ1000文字
あたりインプットで0.8Nぐらい
アウトプットで2.3ということで3.5
ターボ比較すると結構かかりますし1処理
で考えたらま0.08Nだろうが0.8
NHだろうがほとんど変わんないわけです
けどこれが何万何10万とか行くと当然
結構な差なるわけですね10倍の差が出て
くるとここでGPT3.5ターボの
ファインチューニングはいくらなんですか
と話なんですけどざっくりGPT4の半額
ぐらいって感じですねえフチ済みのGPT
3.5ターボをオーAのAPIで使おうと
思うとGPT3.5ターボに比べるとえ8
倍ぐらいかな金額がかかるんですね7倍か
な約うっすね67倍ぐらいの金額がかかっ
てくるとアウトプットは4倍ぐらいですか
ねっていう感じになっていましてかつこの
ファインチューニングを作るトレーニング
のコストがベット発生しますただ
トレーニングのコストは多分そんなに高く
なくこの前私が試したのはま300ぐらい
のデータセットを入れて学習をさせたわけ
なんですけど大体コストが本当数100円
ぐらいでしたね数10円から数100円
ぐらいというのがちょっとあのいくつかの
プロンプトでファインチューン試したんで
物によって違ったんですけどその程度なの
で本当ビビたるさっていうか本当ちょっと
試す人件費の方が圧倒的に高いぐらいで
トレーニングコストはよっぽど何千とか
学習しない限りは無視してもいいというか
そこまで大したことないあのコストなんで
そんなに考えなくてもいいケースが多いん
じゃないかなと思っていますさてまこう
いった非常にこそ優位性もあって実際使う
価値があるといういうファイン
チューニングなんですけどファイン
チューニングができるケース向いてるケー
スっていうのはどういうケースになるのか
ということでま今回は分類系のタスクは
もう絶対できるなという風に思ってるわけ
なんですけどこれもOpenAIの公式
ブログの内容を持ってきて一部私がまず合
したものになるんですけど話すよりも
見せる系のタスクに向いてるとどういう
意味かって言うとプロンプトの中で細かく
定義したりとか分類したりマニュアル作っ
て説明するよりも見せた上でこれはこう
これはこうこれはこうっていう風にやった
方がうまくいくようなタスクさっきの案件
の分類タスクは実はこういう感じだったん
ですね話すつまりしっかり定義を作るより
も過去の具体例をバンバン見してそっちで
学ばせる方が結果良かったとまつまり定義
が完璧ではなかったり元データーからは
足りないような情報も含めて判断しなく
ちゃいけないんで定義して説明するよりは
具体例を見して過去に学ばせる方が圧倒的
に成果れたという感じになりましてでかく
言うとこれが向いてるケースだという感じ
になります
もうちょっと具体的に書いてあったのは
スタイルとかトーンとかま要はその
コメントとかの内容の語尾とかですねそう
いうものを設定したい場合はファイン
チーン向いてるあとアウトプットを特定の
フォーマットにしたい場合まJSON形式
とか何か形式にしたい場合はファンチーン
向いてるあとは多くのエッジケースがある
場合エッジケースって言葉は難しいです
けど要はたくさんの細かい例ですねロング
テールの例というか今回の分類で言うと3
つとか4つであれば定義しっかり作り込ん
だらいいわけですけど何百もあると
いろんなケースがあるのでプロンプトの中
には入んないわけですよねこういうケース
がある場合はファインチンでそれを全部
学習させちゃってAIのモデルの頭の中に
もそこを置いてあげるでわざわざ
プロンプトで言わなくても学習されてる
こういうケースがいいとで4つ目
プロンプトでのルール化が難しい場合今回
で言うとま分類定義はあったんですけど
分類定義にはないような過去の投資する
ようなこともありましたしルールができ
ないことはないけどもうすんのがめど
くさいとまこういうケースの場合には
ファインチンが向いていて成果出るんじゃ
ないかなという話がありました実際もう
ちょっとビジネスのシーンで具体的に言う
と私が思ってるのはまず分類系ですねま
これは間違いなく結構成果であるケースが
多いかなとあとは変換系特定の文字列を
特定に変えるとか特定のえ内容を特定の形
に変換していくこういう変換として生成愛
使うっていうのはこれから増えると思うん
ですけどこの変換がえそんなにこうなんて
言うんですかねその難しくないというか
パターンは多いけどパターンは多くて
プロンプト定義は難しいけれども過去
データは一定あってたくさんやったら
分かるような系こういう変換に関しても
多分いけるんじゃないかなと思っていて
分類系か変換系かで今結構コスト勝ったり
とかプロンプトでうまくいかないこういう
方はご相談いただければ多分結構成果せる
んじゃないかなと思ってい
ますさてこっからちょっと具体的な話に
なるんですけどじゃこのファインチュー
ニングってどうやってやるんですかという
ことで流れが実際分かった方がイメージが
開くんじゃないかなと思うので実際にオ
AIの画面でデータ例を出しながらこんな
風にデータを揃えて実際操作してやって
いくのよということをご紹介したいと思い
ますさて手はは結構簡単でしてこの4つ
ですまずは学習データを準備するとでこの
学習データは最低10サプル必要という風
に書いてありましてもちろんまその実際
やりたいことに対してパターンが多い場合
はもっとあった方がいいわけですし要する
にこの必要十分な学習させるパターン学習
例があるのが重要という話ですねで2つ目
学習データをjon化するまちょっと
難しい言葉なんですけどOpenAが
読み込ませる形式に変換するとまこれでも
普通にあのスプレッドシートとか
Excelから変換することができるので
簡単ですで3つ目学習を実行するとこれ超
簡単でOpenAIの場合にはOpen
AIの管理画面に行ってこのJSON
アップロードして名前つけるだけですで4
つ目作られた新モデルを利用するでこの新
モデルの利用はOpenAの管理画面上
からプレイグラウンドと言ってもうその
画面上からすることもできますしあとは
プログラムを通じて大量に使いたい場合は
APIAPIアプリケーション
プログラミングインターフェイスを使って
プログラムから読み出すことも簡単にでき
ますまこの流れになりまして実際画面見
ながらまたデータを見ながら確認すると
分かりやすいかなと思うのでこれを見て
いきたいと思いますさてまず元データです
ねこれはまサンプルデータになるんです
けれどもこれはですねま例としてはデータ
の変換系でしてこういう文字列がある場合
にここから特徴的なキーワードだけを
抜き出して欲しいというようなタスクを
ファインチューンした上で学習させたいと
いうニーズがある場合にやっておりまして
システムユーザーアシスタントと書いて
あるんですけどこの2つがプロンプトの
インプットでシステムというのは前提設定
って感じですねでユーザーというのは実際
そのユーザーが送るコメントでアシスタン
トっていうのはAIが回答してくれる回答
データを挿していましてこの3業が基本的
なセットになりますえ実際にはこのマルチ
ターンでユーザーとAIが何回も回答する
ような感じを学習することもできるんです
けどまシンプルなものはこれなのでまこれ
が基本的なセットになってでExelまた
はこういったスプレッドシートで整理をし
ていくというのが元データの準備になり
ましてめちゃくちゃ簡単ですよねま皆さん
が分類とか変換とかでファインチューンし
たい場合はこの3列にデータを盛り込んで
やるだけです続いてこれをjonという
形式に変えていきますで今回ですねこの
実際このJSONファイルをま作成すると
いうですねちょっとGoogleア
スクリプトを作ってあるんですけれども
こちら皆さんでも使えるようにあの公開し
ておきますのでその公開したスプレッド
シートのやつを使っていただいてえこちら
の公開用ですねあのファイル自分でコピー
してもらって使っていただいたらまこの
拡張機能を使う作るだ使うだけでJSON
ファイルを作成することができるのでそれ
を使ってくださいで今のやつを押しますと
こんな感じでえこうですねこれ最新データ
ですけどデータアウトプットJSONLと
いうファイルが落とされますのでこれを
開いてもらうとこれがですねOpenAI
に読み込ませるためのデータになりますで
これがどういうデータかというとこんな
感じですねまJSONという形式になって
ましてさっき書いた3列のデータっていう
のがまAIが学習しやすいような形式で
こんな風になってるとまこんだけですねま
指導でこれを作ることもできるんですけど
もちろんすごい面倒くさいと思うので
さっきのツールをま作ったり使って
いただいてやるのが楽かなと思いますさて
戻りまして続けてOpenAIの管理画面
でこのデータアップロードしますさっきの
手順3ですねOpenOpenAIのAP
かなに行きましてサインアップと押しまし
てログイン画面に行きますでログインをし
ますまご自身のアカウントでログインをし
て
くださいでログインしましたらこういう
画面になりまし
てえダッシュボードと行くとま左側が
シンプルになるかなと思うのでここから左
のファインチューニングというメニューに
行っていただいてここでファイン
チューニングをすることができます私の
会社のアカウントのテスト用だとこんな
感じでいくつかパターンがあって学習済み
になってるわけなんですけど新規で作る
場合になクリエイトですねクリエイトをし
ましてここでえ作っていきますえ学習の
モデルをやっていきますで選べるのがいく
つかてまずベースモデル実はあのGPT4
もできますしあとは下で元々ファイン
チューンしたやつをさらにベースに選んで
やることもできるわけなんですけどまず
ベースになるのは多分このGPT3.5
ターボ0125がGPT3.5ターボで
1番新しいモデルでまGPT4はテスト版
なのとコストが多分すごい高くなっちゃう
と思うのでまGPT3.5やるケースが
多いんじゃないかなと思いますでファイル
を選びまして入れますでこれ名前を入れ
ますテストえ
変換みたいな感じで名前を入れますで
シートというのはこれはえ入れなくても
大丈夫です
あのシードを入れるとえ同じシードを指定
することでアウトプットの結果が固定さ
れるみたいな機能っぽいんですけどま基本
的には使わないケースこいんじゃないかな
と思いますまた下側学習をどうするかって
ことでどのぐらいのサイズで学習するかで
あったりとかどのぐらい学習量を反映さ
せるのか何回やるのかみたいなことも設定
できるんですけど基本的にはオートでいい
んじゃないかなと思いますちょっとこの
細かいのを作り込んでるわけではないので
この辺はあんまりちょっと事件ないですね
さてクリエイトをしますと今アップロード
したデータを使って学習がスタートします
ませっかくなので実際見ますとまずこれ
テスト変換と書いてあるこれが学習中に
なってまして今データをチックしますよと
いう感じになっていますでここからですね
データが進んでいくと今入れたインプット
アウトプットに対してこのインプットが
どのぐらいちゃんとアウトプットうまく
できるかってことをまその辺のこうなんて
言うんですかね制度みたいなことをグラフ
で図してくれながらこのチェックが進み
ます学習が進みます実際これせっかくなん
でちょっと見ながらやってあのどういう
過程になるかをご紹介したいと思います
大体多分このぐらいの量だったら今回の量
の場合はえ30行ぐらいの短いデータに
なるので多分5分ぐらいで終わると思うん
ですがちょっと動画では止めていきながら
適宜学習の過程を共有したいと思います今
ちなみに13時49分13秒に作りました
という感じですねあと今51分なんですが
こんな感じでで学習がスタートしました
これ縦軸がトレーニングロスというものに
なりましてこの縦軸が0に近いと要は
こっちが想定しているインプットを入れ
たら適切なアウトプットになるというのを
ま学習しながらこう調整してくれてるん
ですね初期の頃はインプット入れても全然
想定でないアウトプットが出ると例えば
今回の場合はこのえシステムとユーザーの
インプットを入れたらアシスタント2に
出して欲しいんだけれどもなかなかこの
想定通りは出ないという状況が初期は続い
ていましてこれがどんどん学習が進めば
進むほどどんどん0に近づいていきま損失
が少なくなるまつまり理想的な
アウトプットになりやすいという感じに
なるんですねで今回多分この学習でだと
90回ぐらいまで回しておしまになるかな
と思うんですけどまこんな感じでだんだん
進んでいき
ますで今1時53分でま34分経った状況
ですけどこんな感じで順調に学習進んでい
ますこんな感じですねで徐々にこの
トレーニングロスが0に近づいてましてま
つまり学習がうまく進んであるインプを
与えた場合に理想的なアウトプットに近い
という風にまこのAI的な認識してるって
感じですねまこんな感じで学習が住んでい
ますさて終わりましたねまほと5分ぐらい
ですねえ49分から始まって53分に終了
とで最終見るとちょっと一瞬トレーニング
のロスがあるケースもあるんですけど
こんな感じでま順調に学習進んだという
ログがありましてで今回作られたデータと
いうのはこの3つですねチェックポイン
トっていうのは途中過程のモデルが確認
できるようになってましてこれを実際
テストで使うこともできますさて今作った
モデルまこの
えテスト変換というものになるわけなん
ですけどもこれを使うのにはどうしたら
いいのかということなんですがえこれ
え押しましてこのモデルプレイグラウンド
と押すと実際この管理画面上で使うことが
できます左がえ学習してないGPT3.5
ターボ右が今学習した新しいモデル変換と
やったところのモデルですねちょっとこ
たくさん並んでくるんでょ分りづいんです
けどまテスト変換と書いてあるバージョン
えステップ6030って書いてあるのは
途中過程なんで違うという感じですねさて
じゃこれどうやってすかと言とさっきの
システムですねシステムにさっきのものを
入れましてで次この文字列を入れるとで
これ比較ができまして送ると2つのえ
モデルでそれぞれ実行されるわけなんです
けどこんな感じでえ左側というのは学習し
ていないAIになりましてまこっちも
頑張ってやってくれてますけどこっちが
想定するようないらない持続可能なとか
確信的といったこう収束値が入っちゃっ
てると一方で右側はそれを除いたデータで
学習しているのでそれが入らないま綺麗な
単語というか欲しい単語は抽出できてるま
これによって学習前と学習後のモデルが
全然違うということが分かりますさてこの
モデルですが今のようにプレイグラウンド
管理画面上からも使えますしプロからも
使うことができるので実際こう仕事でする
際にはあれで作って試してみた上でうまく
いったモデルがあったらささきのAIの
モデルを指定するとプログラムから
読み出すことができるので何百何千と大量
に回してもすぐに実行できるという感じに
なるわけですねということでこのような
感じで非常に簡単です実はやることとして
もあの実際にやり方を知っていて私は最初
ハードルあったんですけどやって試せる
試す状況でハードル下がるとめちゃくちゃ
現実的ですごくいい手法になるんじゃない
かなと思うので是非適時どんな風に活用
できるのかを検討いただけるといいかなと
思いますえということで簡単に告知をさせ
てくださいまず7月の17し生成AI
サミットVol2を行いますVOL2では
様々なインフルエンサーであったりとか
企業の方また海外のAI詳しい方にご登壇
いただいて最新のAI活用事例なんかお
話しするので是非応募よろしくお願いし
ます無料ですのでお楽しみにまた会社の方
では様々な制裁活用しをやっていますま
登壇であったり研修であったりしてるん
ですけれも実は今回のように結構がっつり
ファインチーンやってみたりとか最初の
POC的なトライをアドバイザリーで
入らしてもらってこちらも一定手を動かし
ながらま前回の場合もこういうデータの
モデルとかやることはこちらで提案させて
もらってじゃあその元データをこういう風
に1回修正というか用意してくださいとで
もらったらこっちでファインチーン試して
みて結果を検証してて渡すみたいなことも
実はこの枠組の中でやっていまして変に
こうなんかその開発とかでがっつりやる
よりは非常にローコストで実際ビジネスで
使えるかどうかっていうレイヤーから議論
してご一緒ができるかなと思うのでそう
いうニーズがある方は是非お相いただけれ
ば幸いですあの会社のホームページも
大丈夫ですしYouTubeの概要欄に
問い合わせのフォームも会社のURLも
ありますのでそちらからご覧いだけ幸い
ですまたLINEの公式アカウントでは
毎週のAIニュースやイベントのご案内し
ているので登録をよろしくお願いします
YouTube動画日々発信しておりまし
て様々なプレイリストも作ってまテーマ
ごとにまとめておりますので特に初めて
知りたい方とかっていうのはチャット
GPT活用最初に見て欲しい動画群とま
これだけでも10時間ぐらいあるんです
けどバーっと見てもらうと体型的に
ノウハウとかビジネスの活用方法が分かる
んじゃないかなと思いますえということで
本日の内容以上になりましてありがとう
ございましたえファインチューニングと
いうちょっとマニアックなテーマになるん
ですけれどもそ私自身も自分で試す前まで
は言葉は知ってるんだけどそんなうまく
いかないんじゃないのて正直思ったんです
よねところがやってみてめちゃくちゃせか
だとこれやばいなとファインチューニング
が適用できる箇所でやらない手はないなと
トークン数も減らせるし精度も出るしいい
ことづくしとことでま特に分類とか変換に
関しては多分使わないではないかなとで
実際ビジネスの現場で言うとまある業務
フローがあった場合に特定の分類とか変換
とか都修正みたいなところだけファイン
チン済みのAIを使っていきもうちょっと
こう複雑なやつに関してはGPT4Oとか
のモデルで処理していきまたルールベース
でできるものはルールベースでしていく
もしくは人間がするとまこれをうまく
組み合わせながら特に数が大きい大変な
ところに関して今回のファイン
チューニングのやり方を適用できると
かなり大きな成果出るところがたくさん
あるんじゃないかなと思うので是非まこう
いう案件増やしていければなと思いますし
まご相談も関係ですましっかり情報提供し
てやる方が増えていくのがいいんじゃない
かなと思ってるので今回の動画参考になれ
ば幸いですいいねコメントもよろしくお
願いしますそれではまたお会いし
ましょうリモートワーク研究所では
リモート時代に活躍して稼ぐためのツール
の使い方やノウハウをどんどんご紹介して
いきます是非チャンネル登録していただい
て私と一緒に学んでいき
ましょうJA
Weitere ähnliche Videos ansehen
【総集編】GPT-4oの教科書【使い方、活用方法を解説!】
大学・研究機関で 生成 AI の活用にお悩みの全ての方々へ、業務の負荷軽減・効率化に向けたご提案
50 Day 2024 - Stephan Hadinger (AWS) & Julien Simon (Hugging Face)
Can ChatGPT work with your enterprise data?
メタプロンプトを知るものがプロンプトを制す~ChatGPTの活用力を一段上に上げるために絶対に知っておきたいテクニック
生成AIアプリが作れる「Dify」の入門&ビジネス活用~ビジネスパーソン必見!GPTsを超える業務特化アプリが簡単につくれて配布もできちゃう…!
5.0 / 5 (0 votes)