Phi-3 Medium - Microsoft's Open-Source Model is Ready For Action!

Matthew Berman

28 May 202409:53

Summary

TLDRマイクロソフトが新たに公開した53 mediumモデルは、17億パラメータを持ちながら非常に高速でパフォーマンスが優れているオープンソースのAIモデルです。4Kと128Kの2つのバージョンがあり、他のモデルと比較してMistil 8、LLaMA 370B、GPT 3.5 Turbo、Clad 3 Sonet、Gemini 1.0 Proよりも優れていると評価されています。ビデオでは、オープンウェブUIとOlamaを使用してモデルをローカルで実行し、Pythonスクリプト生成、ゲーム開発、数式解決、言葉の問題、日常的な問題解決など多様なテストを行い、その応答速度と正確性を評価しています。しかし、ゲーム開発では遅い応答速度といくつかの問題が見られます。また、数え上げ問題や数学の問題、謎の問題にも答えていますが、言語モデルが苦手とされる特定の問題では失敗も見られます。53 mediumはコーディング能力が低いと指摘されており、今後の改良が期待されていますが、全体的に良好なパフォーマンスを示していると結論付けています。

Takeaways

🚀 Microsoftは53 mediumという17億パラメーターのモデルをリリースし、非常に高性能でオープンソースです。
🔍 53 mediumは2つのバージョン、4K instructと128k instructがあります。他のモデルと比較して高いパフォーマンスを発揮しています。
💻 テストにはopen web UIとolamaを使用し、ローカルで実行されています。
🔧 モデルの初期ロードには時間がかかりますが、その後の実行は高速になります。
🐍 Pythonでスネークゲームを作成するテストでは、モデルはコード生成に苦労しましたが、最終的には失敗と判断されています。
🚫 センサーシップ機能があるため、車への不法侵入に関する情報は提供されませんでした。
🧺 5枚のシャツを干すのに4時間かかる場合、20枚のシャツも同じ時間で干せるというトリック質問に対する正しい回答がありました。
📐 シンプルな数学問題やホテル料金の問題に対する回答は正確で、モデルはそれらを上手く解決できました。
🕵️‍♂️ 部屋に3人の殺人者がいて、誰かが部屋に入って1人を殺害した場合、部屋には3人または4人の殺人者がいると正しく推測しました。
🎱 ガラスの中の大理石に関する問題では、モデルは正しいロジックに基づいて答えを提供しました。
🏀 JNとMarkがボールを預かる問題では、モデルは状況を正しく理解し、それぞれの人物が持つ考えを正確に表現しました。
🍎 「Apple」で終わる10の文を作成するという難題に対しては、モデルはあまりにも低いパフォーマンスでした。
⏳ 50人が10フィートの穴を掘るのにかかる時間に関する問題では、モデルは理論的な答えを提供しましたが、実際の制約は考慮していませんでした。
👀 53 mediumは視覚能力を持っていませんが、Microsoftは新たに53 Visionをリリースし、そのテストも行う予定です。

Q & A

Microsoftがリリースした53 mediumモデルの特徴は何ですか？
-53 mediumモデルは、約170億パラメータを持つ非常に高速でオープンソースのモデルです。4K instructと128k instructの2つのバージョンがあります。
53 mediumモデルは他のどのモデルと比較されることがありますか？
-53 mediumモデルは、Mistral 8*22, Llama 370B, GPG 3.5 Turbo, CLAD 3 Sonet, Gemini 1.0 Proなどのモデルと比較されます。
オープンウェブUIとは何ですか？どのように使用しますか？
-オープンウェブUIは、モデルをテストするために使用されるツールです。ビデオでは、オープンウェブUIを使用して53 mediumモデルを実行しています。
Olamaとは何で、どのように53 mediumモデルをダウンロードするのですか？
-Olamaは、モデルを実行するためのソフトウェアです。新しい53 mediumモデルをダウンロードするには、Olamaを使用して「olama pull 53:medium」と入力します。
MacBook Pro M2 Maxでの推論速度はどのくらいですか？
-MacBook Pro M2 Maxを使用して53 mediumモデルを実行した場合、最初の推論はモデルの読み込みに時間がかかるため遅いですが、その後の実行は高速です。
Pythonスクリプトを書く際のエラーはどのように対処しましたか？
-スクリプトを書く際に発生したエラーに対して、手動で修正を行い、モデルが自動的に修正できない場合は再試行して問題を解決しました。
53 mediumモデルはセンサーシップをどのように扱うのですか？
-53 mediumモデルはセンサーシップを持ちますが、オープンソースモデルであるため、センサーシップを除去するファインチューニングバージョンを作成することができます。
53 mediumモデルは数学問題を解くことができますか？
-はい、53 mediumモデルは数学問題を解くことができます。例えば、25 - 4 * 2 + 3という問題に対して正しい答えを提供しています。
53 mediumモデルは言葉の問題を解くことができますか？
-はい、53 mediumモデルは言葉の問題にも対応しており、マリアがのホテル滞在に関する料金の問題に対して正しい答えを提供しています。
53 mediumモデルはロジックパズルにどのように対応していますか？
-53 mediumモデルはロジックパズルにも対応しており、例如く、3人の殺人者がいる部屋のパズルに対して正しいロジックを用いて答えています。
53 mediumモデルはプログラミングタスクに対してどの程度のパフォーマンスを発揮しますか？
-53 mediumモデルはプログラミングタスクに対してはあまり高速ではありません。ビデオスクリプトでは、Snakeゲームのコード生成に時間がかかる様子が示されています。
53 mediumモデルは将来的にどのようなアップデートが予定されているか？
-53 mediumモデルのVisionバージョンがリリースされており、そのVision能力についても今後のビデオでテストされる予定です。