ローカル AI を利用した Windows アプリケーションの開発

日本マイクロソフト株式会社公式チャンネル

11 Jul 202444:46

Summary

TLDRこのビデオスクリプトでは、日本マイクロソフトのパートナーソリューションアーキテクトが、ローカル環境のWindows上でAIモデルを活用し、アプリケーションに実装可能な機能を紹介しています。AIの進化により、言語生成モデルやマルチモーダル化された技術が日常的に利用できるようになり、コンピューティングパワーが必要なAIモデルのローカル動作が可能になりました。スライドとデモを交え、テキスト認識、音声認識、翻訳、要約などの機能を実演し、AIがユーザーエクスペリエンスや業務効率化に与える影響を示しました。

Takeaways

🌐 このセッションでは、Windows上のローカル環境でAIモデルを使用してアプリケーションに実装できる機能について紹介しています。
🚀 AIの進化は目まぐるしく、かつては想像もできなかった機能が日常的に使えるようになっています。
🔍 言語生成モデルやマルチモーダル化されたAIは、画像や音声認識など、さまざまな機能を備えています。
💻 AIモデルを動作させるには大きなコンピューティングパワーが必要なため、一般的にはクラウド上で動作させています。
🌱 しかし最近、SLM（Small Language Model）と呼ばれるコンパクトでローカルで動作できる言語モデルが登場しています。
🛠️ Windowsローカルで動作するAIは珍しくなく、多くのパートナーやMicrosoft製品で活用されています。
📈 AIの利用用途は多岐にわたり、チャットボットやユーザーエクスペリエンスの向上、データ入力の自動化などがあります。
📱 特定のアプリケーション例として、Be My Eyesは視力に問題がある人を支援するアクセシビリティアプリケーションです。
🎨 Davinci Resolve StudioのMagic Maskやdjay proなどのアプリケーションでは、AIを活用してパフォーマンスや機能を向上させています。
🔧 Windows Copilot Libraryを介して、モデルを追加することなくAI機能をアプリケーションに統合できるようになりました。
🔄 言語モデルは、テキストの要約やオートコンプリート、RAG（Retrieval Argumented Generation）など、高度な機能を提供しています。

Q & A

物江さんはどのような職業をしていますか？
-物江さんは日本マイクロソフトでパートナーソリューションアーキテクトをしています。
セッションの目的は何ですか？
-セッションの目的は、ローカル環境のWindows上でAIのモデルを使用してアプリケーションに実装できる機能を紹介することです。
AIの進化が日常的にツールとして使える状態に達したと言及しましたが、その具体的な例は何ですか？
-言語生成モデルやマルチモーダル化されたAIモデルが挙げられます。これらは画像や音声認識を可能にし、一般的な使用に耐えるようになりました。
AIモデルを動作させるために必要なものは何ですか？
-AIモデルを動作させるには、大きなコンピューティングパワーが必要です。
SLMとは何を指し、どのような特徴がありますか？
-SLMとはSmall Language Modelの略で、サイズが小さくても動作させるのに十分な性能を持ち、強力なマシンパワーを必要としない言語モデルを指します。
Windowsローカルで動作するAIの利用用途には何がありますか？
-チャットボットを使用したアシスタントやデータ入力などの日常的なタスクの自動化が挙げられます。
Be My Eyesアプリケーションはどのような機能を提供していますか？
-Be My Eyesアプリケーションはアクセシビリティを提供し、LLMAを使用して視覚に障害のある人々がグラフや写真、スクリーンショットなどを実際に見るのを助けています。
ローカルでAIモデルを実行する利点は何ですか？
-ローカルでAIモデルを実行する利点として、遅延が少なくリアルタイムで応答が得られることや、ネットワークに接続する必要がないためプライバシーが守られることが挙げられます。
Windows Copilot Libraryとは何ですか？
-Windows Copilot Libraryは、アプリケーションにAIの機能を追加するためにモデルを入手する必要がないAPIのセットです。製品と一部として出荷されるAIモデルをアプリケーションの実行中にAPIを呼び出して使用できます。
デモで使用されたメモアプリは何で作られていますか？
-デモで使用されたメモアプリは.NET 8のC#とWinUI 3で作られており、Phi-3 Whisper Embeddingsを使用してローカルで動作するように作られています。
テキスト認識のAPIがリリースされていない状況ですが、デモでどのように対応していますか？
-テキスト認識のAPIがリリースされていないため、デモではコメントアウトされているコードを参考に、開発者が作ったデモ動画を利用して実行の様子を示しました。
機械学習のモデルとはどのようなものですか？
-機械学習のモデルはデータから学習する数学的なプログラムであり、履歴データに基づいて何かが起こりそうな時期を予測したり、オブジェクトやビデオ、オーディオ認識、書き起こしなどを行うことができます。
RAGはどのような仕組みを持っていますか？
-RAGはRetrieval Argumented Generationの略で、AIに問い合わせをした際に、モデルが持っている汎用的なデータではなく、あらかじめ用意しておいた独自のデータの内容を検索して回答させる方法です。
ファインチューニングとは何を意味していますか？
-ファインチューニングは、SLMやLLMなどの言語モデルを特定のタスクに合わせてさらに学習させ、モデルに学習させられたデータを追加することで、そのタスクに対してモデルの性能を向上させるプロセスを指します。
AIの利用にはどのような責任があるとマイクロソフトは考えていますか？
-マイクロソフトではAIの利用には大きな責任があると考えており、モデルを構築または変更する際には徹底的なレビューを行い、利用者に害を及ばないように複数の原則に従順であることが求められています。
Windows上のAIサンプルギャラリーとは何ですか？
-Windows上のAIサンプルギャラリーは、GitHub上のサンプルアプリケーションのリンクが集められた場所で、オーディオエディターやメモアプリなど、多種多様な有益なサンプルコードが公開されています。