Online Evaluation (Guardrails) | LangSmith Evaluations - Part 21

LangChain

22 May 202404:51

Summary

TLDRランス・ランチェーンは、オンライン評価に関するシリーズを続けています。このビデオでは、一般的な評価方法のフレームワークを紹介し、特にプロダクショントラフィックに対するオンライン評価に焦点を当てています。例えば、ユーザーからの入力が個人情報や有害なクエリを含むかどうかを検出する「毒性」を評価することが重要です。彼は「rag」というプロジェクトを通じて、ユーザーからの質問を模擬し、オンライン評価ツールを使って入力が個人情報を含むかどうかを検証します。新しいルールを作成し、モデルgp4 turboを使用して、侮辱、脅迫、否定的なコメント、個人情報を含むかどうかをスコア付けします。オンライン評価ツールを使って、実際のアプリケーションに対して簡単にカスタムガードレールを設定し、入力が特定の情報を含むかどうかを検出することができます。

Takeaways

📈 オンライン評価は、プロダクショントラフィックに対してリアルタイムで行われることに注意深く注目します。
🔍 データセットの種類（手動キュレーションされたデータセットやユーザーログなど）に基づいて、評価の方法を区別することが重要です。
🛡️ アプリケーションで検出する必要があるのは、毒性や個人識別情報などの特定の要素です。
📝 オンライン評価を使用して、アプリケーションの入力に含まれる毒性や個人情報を評価できます。
💻 「rag」というプロジェクトを使用して、ユーザーの質問をシミュレートし、ログに記録しています。
🆕 ルールを作成して、入力された質問に毒性情報や個人識別情報が含まれているかどうかを評価する新しいオンラインエバリュエーターを追加できます。
📝 オンライン評価のプロンプトテンプレートを使用して、入力テキストにタグやスコアを付けることができます。
📈 gp4 turboなどのモデルを使用して、侮辱、脅威、否定的なコメント、個人識別情報に基づいてテキストをタグ付けします。
📊 プレビュー機能を使用して、特定のチェーンに適用されるテキストのタグ付けをテストできます。
🚧 新しいオンラインエバリュエーター「input guardrails」を作成し、アプリケーションの入力に対して実行できます。
🔑 入力にOpen AI APIキーなどの個人識別情報が含まれているかどうかを検証するために、オンラインエバリュエーターを使用できます。
✅ オンラインエバリュエーターは、アプリケーションの入力に対してカスタマイズ可能なガードレールを設定し、簡単で柔軟なスコアリングを提供します。

Q & A

ランス・ランチェーンが紹介したオンライン評価とはどのようなものですか？
-オンライン評価とは、アプリケーションが稼働している際にリアルタイムで評価を行うプロセスのことです。例えば、アプリに入力されたテキストが有害なものかどうかを検出するなど、様々な評価基準に基づいて行われます。
ランスが紹介したフレームワークにおいて、データセットとはどのようなものがありますか？
-フレームワークでは、手動でキュレーションされたデータセットやユーザーログなど、様々な種類のデータセットが挙げられます。これらは評価に使用されるデータ源として機能します。
オンライン評価と手動での評価の違いは何ですか？
-オンライン評価は、アプリケーションが稼働している間にリアルタイムで評価を行うのに対し、手動での評価はキュレーションされたデータセットやアサーションに対して行われます。オンライン評価はリアルタイムでの迅速なフィードバックが可能である点が特徴です。
有害性（toxicity）とはどのような評価基準を指しますか？
-有害性とは、ユーザーが入力したテキストに個人を特定できる情報や有害なクエリが含まれているかどうかを評価する基準です。これはアプリケーション内で検出することが望ましい問題です。
ランスが作成した「rag」アプリとは何ですか？
-「rag」アプリは、ユーザーからの質問をシミュレートするアプリケーションです。このアプリは、入力された質問をログに記録し、それに基づいて評価を行っています。
新しいルールを作成する際に使用する「オンライン評価」とは何ですか？
-オンライン評価は、アプリケーションが稼働している間に入力されたテキストを評価するためのプロセスです。新しいルールを作成することで、例えば有害情報を含むかどうかを検出する機能をアプリに追加することができます。
「gp4 turbo」モデルを使用する際の利点は何ですか？
-「gp4 turbo」モデルは、入力テキストに対して特定の基準に基づいてスコアを割り当てる分類器を備えています。これにより、侮辱、脅迫、否定的なコメント、個人を特定できる情報などに基づく評価が可能になります。
「入力ガードレール」とはどのような評価器ですか？
-「入力ガードレール」は、アプリの入力に対して実行される新しいオンライン評価器です。この評価器は、入力されたテキストに個人を特定できる情報やAPIキーなどの有害情報が含まれているかどうかを検出します。
評価結果として「1」または「0」が返される理由は何ですか？
-評価結果として「1」が返される場合、入力されたテキストに個人を特定できる情報が含まれていることを示します。一方、「0」は含まれていないことを意味します。これにより、有害な情報の有無を簡単に判断できます。
オンライン評価器の「入力ガードレール」が機能する仕組みを教えてください。
-「入力ガードレール」は、アプリに入力されたテキストを監視し、個人を特定できる情報や有害なクエリが含まれているかどうかを評価します。評価結果はスコア「1」または「0」と共に説明文を返すことで、有害な情報の有無をリアルタイムで検出できます。
オンライン評価を実装する際に必要な主なステップは何ですか？
-オンライン評価を実装する際には、まずルールを作成し、オンライン評価を作成する必要があります。次に、モデルを選択し、評価に使用するプロンプトを設定します。その後、プレビューを使用して評価結果を確認し、評価器に名前を付けて保存します。
オンライン評価器をテストするために使用される「プレビュー」機能とは何ですか？
-「プレビュー」機能を使用すると、オンライン評価器が特定のテキストに対してどのような結果を返すかを事前に確認できます。これにより、評価器が期待通りに機能するかをテストし、必要に応じて調整することができます。
オンライン評価器がリアルタイムで動作する利点は何ですか？
-オンライン評価器がリアルタイムで動作する利点は、アプリが稼働している間も含め、常に入力されたテキストを監視し、有害情報を含むかどうかを迅速に検出できる点です。これにより、問題が発覚した際すぐに対処することができ、アプリのセキュリティと信頼性を高めることができます。