Manually Curated Datasets | LangSmith Evaluations - Part 3
Summary
TLDRこの動画スクリプトは、lsmith評価システムの第3回目の動画で、EVエルの重要性と興味深い点、およびLang Smith Primitivesの基礎について説明しています。作成者は、lsmith.comでアカウントを作成し、APIキーを設定しています。また、データセットの作成方法を説明し、pandasデータフレームを使用して質問と回答のペアを整理しています。lsmith SDKを使用してデータセットを作成し、編集、バージョン管理を行ったり、UIからCSVファイルを使用してデータセットを生成したりする方法も紹介しています。
Takeaways
- 🌟 動画は、lsmith評価システムについての第三部の紹介です。
- 📌 第1回の動画では、EVエルの重要性と興味深い点について説明しました。
- 📌 第2回の動画では、扱っているLang Smith Primitivesについて説明しました。
- 👨💻 今回は実際にコードを触れ、lsmith評価システムを使ってみることに焦点を当てています。
- 🔧 smith.comにアクセスして、まだ登録していない方は登録する機会があります。
- 🛠️ 既に登録している方は、自分のワークスペースを表示し、後で説明される予定です。
- 📦 pipを使ってlsmithとopen AIO Lamaをインストールし、Lang chainは使用しません。
- 🔑 APIキーを設定し、トレースを有効にする環境変数を設定しました。
- 💼 新しいプロジェクト「test」を設定し、その中で作業することになります。
- 📝 データセットの作成方法について説明し、例として、ブログ記事に基づく質問-回答ペアのデータセットを作成しました。
- 🔄 データセットの編集、バージョン管理、UIからのデータセット作成など、lsmith SDKを使ったデータセットの管理方法を紹介しました。
- 🚀 手動でキュレートされたデータセットの作成から、次回の動画でさらに進展的な話題に移ることで、開発者にとって基盤となる機能を紹介しています。
Q & A
EV Elsは何であり、なぜ重要ですか?
-EV Elsは評価のための要素と言えますが、スクリプトからは具体的な説明がありません。重要なのは、EV Elsがデータセット、評価者、タスクなどの要素を包括していることから、効果的なデータ管理と評価システムの構築に役立つと推測されます。
Lang Smith Primitivesとは何ですか?
-Lang Smith Primitivesは、スクリプトの文脈では明確な定義がありませんが、おそらくデータセットの作成や評価システムの構築に使用される基本的な要素や機能のことを指していると思われます。
smith.comにアクセスして何ができるのですか?
-smith.comにアクセスすることで、アカウントの登録、既存のアカウントへのログイン、プロジェクトの作成や管理、データセットのアップロードや編集などが可能です。
pip installを使用して何をインストールしましたか?
-pip installを使用して、lsmith open AIO Lama no Lang chainというパッケージをインストールしました。これは、Lang Smithフレームワークと関連ライブラリをインストールするコマンドであると考えられます。
新しいプロジェクトを作成する方法はどのようになっていますか?
-新しいプロジェクトを作成するには、smith.comにログインし、プロジェクトの作成オプションを選択して名前と説明を入力します。その後、プロジェクト内で作業するためのデータセットを作成・管理・評価を行います。
データセットを作成する際に必要な手順は何ですか?
-データセットを作成するためには、まずManually Curated Data Setを作成し、必要な質問と回答を指定します。次に、lsmithのクライアントを使用してデータセットを作成し、必要な入力と出力を設定します。
データセットの編集やバージョン管理はどのように行われますか?
-データセットの編集は、 smith.comのUIから直接行えます。また、データセットにはバージョン管理があり、編集履歴や変更を追跡することができます。
データセットの作成時に考慮すべき点は何ですか?
-データセットの作成時に考慮すべき点は、データセットの目的と使用方法、入力と出力を正確に定義すること、データの質と正確性を確保することです。また、データセットのバージョン管理や編集履歴を追跡するためのシステムを整えることも重要です。
lsmithのAPIキーを設定する目的は何ですか?
-lsmithのAPIキーを設定することは、smith.comのサービスをプログラムで自動化し、データセットの作成や管理を自動的に行えるようにするためのものです。
lsmithのUIからデータセットをどのように操作できますか?
-lsmithのUIから、データセットの作成、編集、バージョンの確認、評価結果の表示などを行うことができます。また、データセットの具体的な質問と回答を確認したり、更新したりすることも可能です。
CSVファイルを使用してデータセットを作成する方法はどのようになっていますか?
-CSVファイルを使用してデータセットを作成するには、入力と出力を表す列を持つCSVファイルを用意します。その後、lsmithのクライアントを使用して、CSVファイルを読み込んでデータセットを作成します。
Outlines
🎥 動画スクリプトの紹介とEVエムの重要性
この段落では、Lanceが第三の動画を紹介しています。この動画はEVエムの評価について重点を置いています。最初の動画ではEVエムが重要である理由と興味深い点について説明しました。第二の動画では、扱っているコアLang Smith Primitivesを紹介しました。今回は実際にコードを詳しく説明する予定です。また、smith.comにアクセスして、まだ登録していない方は登録を勧められています。Lanceはすでに登録を完了しており、自分のワークスペースについても説明します。また、pip installを使用してlsmith open AIO Lama no Lang chainをインストールしていますが、実際に使用するのはlsmithのみで、Lang chainは一切使用されません。APIキーを設定し、トレースの有効化を行います。新しいプロジェクト「test」を設定することになります。
Mindmap
Keywords
💡EV Els
💡lsmith evaluations
💡Lang Smith Primitives
💡pip installs
💡API key
💡workspace
💡data sets
💡question answer pairs
💡versioning
💡evaluators
💡trace
Highlights
Introduction to the third video focusing on lsmith evaluations.
Explanation of why EV Els matter and their significance.
Overview of the core Lang Smith Primitives.
Jumping into code and setting up the workspace.
Instructions on signing up at smith.com and API key setup.
Demonstration of working directly with Lang chain.
Creation of a new project called 'test'.
Building a custom dataset of question-answer pairs.
Utilization of a pandas dataframe for dataset management.
Using the lsmith client to create and manage datasets.
Explanation of dataset versioning and editing capabilities.
Showcasing the dataset in lsmith and its evaluation status.
Process of updating a dataset with new questions.
Demonstration of dataset version rewind feature.
Creating a new dataset from a CSV file using the UI.
Foundational methods for building manually curated datasets.
Teaser for future discussions on expanding upon these methods.
Transcripts
hey this is Lance lanching this is our
third video focus on lsmith evaluations
um so the first video kind of laid out
why EV Els matter and why they're
interesting the second video laid out to
the core Lang Smith Primitives that we
working with so now let's actually jump
into some code um so again this is just
the overview of the kind of the eal
landscape that we've talked about
previously there's data sets there's
evaluators there's tasks care about and
there's you know how do you apply your
evals so all I've done is if you go to
smith.com this will be an opportunity to
sign up if you haven't already done done
so already I've already signed up of
course so now this is showing my my
workspace which we're going to talk
about
later um I've done some pip installs pip
installed lsmith open AIO Lama no Lang
chain install here we're just going to
work with langth directly we're not
going to involve Lang chain at all um so
here I'm setting the API key that I got
when I signed up and I'm also setting
this environment variable to enable
tracing and I'm going to find a new
project
called test so this light chain project
basically sets up a new project that I'm
going to work in and you'll see kind of
how that's interesting very shortly so
here's like a first question you might
ask how do I build my own data set right
it's a very simple reasonable question
to ask now let's say we want to build a
data set of question answer pairs for
this new blog post on the data breaks
model
dbrx really cool release State theart
open source llm a lot of nice detail on
this blog post let's say I want to build
a question answer data set based on this
blog to test the system I have for
answering questions in general right
this is a very popular use
case so we're doing here is I'm kind of
graying out everything we're not
focusing on we're only focusing on
manually curated data set that's it so
what I'm going to do I've already kind
of gone through the post and I've
curated a few questions and a few
answers to those questions and this is
just a good old pandas data frame that's
it now what I'm doing here is from
likith I'm important the client and I'm
going to find a new data set dbrx so
this is the data set I want to work with
and what I'm I'm just calling this
create data set giving it a name giving
me a description I'm passing in the
inputs and the outputs that I specified
up here that's it so I'm running this
and that runs now here's where I can hop
over to lsmith and let me move
this if I go over to so you can kind of
see a few different categories here
project annotation ceue deployments
we'll talk about all that later don't
worry about that for now go to Data
System
testing and you can see a whole set if I
have a ton of data set that doing a lot
of work but let's try dbrx that's the
data set we just created I think so here
it is so okay we can see created
modified now let's just click on one of
these we can actually just see here's
the that input question here's the
answer and you know so that's kind of
nice we can look at our data set here
this test thing tells us have we done
any evaluations on it we've not just a
set of examples that's really it so it's
pretty nice now let's say I want to
update this so I want to add a question
again just call create examples data set
name or ID there it is I go back it
shows up
easy now I also want to say okay what
are the different data and versions I
can rewind okay that's what it was
originally that's what this is what it
is currently after my
update let's say I want to edit it I can
actually go to an example I can edit it
here there we go easy enough cancel out
that's really it
so we can go back here what you can see
is we defined a set of question answer
Pairs and we' Ed L spith SDK to just
create a data set from them directly we
shown that edit the data set and we've
shown that it has versioning that's kind
of it now if we were to go back and if I
click on create new data set I saved
that that eval CSV let's say I want to
create a new one I test data
set I'll call this a key value data set
we talked about that previously the
inputs and outputs are just key value
pairs question answer you can see it's
kind of all automatically populates boom
and there it is I have it from a CSV as
well that's really it it's super simple
um I've defined my inputs and my
outputs I've used a client to create a
data set I've edited it I've shown how
to look at the versions I've shown how
to create a data set from a CSP using
the UI that's really it again that's the
foundational piece of building developer
curated or manually curated data sets
and we're going to be talking about kind
of how to build on this
next
تصفح المزيد من مقاطع الفيديو ذات الصلة
5.0 / 5 (0 votes)