Manually Curated Datasets | LangSmith Evaluations - Part 3

LangChain
8 Apr 202404:53

Summary

TLDRこの動画スクリプトは、lsmith評価システムの第3回目の動画で、EVエルの重要性と興味深い点、およびLang Smith Primitivesの基礎について説明しています。作成者は、lsmith.comでアカウントを作成し、APIキーを設定しています。また、データセットの作成方法を説明し、pandasデータフレームを使用して質問と回答のペアを整理しています。lsmith SDKを使用してデータセットを作成し、編集、バージョン管理を行ったり、UIからCSVファイルを使用してデータセットを生成したりする方法も紹介しています。

Takeaways

  • 🌟 動画は、lsmith評価システムについての第三部の紹介です。
  • 📌 第1回の動画では、EVエルの重要性と興味深い点について説明しました。
  • 📌 第2回の動画では、扱っているLang Smith Primitivesについて説明しました。
  • 👨‍💻 今回は実際にコードを触れ、lsmith評価システムを使ってみることに焦点を当てています。
  • 🔧 smith.comにアクセスして、まだ登録していない方は登録する機会があります。
  • 🛠️ 既に登録している方は、自分のワークスペースを表示し、後で説明される予定です。
  • 📦 pipを使ってlsmithとopen AIO Lamaをインストールし、Lang chainは使用しません。
  • 🔑 APIキーを設定し、トレースを有効にする環境変数を設定しました。
  • 💼 新しいプロジェクト「test」を設定し、その中で作業することになります。
  • 📝 データセットの作成方法について説明し、例として、ブログ記事に基づく質問-回答ペアのデータセットを作成しました。
  • 🔄 データセットの編集、バージョン管理、UIからのデータセット作成など、lsmith SDKを使ったデータセットの管理方法を紹介しました。
  • 🚀 手動でキュレートされたデータセットの作成から、次回の動画でさらに進展的な話題に移ることで、開発者にとって基盤となる機能を紹介しています。

Q & A

  • EV Elsは何であり、なぜ重要ですか?

    -EV Elsは評価のための要素と言えますが、スクリプトからは具体的な説明がありません。重要なのは、EV Elsがデータセット、評価者、タスクなどの要素を包括していることから、効果的なデータ管理と評価システムの構築に役立つと推測されます。

  • Lang Smith Primitivesとは何ですか?

    -Lang Smith Primitivesは、スクリプトの文脈では明確な定義がありませんが、おそらくデータセットの作成や評価システムの構築に使用される基本的な要素や機能のことを指していると思われます。

  • smith.comにアクセスして何ができるのですか?

    -smith.comにアクセスすることで、アカウントの登録、既存のアカウントへのログイン、プロジェクトの作成や管理、データセットのアップロードや編集などが可能です。

  • pip installを使用して何をインストールしましたか?

    -pip installを使用して、lsmith open AIO Lama no Lang chainというパッケージをインストールしました。これは、Lang Smithフレームワークと関連ライブラリをインストールするコマンドであると考えられます。

  • 新しいプロジェクトを作成する方法はどのようになっていますか?

    -新しいプロジェクトを作成するには、smith.comにログインし、プロジェクトの作成オプションを選択して名前と説明を入力します。その後、プロジェクト内で作業するためのデータセットを作成・管理・評価を行います。

  • データセットを作成する際に必要な手順は何ですか?

    -データセットを作成するためには、まずManually Curated Data Setを作成し、必要な質問と回答を指定します。次に、lsmithのクライアントを使用してデータセットを作成し、必要な入力と出力を設定します。

  • データセットの編集やバージョン管理はどのように行われますか?

    -データセットの編集は、 smith.comのUIから直接行えます。また、データセットにはバージョン管理があり、編集履歴や変更を追跡することができます。

  • データセットの作成時に考慮すべき点は何ですか?

    -データセットの作成時に考慮すべき点は、データセットの目的と使用方法、入力と出力を正確に定義すること、データの質と正確性を確保することです。また、データセットのバージョン管理や編集履歴を追跡するためのシステムを整えることも重要です。

  • lsmithのAPIキーを設定する目的は何ですか?

    -lsmithのAPIキーを設定することは、smith.comのサービスをプログラムで自動化し、データセットの作成や管理を自動的に行えるようにするためのものです。

  • lsmithのUIからデータセットをどのように操作できますか?

    -lsmithのUIから、データセットの作成、編集、バージョンの確認、評価結果の表示などを行うことができます。また、データセットの具体的な質問と回答を確認したり、更新したりすることも可能です。

  • CSVファイルを使用してデータセットを作成する方法はどのようになっていますか?

    -CSVファイルを使用してデータセットを作成するには、入力と出力を表す列を持つCSVファイルを用意します。その後、lsmithのクライアントを使用して、CSVファイルを読み込んでデータセットを作成します。

Outlines

00:00

🎥 動画スクリプトの紹介とEVエムの重要性

この段落では、Lanceが第三の動画を紹介しています。この動画はEVエムの評価について重点を置いています。最初の動画ではEVエムが重要である理由と興味深い点について説明しました。第二の動画では、扱っているコアLang Smith Primitivesを紹介しました。今回は実際にコードを詳しく説明する予定です。また、smith.comにアクセスして、まだ登録していない方は登録を勧められています。Lanceはすでに登録を完了しており、自分のワークスペースについても説明します。また、pip installを使用してlsmith open AIO Lama no Lang chainをインストールしていますが、実際に使用するのはlsmithのみで、Lang chainは一切使用されません。APIキーを設定し、トレースの有効化を行います。新しいプロジェクト「test」を設定することになります。

Mindmap

Keywords

💡EV Els

EV Elsは、動画スクリプトで言及される重要な技術用語です。EVはElectric Vehicle(電気自動車)の略で、ElsはEVの評価システムを指すことができます。この技術は、電気自動車の性能や環境への影響を評価するために使用されます。スクリプトでは、EV Elsが重要である理由と興味深い点について説明しています。

💡lsmith evaluations

lsmith evaluationsは、スクリプトの主題を成す技術的概念です。これは、特定のプロジェクトやシステムの評価方法を指します。スクリプトでは、lsmithを使用してデータセット、評価者、タスクを組み合わせて、システムの性能を評価する方法について説明しています。

💡Lang Smith Primitives

Lang Smith Primitivesは、スクリプトで取り上げられた、lsmith評価システムの基本的な構成要素です。これには、データセットの作成や操作に必要な基本的な命令や機能が含まれます。スクリプトの第二部では、これらのプリミティブについて詳細に説明しており、それらがどのようにシステムの評価に役立つかを説明しています。

💡pip installs

pip installsは、Pythonのパッケージ管理システムであるpipを使用して、必要なライブラリやモジュールをインストールするプロセスを指します。スクリプト中では、lsmithや関連ライブラリのインストールを通じて、評価システムを構築するための準備が行われています。

💡API key

API keyは、アプリケーションプログラミングインターフェース(API)を使用するために必要な認証情報を格納したキーです。スクリプトでは、lsmithのAPIキーを設定することで、lsmithのサービスを利用できるようにしています。

💡workspace

workspaceは、スクリプトで使用される環境の概念で、開発者がプロジェクトを管理するためのプラットフォームです。ここでは、lsmithのworkspaceについて話されていることで、プロジェクトの作成やデータセットの管理などが行われます。

💡data sets

data setsは、データの集合を指す用語で、この場合は、質問と回答のペアなどの情報を含みます。スクリプトでは、データセットの作成方法や、それらが評価システムでどのように使用されるかについて説明されています。

💡question answer pairs

question answer pairsは、一連の質問とそれに対する回答で構成されるデータセットです。スクリプトでは、ブログ記事に基づく質問回答ペアを作成し、システムが質問に答えることをテストするために使用しています。

💡versioning

versioningは、ソフトウェア開発やデータ管理において、異なる段階や状態を追跡するためのバージョン管理システムです。スクリプトでは、データセットのバージョンを管理し、更新されたデータセットを効率的に管理する方法について説明されています。

💡evaluators

evaluatorsは、スクリプトで取り上げられた概念で、システムやプロジェクトを評価する専門家やツールを指します。ここでは、evaluatorsがデータセットを用いて、システムの性能を評価する方法について説明されています。

💡trace

traceは、コンピュータプログラムの実行過程を追跡するためのプロセスです。スクリプトでは、環境変数を設定してトレースを有効にすることで、プログラムの動作を監視し、問題を解決するための情報を得ることができます。

Highlights

Introduction to the third video focusing on lsmith evaluations.

Explanation of why EV Els matter and their significance.

Overview of the core Lang Smith Primitives.

Jumping into code and setting up the workspace.

Instructions on signing up at smith.com and API key setup.

Demonstration of working directly with Lang chain.

Creation of a new project called 'test'.

Building a custom dataset of question-answer pairs.

Utilization of a pandas dataframe for dataset management.

Using the lsmith client to create and manage datasets.

Explanation of dataset versioning and editing capabilities.

Showcasing the dataset in lsmith and its evaluation status.

Process of updating a dataset with new questions.

Demonstration of dataset version rewind feature.

Creating a new dataset from a CSV file using the UI.

Foundational methods for building manually curated datasets.

Teaser for future discussions on expanding upon these methods.

Transcripts

play00:00

hey this is Lance lanching this is our

play00:02

third video focus on lsmith evaluations

play00:05

um so the first video kind of laid out

play00:08

why EV Els matter and why they're

play00:09

interesting the second video laid out to

play00:11

the core Lang Smith Primitives that we

play00:13

working with so now let's actually jump

play00:15

into some code um so again this is just

play00:17

the overview of the kind of the eal

play00:19

landscape that we've talked about

play00:20

previously there's data sets there's

play00:22

evaluators there's tasks care about and

play00:25

there's you know how do you apply your

play00:27

evals so all I've done is if you go to

play00:31

smith.com this will be an opportunity to

play00:33

sign up if you haven't already done done

play00:35

so already I've already signed up of

play00:37

course so now this is showing my my

play00:38

workspace which we're going to talk

play00:40

about

play00:41

later um I've done some pip installs pip

play00:44

installed lsmith open AIO Lama no Lang

play00:46

chain install here we're just going to

play00:47

work with langth directly we're not

play00:49

going to involve Lang chain at all um so

play00:52

here I'm setting the API key that I got

play00:54

when I signed up and I'm also setting

play00:55

this environment variable to enable

play00:57

tracing and I'm going to find a new

play00:59

project

play01:00

called test so this light chain project

play01:02

basically sets up a new project that I'm

play01:03

going to work in and you'll see kind of

play01:05

how that's interesting very shortly so

play01:08

here's like a first question you might

play01:09

ask how do I build my own data set right

play01:11

it's a very simple reasonable question

play01:13

to ask now let's say we want to build a

play01:15

data set of question answer pairs for

play01:17

this new blog post on the data breaks

play01:19

model

play01:19

dbrx really cool release State theart

play01:22

open source llm a lot of nice detail on

play01:25

this blog post let's say I want to build

play01:27

a question answer data set based on this

play01:29

blog to test the system I have for

play01:31

answering questions in general right

play01:32

this is a very popular use

play01:35

case so we're doing here is I'm kind of

play01:38

graying out everything we're not

play01:40

focusing on we're only focusing on

play01:41

manually curated data set that's it so

play01:46

what I'm going to do I've already kind

play01:47

of gone through the post and I've

play01:48

curated a few questions and a few

play01:50

answers to those questions and this is

play01:53

just a good old pandas data frame that's

play01:56

it now what I'm doing here is from

play02:00

likith I'm important the client and I'm

play02:02

going to find a new data set dbrx so

play02:06

this is the data set I want to work with

play02:08

and what I'm I'm just calling this

play02:09

create data set giving it a name giving

play02:12

me a description I'm passing in the

play02:13

inputs and the outputs that I specified

play02:15

up here that's it so I'm running this

play02:18

and that runs now here's where I can hop

play02:21

over to lsmith and let me move

play02:25

this if I go over to so you can kind of

play02:28

see a few different categories here

play02:29

project annotation ceue deployments

play02:31

we'll talk about all that later don't

play02:32

worry about that for now go to Data

play02:35

System

play02:36

testing and you can see a whole set if I

play02:38

have a ton of data set that doing a lot

play02:40

of work but let's try dbrx that's the

play02:42

data set we just created I think so here

play02:44

it is so okay we can see created

play02:47

modified now let's just click on one of

play02:49

these we can actually just see here's

play02:51

the that input question here's the

play02:54

answer and you know so that's kind of

play02:57

nice we can look at our data set here

play02:59

this test thing tells us have we done

play03:01

any evaluations on it we've not just a

play03:03

set of examples that's really it so it's

play03:06

pretty nice now let's say I want to

play03:08

update this so I want to add a question

play03:11

again just call create examples data set

play03:13

name or ID there it is I go back it

play03:16

shows up

play03:18

easy now I also want to say okay what

play03:23

are the different data and versions I

play03:24

can rewind okay that's what it was

play03:27

originally that's what this is what it

play03:28

is currently after my

play03:30

update let's say I want to edit it I can

play03:33

actually go to an example I can edit it

play03:36

here there we go easy enough cancel out

play03:41

that's really it

play03:43

so we can go back here what you can see

play03:47

is we defined a set of question answer

play03:50

Pairs and we' Ed L spith SDK to just

play03:54

create a data set from them directly we

play03:55

shown that edit the data set and we've

play03:57

shown that it has versioning that's kind

play03:59

of it now if we were to go back and if I

play04:04

click on create new data set I saved

play04:07

that that eval CSV let's say I want to

play04:10

create a new one I test data

play04:14

set I'll call this a key value data set

play04:16

we talked about that previously the

play04:18

inputs and outputs are just key value

play04:19

pairs question answer you can see it's

play04:22

kind of all automatically populates boom

play04:26

and there it is I have it from a CSV as

play04:28

well that's really it it's super simple

play04:31

um I've defined my inputs and my

play04:33

outputs I've used a client to create a

play04:35

data set I've edited it I've shown how

play04:38

to look at the versions I've shown how

play04:39

to create a data set from a CSP using

play04:42

the UI that's really it again that's the

play04:44

foundational piece of building developer

play04:46

curated or manually curated data sets

play04:48

and we're going to be talking about kind

play04:49

of how to build on this

play04:51

next

Rate This

5.0 / 5 (0 votes)

Related Tags
データセット評価方法lsmith質問-回答データ管理エドTech技術紹介AI開発オープンソースブログテスト
Do you need a summary in English?