50 Day 2024 - Stephan Hadinger (AWS) & Julien Simon (Hugging Face)

Amazon Web Services France
28 May 202420:19

Summary

TLDRこのスクリプトでは、オープンソースのAIモデルのトレーニングと活用に関する議論が行われています。Hugging FaceとAWSがパートナーシップを結んでおり、多くの小さなモデルを提供しています。スクリプトでは、大きなモデルではなく、ファインチューニングされたオープンソースモデルを使ってビジネスに適したソリューションを見つける方法が紹介されています。専門的な知識がなくても、効果的なAIモデルを迅速に展開し、コスト効率を意識した最適なモデルを見つけ出すことが議論の核心です。

Takeaways

  • 😀 ライブラリとしてHugging FaceとLia Open SourceがAI分野で重要な役割を果たしている。
  • 🚀 AWSとHugging Faceはパートナーシップを持ち、AIモデルのトレーニングと展開を支援している。
  • 📈 AI分野ではパフォーマンスを競う一方で、コストと効率も重要な要素となっている。
  • 🌐 Hugging FaceのHubでは、日々の追加で数十数千の事前トレーニング済みモデルが提供されている。
  • 🛠️ オープンソースツールとモデルを使用することで、開発者と企業は迅速かつコスト効率的に最新のAIモデルを導入することができる。
  • 💡 AIモデルの選択は、組織のニーズと予算に応じて行われることが望ましい。
  • 🔍 大規模モデルと比較して、より小さなオープンソースモデルはコスト効率が良く、応答速度も速い。
  • 🛑 モデルの選択とトレーニングには、事前に明確なユースケースと目標を持つことが重要である。
  • 🔧 モデルのファインチューニングは、特定のビジネスニーズに合わせてモデルを最適化するプロセスである。
  • 🌟 Hugging Faceはモデルのデプロイメントとテストを容易にし、コミュニティによる採用が広がっている。

Q & A

  • 「lia open source」とは何ですか?

    -「lia open source」とは、Hugging Faceが推進するオープンソースのAI技術の一つで、独自のモデルをトレーニングすることができるプラットフォームです。

  • AWSとHugging Faceはどのような関係を持っていますか?

    -AWSとHugging Faceはパートナー企業であり、数年間合作してきました。Hugging FaceはAWS上でモデルをトレーニングすることができるようになりました。

  • オープンソースのAIモデルはどのようにして企業や開発者に役立ちますか?

    -オープンソースのAIモデルは、企業や開発者が既存のモデルをダウンロードし、自分のニーズに合わせて調整することができるため、開発コストを削減し開発期間を短縮できます。

  • 大きなAIモデルと小さなAIモデルでは何が違いますか?

    -大きなAIモデルは多くのパラメータを持ち、学習コストが非常に高い一方で、小さなAIモデルはパラメータが少なく、学習コストが低く、より高速に動作することが可能です。

  • Hugging Faceの「hub」とは何ですか?

    -Hugging Faceの「hub」は、50万以上の事前トレーニング済みモデルをホストしているウェブサイトであり、開発者が簡単にモデルをダウンロードして利用することができる場所です。

  • AIモデルの「fine-tuning」とは何を意味しますか?

    -「fine-tuning」とは、既存のAIモデルを特定のタスクやデータセットに対してさらにトレーニングすることで、そのモデルの性能を向上させるプロセスです。

  • AIモデルをスケールアップする際には何を考慮する必要がありますか?

    -スケールアップする際には、モデルのコスト効率、パフォーマンス、応答速度、および特定のビジネスニーズに合わせた最適化を考慮する必要があります。

  • オープンソースモデルと商業モデルの間にはどのような違いがありますか?

    -オープンソースモデルは誰でも自由に利用でき、カスタマイズ可能である一方で、商業モデルは特定の企業が提供し、より高度な機能やサポートが提供されることがありますが、通常は有料です。

  • AIモデルの選択とトレーニングにおいて、何が最も重要な要素ですか?

    -最も重要な要素は、明確なユースケースの定義と、それに適したモデルの選択です。また、モデルのトレーニングとファインチューニングは、ビジネスニーズに合わせて行う必要があります。

  • AI技術を導入する際の失敗する企業の特徴は何ですか?

    -失敗する企業は、ユースケースを明確に定義せずに技術の可能性に焦点を当てたり、長期の戦略を策定するのに時間をかかりすぎる傾向があります。

Outlines

00:00

🤖 AIモデルとオープンソースの活用

スティーブンとジュリアンはHugging FaceとAWSのパートナーシップを通じて、オープンソースのAIモデルをどのようにトレーニングし、ビジネスに活用できるかを説明します。彼らはAI技術の進歩と様々な企業が提供するモデルの数を触れ、特にオープンソースモデルの利点を強調しています。また、大きなモデルと小さなモデルのトレーニングコストの違いについても議論しており、ビジネスにとってコスト効率が良く、専門性の高いモデルを選択することが重要だと述べています。

05:01

💡 AIモデルの選択とコスト管理

スティーブンはビジネスにおけるAIモデルの選択とそれに伴うコスト管理の重要性を語ります。多くの企業が大規模なモデルを用いて高いコストを負担する一方で、効果が期待通りになかなか得られないという問題を指摘しています。その解決策として、ビジネスのニーズに合わせたオープンソースの小さなモデルを選択し、必要に応じてファインチューニングを行うことを提案しています。

10:03

🛠️ AIモデルの最適化とプラットフォームの選択

ジュリアンはAIモデルの最適化とプラットフォームの選択に関するアドバイスを提供しています。特定のビジネスケースに適したモデルを選択し、コストとパフォーマンスのバランスを考慮して最適なプラットフォームを選ぶことが重要だと述べています。また、モデルのファインチューニングを通じて、より高い精度とパフォーマンスを達成することができると強調しています。

15:03

🌐 AI技術の多様性と持続可能性

スティーブンはAI技術の多様性とそれに伴う持続可能性の問題について話しています。様々な種類のAIモデルやハードウェアの選択肢があり、それぞれの利点を理解することがビジネスにとって重要だと述べています。また、AIの運用においては、データのセキュリティとプライバシーの確保も重要であり、オープンソースモデルはそれらの観点でも優れているとしています。

20:04

🚀 AIプロジェクトのスタート方法とヒント

ジュリアンはAIプロジェクトを始める際のアプローチとヒントを共有しています。ビジネスニーズを明確にし、適切なAIモデルを選び始めることが成功の鍵だと述べています。また、オープンソースツールを活用して迅速にモデルをテストし、評価し、最適化することが推奨されています。プロジェクトを始める際には、官僚主義や長期間の委員会を避け、実践的なアプローチをとることが重要だとアドバイスしています。

Mindmap

Keywords

💡オープンソース

オープンソースとは、ソフトウェアのソースコードが公開されており、誰でも自由に使用・改変・再配布が可能なソフトウェアのことです。ビデオでは、オープンソースのモデルがどのようにして企業や開発者に効果的に使われているかについて話されています。例えば、「hugging face」というオープンソースのプラットフォームは、多くの開発者がトレーニング済みのモデルをダウンロードして使用することができる場所として紹介されています。

💡AIモデル

AIモデルとは、人工知能を用いて学習させたモデルのことであり、ビデオでは特に自然言語処理や画像認識などのタスクをこなすことができるものを指しています。ビデオでは、様々なAIモデルがオープンソースで提供され、開発者がそれらをファインチューニングして特定のニーズに合わせて調整することができると説明されています。

💡ファインチューニング

ファインチューニングは、事前にトレーニングされたAIモデルに対して、さらに特定のタスクやデータセットに合わせてトレーニングを施すことを指します。ビデオでは、オープンソースのモデルをファインチューニングして、ビジネスの特定のニーズに合わせたソリューションを提供するプロセスが議論されています。

💡クラウドパートナー

クラウドパートナーとは、クラウドサービスを提供する企業とのパートナーシップを意味します。ビデオではAWS(Amazon Web Services)というクラウドサービスプロバイダーとのパートナーシップが言及されており、彼らはオープンソースのAIモデルを効果的にトレーニングし、デプロイするために重要な役割を果たしているとされています。

💡モデルのスケーラビリティ

スケーラビリティとは、システムやモデルが規模を拡大し、より多くのユーザーやデータを処理できる能力を指します。ビデオでは、大規模なモデルと比較して、オープンソースのモデルはスケーラビリティが高いとされており、企業がそれらをより大きな規模で利用することでコスト効率よくサービスを提供できると説明されています。

💡トレーニングコスト

トレーニングコストとは、AIモデルをトレーニングするために必要な時間、リソース、および費用のことを指します。ビデオでは、大規模なモデルのトレーニングコストが非常に高くなることが問題視されており、オープンソースのモデルを利用することでコストを削減できると示唆されています。

💡ハイパフォーマンス

ハイパフォーマンスは、非常に高い性能や効率を持つことを意味します。ビデオでは、特定のオープンソースモデルがハイパフォーマンスを発揮し、大きなモデルと比較しても優れた結果を出すことが可能とされていると強調されています。

💡プロンプトエンジニアリング

プロンプトエンジニアリングは、AIモデルに入力するテキスト(プロンプト)を効果的に設計することによって、モデルの応答を改善する技術的なアプローチです。ビデオでは、プロンプトエンジニアリングがモデルの品質と関連性を高めるための重要な要素として触れられています。

💡モデルの選択

モデルの選択とは、特定の問題やタスクに対して最適なAIモデルを選定するプロセスです。ビデオでは、ビジネスのニーズに合わせて最適なオープンソースモデルを選択することが重要であり、リーダーボードを通じてモデルのパフォーマンスを比較し、選択するプロセスが議論されています。

💡ハイブリッドモデル

ハイブリッドモデルとは、複数のモデルや技術を組み合わせて最適な結果を出すことを目指したアプローチです。ビデオでは、ハイブリッドモデルがどのようにして異なるニーズに対応し、効果的なソリューションを提供することができるかが説明されており、さまざまなハードウェアとソフトウェアの組み合わせが重要であると強調されています。

Highlights

Hugging Face est le promoteur de Lia open source et la collaboration avec Stéphan pour aider à comprendre comment Lia peut aider à entraîner des modèles sur AWS.

Le développement de modèles de plus grande taille et la course à la performance peuvent masquer d'autres aspects importants comme les modèles plus petits et open source.

Les coûts d'apprentissage des modèles à 7 milliards de paramètres sont extrêmement élevés, atteignant des dizaines de millions d'euros.

L'importance de fine-tuning des modèles open source pour créer des solutions personnalisées qui sont plus abordables et efficaces.

Hugging Face héberge plus de 500 000 modèles pré-entraînés sur leur site web, le Hub, avec un ajout continu de nouveaux modèles.

Les modèles pré-entraînés sont créés par divers acteurs tels que des grandes entreprises, des start-ups, des laboratoires de recherche et des universités.

La facilité de téléchargement et de mise en œuvre rapide des modèles pré-entraînés pour diverses tâches telles que le traitement du langage naturel et la vision artificielle.

L'accent mis sur la démocratisation de l'IA et la simplification de l'accès aux modèles d'état de l'art pour les développeurs et les entreprises.

Les défis rencontrés par les clients qui choisissent de grands modèles pour résoudre des problèmes spécifiques et les conséquences sur les coûts.

L'importance de la compréhension des cas d'utilisation spécifiques pour choisir le modèle approprié et éviter les coûts prohibitifs.

Les conseils pour les clients sur la transition d'un grand modèle à des modèles open source plus ciblés, en commençant par définir clairement le cas d'utilisation.

L'utilisation de techniques de fine-tuning et de réentraînement pour améliorer la performance des modèles sur des données spécifiques.

L'optimisation des performances et des coûts techniques et financiers grâce à l'utilisation de modèles plus petits et moins coûteux.

L'impact de la sortie du modèle Lama 2 et sa capacité à surperformer d'autres modèles généraux comme GPT 3.5 et GPT 4 dans des domaines spécifiques.

L'importance de la diversité des modèles et des accélérateurs pour répondre aux besoins variés en matière de formation et d'inférence.

Les efforts pour réduire la consommation électrique et les coûts grâce à l'optimisation des performances des modèles sur les GPU et CPU.

Les trois grandes questions posées aux DSI concernant la qualité des modèles, la sécurité et l'utilisation efficace des ressources.

Le conseil de commencer à tester des modèles pour évaluer leur pertinence et leur performance sans se préoccuper immédiatement de la réglementation ou de la bureaucratie.

Transcripts

play00:02

[Applaudissements]

play00:02

[Musique]

play00:06

bonjour à tous alors je vous ai on était

play00:09

caché là derrière donc j'ai pas vu qui a

play00:11

levé la main qui n'a pas levé la main

play00:12

donc je vais refaire je faire dans

play00:13

l'utre sens qui a déjà utilisé chat GPT

play00:17

ok ça va donc l' génératif ça ça vous

play00:19

parle qui a déjà créé sa propre a son

play00:22

propre

play00:25

modèle et qui pense que c'est facile de

play00:28

créer son propre modè

play00:31

ah tu es tout seul Julien B alors il y a

play00:32

du boulot alors vas-y explique-nous un

play00:34

petit peuot bonjour à

play00:37

tous effectivement effectivement hugging

play00:40

face est le le promoteur de de Lia open

play00:44

source et avec Stéphan aujourd'hui on va

play00:47

essayer de vous expliquer en quoi lia en

play00:50

général et lia Open Source en

play00:52

particulier peut vous aider à à

play00:54

entraîner vos vos propres modèles et

play00:56

comment bien le faire sur AWS puisque on

play00:58

a la chance d'être partenaire depuis

play01:01

plusieurs années oui et de se connaître

play01:03

aussi et connare euh ouais ouais et et

play01:05

donc en fait c'est il y a y a tout de un

play01:07

foisonnement autour des modèles alors

play01:09

vous en connaissez certains même déjà

play01:11

dans les deux semaines qui précédentes

play01:13

Mistral a lancé ses nouveaux modèles qui

play01:16

sont disponibles sur Amazon sur Amazon

play01:18

bedrock euh ce dimanche là entropique a

play01:21

lancé Claude i euh qui d'ailleurs

play01:23

d'après les benchmarks leur benchmark

play01:26

sur perform gpt4 donc il y a toujours

play01:28

cette cette cette course à la

play01:31

performance mais mais du coup ça occulte

play01:34

peut-être aussi un autre aspect donc on

play01:36

a ces très très larges modèles et quand

play01:37

je parlait tout à l'heure de créer vos

play01:38

propres modèles on va pas parler de ces

play01:40

modèles à 7 milliards de paramètres et

play01:43

autres ou enfin le coût d'apprentissage

play01:45

se chiffre quand même en dizaines de

play01:47

millions d'euros voire plus mais

play01:49

finalement tout un un autre pan qui sont

play01:51

des modèles beaucoup plus petits

play01:53

essentiellement open source et sur

play01:55

lequel ça vous donne cette laattitude de

play01:57

fine tuner de faire quelque chose qui

play01:59

qui qui qui vous ressemble et et je

play02:02

crois que c'est pas si difficile en tout

play02:03

cas c'est pas aussi difficile que

play02:04

certains croient non c'est pas aussi

play02:07

difficile que certains le croient le

play02:09

domaine effectivement Stéphan tu l'as

play02:11

dit avance très vite alors il avance

play02:13

très vite sur les modèles commerciaux

play02:15

les modèles

play02:16

fermés j'ai l'impression qu'il avance

play02:18

encore plus vite dans le monde de l'open

play02:19

source tu peux donner quelques chiffres

play02:21

peut-être oui alors sur huging face sur

play02:24

le le le site web deging face qu'on

play02:26

appelle le hub aujourd'hui on héberge

play02:28

plus d'un demiillion de modèle

play02:30

pré-entraîné euh donc plus de 500000 on

play02:33

en ajoute des centaines peut-être même

play02:35

des milliers par jour le le le rythme

play02:36

est assez freiné donc des modèles qui

play02:38

sont pré-entraînés par leurs

play02:41

créateurs qui peuvent être des grandes

play02:42

entreprises de la tech qui peuvent être

play02:44

des start-ups qui peuvent être des labos

play02:45

de recherche des université et vous

play02:47

pouvez en quelques secondes télécharger

play02:49

ces modèles et les mettre en œuvre pour

play02:51

un ensemble de tâches comme du

play02:53

traitement du langage naturel de la

play02:55

traduction du résumé de texte des

play02:57

questions-réponses euh évidemment de

play03:00

l'IA génératif des chatbot mais aussi de

play03:03

la vision artificielle de la

play03:04

reconnaissance

play03:05

d'image de la synthèse vocale de la

play03:09

reconnaissance vocale enfin la liste est

play03:11

est sans fin et et c'est vraiment cette

play03:15

cette profusion de modèle la combinaison

play03:17

de cette profusion de modèle et de de

play03:21

des outils Open Source et en particulier

play03:22

des tils open sourceing face qui permet

play03:26

à à la communauté au sens large les

play03:29

développeurs les entreprises de de

play03:32

déployer rapidement des modèles à l'état

play03:34

de l'art et quand je dis rapidement ça

play03:37

peut être en quelques heures en quelques

play03:39

jours je dirais c'est ça dépend à quelle

play03:41

vitesse vous allez en général euh et et

play03:45

et de et d'ajouter des capacités d' à

play03:47

leurs applications à des à des coûts

play03:50

raisonnables avec des efforts

play03:51

raisonnables et sans avoir besoin

play03:52

d'avoir une équipe de 200 s chercheurs

play03:55

euh voilà donc c'est vraiment la on

play03:57

parle souvent de démocratisation de de

play04:00

l'a bon pourquoi pas je préfère parler

play04:03

de de simplification et

play04:05

d'accélération pour que finalement quel

play04:07

que soit la taille de votre organisation

play04:09

quel que soit son niveau de maturité

play04:10

quel que soit son niveau d'expertise

play04:12

elle puisse aussi utiliser ces modèles

play04:15

construit par les les experts mondiaux

play04:18

mais de manière simple on va peut-être

play04:19

revenir un petit peu sur finalement la

play04:21

la la première expérience alors que vous

play04:22

soyez dans dans une start-up dans une

play04:24

une grande entreprise c'est finalement

play04:26

par où on démarre et et c'est vrai qu'on

play04:28

a cette chance de de de rencontrer

play04:30

énormément de clients et et très souvent

play04:32

il y a cette idée je vais prendre je

play04:33

vais choisir un modèle et je vais tout

play04:36

résoudre avec ce modèle là je vais faire

play04:38

une confession ça ça marche pas

play04:39

exactement comme ça et en fait on on

play04:41

s'aperçoit on a beaucoup de retours de

play04:43

clients qui ont démarré sur différents

play04:45

des des des très très larges modèles qui

play04:47

ont essayé de les utiliser un peu à

play04:48

toutes les sauces les résultats sont pas

play04:50

forcément aussi spectaculaires qu'ils

play04:53

aimeraient mais surtout il y a quelque

play04:55

chose qui vient souvent les mordre à ce

play04:57

moment-là c'est le prix de la facture tu

play04:58

as peut-être quelques quelques anecdotes

play05:01

là-dessus euh oui j'en ai j'en ai

play05:03

quelquesunes c'est un thème c'est un

play05:05

thème assez récurrent alors le le dans

play05:07

la technologie le le le myth du couteau

play05:09

suisse est assez fort alors stéphane et

play05:12

moi sommes encore des jeunes des jeunes

play05:14

hommes mais on a dans les quelques

play05:17

années qu'on a passé dans la tech on

play05:19

sait qu'il y a pas de couteau suisse il

play05:21

y a pas de langage universel il y a pas

play05:22

de base de données universel il y a pas

play05:24

d'équipement réseau universel il y a pas

play05:26

d'IA et de modèle universel c'est voilà

play05:29

c'est c'est une tromperie pour pour être

play05:32

clair ça ça marche jamais comme ça et et

play05:36

effectivement moi je rencontre aussi

play05:38

beaucoup de beaucoup de clients et et

play05:40

j'entends régulièrement alors on a

play05:42

essayé on a essayé de bâtir des solution

play05:46

avec les modèles alors d'Open he puisque

play05:49

que c'était les premiers sur le marché

play05:50

il faut les féliciter pour ça on a fait

play05:53

des proof of concept on a découvert

play05:55

notre problème on a éduqué nos équipes

play05:58

et nos et nos Exec sur liya donc tout ça

play06:01

est très positif on était très

play06:04

content et puis on a voulu passer ce ce

play06:08

prototype en production en l'ouvrant à

play06:10

des dizaines des centaines peut-être

play06:12

même des milliers

play06:14

d'utilisateurs et et ensuite on a reçu

play06:16

la facture à la fin du mois et et

play06:18

souvent étonnamment le chiffre qui

play06:21

revient

play06:21

souvent c'est le chiffre de 50000

play06:24

dollars ouais et alors on pourrait

play06:27

l'expliquer pourquoi on n pas le temps

play06:28

aujourd'hui mais effectivement le le

play06:30

coût de ces modèles à l'échelle devient

play06:33

assez vite prohibitif et en tout cas ne

play06:36

ne vous fournit aucun retour sur

play06:38

investissement et donc c'est très bien

play06:40

de faire de l'IA encore faut-il savoir

play06:41

pourquoi et encore faut-il

play06:44

savoir si on veut économiser de l'argent

play06:46

ou si on veut générer du revenu mais

play06:48

dans un cas comme dans l'autre avec de

play06:50

telles factures il va vous falloir une

play06:53

sacrée une sacrée innovation pour

play06:55

justifier le coût et donc c'est souvent

play06:57

là que les clients tirent sur la se tire

play07:00

sur la prise et se mettent à réfléchir

play07:02

en dire et se disent qu'est-ce qu'on

play07:04

peut faire d'autre comment est-ce qu'on

play07:05

peut avoir une expérience utilisateur de

play07:07

très bonnne qualité mais avec des couts

play07:10

raisonnables et une maîtrise complète de

play07:12

ce qui se passe alors peut-être pour

play07:13

recentrer un petit peu et je suis pas en

play07:14

train de dire qu'il faut surtout pas

play07:15

utiliser des très très larges modèles au

play07:17

contraire mais en tout cas c'est un ça

play07:19

reste un un phénomène itératif

play07:21

exploratoire et c'est absolument parfait

play07:24

de commencer par des très grands modèles

play07:26

des clot 3 des

play07:28

Mistral il y en a beaucoup beaucoup

play07:29

d'autres euh ça permet de dégrossir ça

play07:31

permet de tester un petit peu leou ils

play07:33

sont très faciles à mettre en très facil

play07:35

littéralement en quelques minutes ou

play07:37

quelques heur vous avez déjà un

play07:38

prototype qui fonctionne ça permet de

play07:40

valider le modèle et ensuite se pose la

play07:42

question de comment passer à l'échelle

play07:44

comment euh ce modèle qu'on a utilisé

play07:46

pour quelques personnes on va le faire

play07:47

pour potentiellement une entreprise de

play07:49

100000 personnes et là on on rentre dans

play07:51

effectivement cette cette optimisation

play07:53

et c'est là où le fait d'utiliser des

play07:55

modèles plus petits ont deux avantages

play07:57

évidents le premier c'est que ça coûte

play07:58

moins cher donc ça devient compatible

play08:00

avec un hroi le deuxième qui est moins

play08:01

connu en général c'est que c'est

play08:02

également ils sont plus rapides c'est et

play08:05

dans certains cas on a des exemples on a

play08:07

un service qui s'appelle Connect de

play08:08

centre d'appel où on fait de de las

play08:11

générative pour aller bien sûr faire de

play08:13

la transcription donc le modèle comprend

play08:15

ce qui est ce qui est dit et faire aussi

play08:17

de la génération en temps réel de

play08:19

recommandation pour l'agent qui est au

play08:20

téléphone s'il faut attendre 15 secondes

play08:22

ou 10 secondes que la recommandation

play08:24

arrive c'est trop tard la discussion est

play08:25

déjà passée passée à autre chose donc

play08:27

quels sont tes tes conseils final pour

play08:29

qu'un

play08:30

client fait fasse cette transition

play08:33

finalement d'un d'un d'un très large

play08:34

modèle à des modèles Open Source plus

play08:36

ciblés le premier point c'est d'être

play08:38

très clair sur le cas d'usage alors ça

play08:40

paraît évident mais le nombre de clients

play08:42

que je peux encore croiser et qui me

play08:44

sortte ma phrase préférée qui est je

play08:46

veux savoir de je veux voir de quoi la

play08:49

technologie est capable et et et encore

play08:52

un peu trop élevé à mon goût et ça c'est

play08:53

la meilleure façon d'échouer donc il

play08:55

faut avoir un objectif clair donc on

play08:56

peut se dire voilà moi j'ai besoin d'un

play08:57

modèle qui en en en quasi temps réel on

play09:02

va dire en 500 millisecondes et capable

play09:06

de me générer une réponse à une question

play09:10

que me pose un client au téléphone et

play09:12

cetera et cetera quelque chose de cadré

play09:14

quelque chose de

play09:15

concret avec une bonne compréhension du

play09:18

domaine est-ce que on parle du domaine

play09:20

financier est-ce qu'on parle du

play09:22

domaine euh automobile est-ce qu'on

play09:25

parle d'autres choses donc quel genre de

play09:27

question on va poser au modèle avoir une

play09:29

idée du coût qu'on est prêt à supporter

play09:32

avoir une idée de l'échelle à laquelle

play09:33

on va devoir fonctionner et cetera donc

play09:35

il y a un ensemble de paramètres déjà

play09:36

qui sont important tout c'est pas

play09:39

essentiel de de tout connaître à la

play09:40

virgule près mais il faut déjà cadrer ça

play09:42

une fois qu'on a ça on peut commencer à

play09:45

à tester les meilleurs modèles open

play09:49

source du marché euh si on peut appeler

play09:52

ça un marché euh donc on va les trouver

play09:55

sur le hingf on a d'ailleurs bâti un ce

play09:58

qu'on appelle le leaderboard donc il y a

play09:59

un classement maintenu en permanence

play10:02

avec les meilleurs modèles les

play10:04

benchmarks les performances techniques

play10:06

et cetera donc ça permet déjà de guider

play10:08

le meilleurs modèle alors ça ça ça

play10:11

change ça change je va pas dire tous les

play10:13

jours mais ça change ça change souvent

play10:14

oui ça change souvent et et et et et en

play10:18

fonction de ces différents paramètres

play10:19

voilà on va dire moi en fonction de mes

play10:21

coûts en fonction de mon

play10:23

échelle bah peut-être que je vais

play10:25

d'abord commencer par des petits modèles

play10:26

parce que peut-être qu'un petit modèle

play10:27

est suffisant pour pour répondre à des

play10:29

questions hyper ciblées voilà je fais du

play10:32

support client sur des forfaits

play10:34

téléphoniques et je ferai que ça je vais

play10:36

pas faire de recette de cuisine je vais

play10:38

pas faire de question d'astronomie donc

play10:40

assez intuitivement on comprend que si

play10:42

on a un un un domaine métier

play10:45

étroit mais sur lequel on a besoin

play10:48

d'énormément de profondeur on va pas

play10:49

avoir besoin d'un modèle généraliste

play10:52

gigantesque gigantesque qui lui alors

play10:54

sera hyper large mais assez assez peu

play10:57

profond et en fait c'est cette c'est

play10:59

cette c'est ça qu'il faut comprendre

play11:00

assez tôt et ensuite expérimenter avec

play11:02

les meilleurs modèles les tester les

play11:04

évaluer sur vos données et peut-être à

play11:06

un moment ce que tu disais au début les

play11:08

f tuner donc les réentraîner un petit

play11:10

peu sur vos données pour

play11:12

que ben ils comprennent toutes les

play11:14

nuances de vos forfaits téléphonique de

play11:15

vos conditions de vente et cetera et

play11:17

cetera et c'est ce process itératif qui

play11:19

permet d'arriver à une solution où on a

play11:22

la meilleure performance du modèle en

play11:24

terme de pertinence et un coût

play11:27

performance technique et financier

play11:29

optimisé donc j'ai un peu triché tout à

play11:31

l'heure en disant créer son propre

play11:33

modèle en fait il s'agit de de fine

play11:34

tuning de de modèle existant mais

play11:38

d'après toi on peut arriver sur un

play11:40

domaine très précis au même niveau voire

play11:42

mieux qu'un qu'un modèle généraliste ah

play11:44

oui depuis en fait cette cette question

play11:47

là et on y a répondu depuis juilletaoût

play11:50

de l'année dernière donc en juillet août

play11:53

il y a eu juillet il y a eu un jalon

play11:55

assez important qui était la la sortie

play11:56

du modèle Lama 2 qui a été publié par

play11:59

MTA ma qui fait beaucoup de choses

play12:01

extrêmement intéressantes dans le dans

play12:03

le li open source et assez vite on a vu

play12:06

des versions de Lama 2 y compris des

play12:08

petites versions donc fine tuner donc

play12:10

réentraîner sur des domaines

play12:13

précis et on les a vu très vite

play12:16

surperformé GPT 3.5 donc d'Open a

play12:20

euh voire même dans certains cas gpt4

play12:25

donc depuis voilà moins cher est

play12:27

beaucoup moins cher puisque là on parle

play12:28

de modèle qui font on va dire 13

play12:31

milliards 30 milliards de paramètres

play12:33

donc c'est-à-dire entre 10 et 20 fois

play12:36

plus petit que ce qu'on suppose être GPT

play12:40

3.5 et gpt4 puisque ils nous disent

play12:43

pas et et donc vous vous pouvez imaginer

play12:45

quand on travaille avec un modèle qui

play12:46

est littéralement 20 fois plus petit

play12:48

donc quand je dis 20 fois plus petit ça

play12:49

veut dire qu'il occupe 20 fois moins

play12:50

d'espace en mémoire sur votre GPU ou sur

play12:53

votre sur votre serveur et donc

play12:55

forcément l'économie de coût euh et la

play12:58

capacité à skel est ce ce modèle va être

play13:01

va être importante voilà je rebondis sur

play13:03

les GPU bon qu' a un peu de tension sur

play13:05

le marché le marché des GPU je t'ai déjà

play13:08

entendu parler vent je t'ai déjà entendu

play13:11

parler également de de nouveaux

play13:13

algorithmes et de mécanismes de

play13:15

compression pour finalement le CPU n'est

play13:18

pas complètement mort c'est ça

play13:19

absolument pas donc NVIDIA a fait un

play13:21

excellent travail pour convaincre la

play13:22

planète que on pouvait pas faire dia

play13:24

sans sans

play13:25

GPU alors comme on dit en anglais we

play13:28

back to differ

play13:30

on travaille chez hugingf avec alors on

play13:33

travaille avec des partenaires cloud AWS

play13:35

étant le le plus important pour nous

play13:36

mais on travaille aussi avec des

play13:37

partenaires hardware on travaille avec

play13:38

Intel on travaille avec

play13:40

AMD on travaille avec d'autres d'autres

play13:42

sociétés et on on travaille avec eux sur

play13:45

l'optimisation des performances des

play13:46

modèles sur leur

play13:48

plateforme GPU et CPU et moi je vois

play13:52

beaucoup de clients qui font donc de

play13:54

l'inférence donc qui utilisent ces

play13:55

modèles qui prédisent avec ces modèles

play13:58

sur les plateformes pu et et pour des

play14:01

cas d'usage où la latence de prédiction

play14:03

est moins sensible il y a beaucoup de

play14:06

processus qui sont des processus on va

play14:07

dire backofice qui travaille en mode

play14:09

voilà en mode asynchrone et cetera où

play14:12

finalement il y a pas vraiment un

play14:14

utilisateur qui attend la réponse en

play14:15

temps réel et ben on arrive à des une

play14:17

fois de plus à des coûts performances

play14:19

parce que la performance seule n'a aucun

play14:21

sens ce qui compte c'est le coût

play14:23

performance on arrive à des niveaux de

play14:24

cooup performance qui sont vraiment

play14:25

excellents et et même je dirais dans

play14:27

l'absolu à des niveaux de performance

play14:29

technique de de latence de prédiction

play14:30

qui sont tout à fait correctes moi j'ai

play14:32

vu des chatbots qui tombent bien sur CPU

play14:34

parce qu'ils ont été effectivement

play14:35

optimisés compressés avec des techniques

play14:38

un peu un peu savantes mais qui sont

play14:40

facilité par nos outils Open Source donc

play14:43

le une fois de plus le on a commencé par

play14:45

dire il y a pas le modèle couteau suisse

play14:47

bah vous savez quoi il y a pas non plus

play14:48

le l'accélérateur couteau suisse donc il

play14:51

faudra un panel de modèle et il faudra

play14:53

un panel de de puces alors il faudra des

play14:56

gros GPU tu as pas cité les puces d'ws

play14:59

voilà j'y arrive j'yarrive il faudra des

play15:01

des grosses puces ou des en tout cas des

play15:03

puces puissantes pour entraîner les

play15:04

modèles et a WS en a il faudra une autre

play15:07

gamme de puces pour prédire donc faire

play15:09

de l'inférence avec ces modèles ça

play15:11

pourra être des GPU des CPU ou les puces

play15:14

WS donc Stéphane je sens parler dans 10

play15:16

secondes et puis il y aura aussi

play15:19

probablement des puces plus petites qui

play15:21

fonctionneront pour sur vos laptops sur

play15:24

vos téléphones portables et cetera et

play15:26

cetera donc voilà une fois de plus la

play15:27

technologie c'est pas un truc il y a

play15:30

c'est pas une seule solution je sais

play15:32

bien on fait du marketing on essaie de

play15:33

convaincre mais dans mon monde dans les

play15:36

trancheres les choses sont plus

play15:38

complexes et il y a toujours plein de

play15:39

solutions possibles puisque tu par

play15:42

puisque tu me tends une perche c'est un

play15:44

domaine très actif et je reviens un peu

play15:46

sur les les trois points de tout à

play15:48

l'heure c'està-dire les trois grandes

play15:49

questions que les DSI me pose toujours

play15:51

sur l' générative un comment vérifier la

play15:55

qualité la véracité des réponses faire

play15:59

soit qu' a pas d'hallucination que ce ne

play16:00

soit pas toxique donc la qualité des

play16:03

modèles est surtout du fine tuning du

play16:04

prompt engineering du rag il y a

play16:05

beaucoup de technologie pour ça il y a

play16:07

des solutions le deuxième c'est la

play16:09

sécurité alors ça on a toujours géré ça

play16:11

avec des modèles qui sont isolés

play16:14

privatisé et sur lequel finalement quel

play16:17

soit le modèle que ce soit du Amazon

play16:18

bedrock que ce soit du hugging face dans

play16:20

AWS et ainsi de suite vos données ne

play16:22

sont qu'à vous n'appartiennent qu'à vous

play16:24

ne sont partagés avec personne et

play16:26

surtout pas avec les créateurs de

play16:28

modèles ça ça c'est clair c'est c'est

play16:29

c'est net c'est précis le troisième

play16:32

point qui est la la bonne utilisation

play16:33

des ressources que ça coûte pas trop

play16:35

cher ça c'est un premier

play16:37

aspect on est aussi on a aussi fiy

play16:39

Partners impact et aussi que ça ne

play16:41

consomme pas trop d'électricité c'est

play16:42

absolument vital et ce qui est

play16:44

intéressant c'est que les deux sont

play16:45

fortement corrélés et que si on arrive à

play16:47

baisser la consommation électrique en

play16:48

fait ça coûte moins cher et c'est un

play16:49

domaine où nous sommes aussi très actifs

play16:50

puisque nous avons deux puces

play16:51

inferenticia pour l'inférence et trénium

play16:53

pour l'apprentissage notre but avec ces

play16:56

puces c'est de diviser par deux la

play16:57

consommation électrique par rapport au

play17:00

puce que tu as cité et pareil pareil sur

play17:02

le prix et ça reste aussi bah et ce qui

play17:04

est intéressant c'est que c'est vraiment

play17:05

un fonctionnement main dans la main à la

play17:07

fois des créateurs de modèles et des

play17:08

algorithmes et des des de ceux qui font

play17:10

l'électronique pour arriver à à à

play17:14

finalement au meilleur des deux mondes

play17:15

euh peut-être pour terminer bah

play17:17

finalement si on revient et pour

play17:18

l'audience Julien c'est quoi pour toi le

play17:21

le conseil pour bien démarrer là tout de

play17:23

suite on a un besoin et finalement

play17:25

commentmarer alors alors comment ne pas

play17:27

démarrer déjà ah l'autre question alors

play17:29

comment ne pas démarrer alors je l'ai

play17:31

déjà dit tout à l'heure euh hein je veux

play17:33

savoir de quoi la technologie est

play17:34

capable là vous ben vous retournez

play17:36

prendre un café puis vous réfléchissez

play17:37

encore un petit peu

play17:38

euh la deuxième façon de pas démarrer

play17:41

c'est euh de réunir un comité de

play17:44

gouvernance d'IA pendant 6 mois euh

play17:47

voilà ça c'est pas c'est pas ça sert à

play17:50

rien oui il y a la régulation oui euh ça

play17:54

a un certain intérêt on a on a pas le

play17:56

temps de détailler euh oui vous devrez

play17:59

cocher un certain nombre de cases si

play18:01

vous êtes soumis à cette régulation mais

play18:03

ça c'est un truc à faire en parallèle

play18:05

donc ce qu'il faut faire c'est commener

play18:07

à tester ce soir voilà donc vous trouvez

play18:10

vous priorisez avec vos équipes business

play18:13

deux trois

play18:15

scénarios et et puis vous commencez à

play18:18

regarder des modèles sur étagère qui

play18:20

peuvent être une solution et vous

play18:23

commencez à les tester tout de suite et

play18:24

vous commencez à à vous faire un avis

play18:27

sur ce qui marche ce qui marche et

play18:29

ensuite quelle est la prochaine étape et

play18:31

ça une fois de plus pourquoi huging face

play18:33

a un certain succès pourquoi est-ce que

play18:36

on a à peu près 100 % de de d'adoption

play18:39

dans le dans la communauté machine

play18:41

learning ea tout simplement parce que

play18:43

les outils qu'on construit ils

play18:44

permettent ça voilà et ils permettent de

play18:47

télécharger les modèles de commencer à

play18:48

les tester en en en quelques minutes

play18:51

voilà donc on a notre propre service de

play18:53

déploiement de modèle vous pouvez aussi

play18:55

les déployer sur AWS c'est tout aussi

play18:57

simple on génère même le code que vous

play18:59

devez exécuter pour les déployer donc

play19:02

vous pouvez commencer à tester à évaluer

play19:04

dans votre bac à sable et et à vous

play19:06

faire une idée et puis ensuite voilà

play19:09

tester différents

play19:10

modèles et peut-être ensuite commencer à

play19:13

les entraîner commencer à les

play19:14

spécialiser et avancer mais de manière

play19:16

concrète voilà pas avec des comités de

play19:19

gouvernance ou je sais pas quoi ça c'est

play19:21

bon la la machine

play19:24

bureaucratique oui il faudra s'en

play19:26

occuper mais tant que vous avez pas

play19:28

troué trouver un ou deux modèles qui

play19:30

sont très prometteurs pour résoudre

play19:32

votre problème ça sert à rien de se

play19:34

poser la question de comment on va

play19:35

cocher les cases de la régulation ou

play19:37

comment on va faire plaisir à nos

play19:38

équipes de compliance voilà donc donc ça

play19:41

c'est vraiment la clé moi je vois les

play19:43

clients qui échouent c'est ce he c'est

play19:45

ceux qui qui tournent en haut parce

play19:47

qu'ils ont pas réfléchi vraiment au cas

play19:48

d'usage et puis ceux qui veulent faire

play19:50

une stratégie à 5 ans alors que ils ont

play19:52

un ou de mois d'évaluation à commencé

play19:54

tout de suite voilà le reste c'est nous

play19:56

qui nous en occupons avec nos open

play19:59

source et avec nos partenaires donc l'an

play20:00

prochain on revient il y aura beaucoup

play20:02

plus de bras levés sur utilisation

play20:04

d'Open Source et de de modèle merci

play20:06

beaucoup merci à T merci beaucoup

play20:10

[Musique]

Rate This

5.0 / 5 (0 votes)

Related Tags
オープンソースAIモデルAWSトレーニングコストパフォーマンスファインチューニング技術評価モデル比較クラウドパートナーシップGPU最適化
Do you need a summary in English?