APPRENTISSAGE SUPERVISÉ : LES 4 ÉTAPES - ML#2

Machine Learnia
25 Jun 201908:40

Summary

TLDRDans cette vidéo, les quatre notions fondamentales de l'apprentissage supervisé sont abordées. On commence par expliquer les concepts de dataset, qui inclut une 'target' et des 'features'. Ensuite, la notion de modèle est introduite, avec des paramètres que la machine apprend. On découvre aussi la fonction coût, qui mesure l'erreur entre les prédictions du modèle et les valeurs réelles. Enfin, l'algorithme d'apprentissage, comme la descente de gradient, est utilisé pour minimiser cette erreur et affiner le modèle. Ces notions sont valables pour les problèmes de régression et de classification.

Takeaways

  • 😀 L'apprentissage supervisé est une stratégie de machine learning qui permet à une machine d'apprendre sans être programmée explicitement.
  • 🔍 Un dataset en apprentissage supervisé contient deux types de variables : la variable cible (y) et les features (X) qui influencent la valeur de y.
  • 📊 La convention en machine learning stipule que le nombre d'exemples dans un dataset est représenté par m (nombre de lignes) et le nombre de features par n (nombre de colonnes sans la colonne y).
  • 📐 Pour désigner une cellule spécifique dans un dataset, on utilise la notation (exemple, feature), comme x23 pour la troisième feature du deuxième exemple.
  • 🧠 Un modèle en machine learning est une généralisation des données qui permet de faire des prédictions. Il peut être linéaire, polynomial, etc., et possède des paramètres à apprendre.
  • 📉 La fonction de coût (ou loss function) évalue les erreurs du modèle par rapport aux données de training et est utilisée pour ajuster les paramètres du modèle.
  • 🔍 Un bon modèle est celui qui minimise la fonction de coût, c'est-à-dire les erreurs entre les prédictions du modèle et les valeurs réelles du dataset.
  • 🤖 Les algorithmes d'apprentissage, comme la descente de gradient, sont utilisés pour trouver les paramètres du modèle qui minimisent la fonction de coût.
  • 🔄 Les problèmes de classification en machine learning suivent les mêmes principes que les problèmes de régression, avec des datasets, des modèles, des fonctions de coût et des algorithmes d'apprentissage.
  • 💌 L'auteur propose de recevoir un livre gratuitement par email pour approfondir la compréhension du machine learning en une semaine.

Q & A

  • Qu'est-ce que l'apprentissage supervisé en machine learning ?

    -L'apprentissage supervisé consiste à montrer à la machine des exemples (x, y) et à lui demander de trouver l'association entre x et y, ce qui revient à apprendre une fonction y = f(x).

  • Quelle est la première notion fondamentale en apprentissage supervisé mentionnée dans la vidéo ?

    -La première notion est celle du dataset, qui contient deux types de variables : les 'features' (facteurs explicatifs) et la 'target' (la variable cible que la machine doit apprendre à prédire).

  • Comment les exemples et les features sont-ils représentés dans un dataset ?

    -Les exemples sont représentés par des lignes (appelées m), tandis que les features sont représentées par des colonnes (appelées n) dans une matrice m x n.

  • Qu'est-ce qu'un modèle en machine learning ?

    -Un modèle est une représentation mathématique, comme une fonction linéaire ou polynomiale, qui cherche à relier les features (x) à la target (y).

  • Quels sont les paramètres d'un modèle en apprentissage supervisé ?

    -Les paramètres sont les coefficients du modèle (comme les coefficients d'un polynôme) que la machine doit apprendre à ajuster pour minimiser les erreurs de prédiction.

  • Qu'est-ce que la fonction de coût dans l'apprentissage supervisé ?

    -La fonction de coût mesure l'erreur entre les prédictions du modèle et les vraies valeurs du dataset. Minimiser cette fonction est crucial pour améliorer les performances du modèle.

  • Quel est le rôle des algorithmes d'apprentissage dans le machine learning ?

    -Les algorithmes d'apprentissage, comme la descente de gradient, cherchent à ajuster les paramètres du modèle de manière à minimiser la fonction de coût, et ainsi réduire les erreurs.

  • Quelle différence y a-t-il entre un problème de régression et un problème de classification en machine learning ?

    -Dans un problème de régression, la target (y) est une variable continue, tandis que dans un problème de classification, la target est discrète, comme la prédiction d'une classe (ex : cellule cancéreuse ou non).

  • Comment les erreurs de classification sont-elles traitées par un modèle ?

    -Le modèle ajuste ses paramètres pour minimiser les erreurs en fonction de la fonction de coût, cherchant ainsi à mieux classer les exemples dans les bonnes catégories lors des itérations suivantes.

  • Quels sont les quatre concepts fondamentaux de l'apprentissage supervisé selon la vidéo ?

    -Les quatre concepts fondamentaux sont : le dataset (target et features), le modèle (et ses paramètres), la fonction de coût (qui mesure l'erreur) et l'algorithme d'apprentissage (qui minimise la fonction de coût).

Outlines

00:00

🤖 Principes de l'apprentissage supervisé

Cette partie du script introduit les quatre notions fondamentales de l'apprentissage supervisé en machine learning. L'auteur explique que l'apprentissage supervisé permet à une machine d'apprendre à partir d'exemples sans être programmée explicitement. Le data set est divisé en deux types de variables : la variable cible (y) que l'on souhaite prédire et les features (X) qui influencent cette variable. Le script mentionne également les conventions pour représenter les données et les cellules spécifiques dans un tableau, ainsi que la traduction de ces données en vecteurs et matrices qui seront utilisées dans les prochaines vidéos.

05:02

📊 Modèles et fonctions de coût en apprentissage supervisé

Le script continue sur la notion de modèle en machine learning, qui est un modèle mathématique utilisé pour faire des prédictions à partir des données. Il explique comment les modèles peuvent être linéaires ou polynomials et ont des paramètres à apprendre. Ensuite, il introduit la notion de fonction de coût qui évalue les erreurs faites par le modèle en comparant ses prédictions avec les valeurs réelles du data set. L'objectif est de trouver un modèle qui minimise ces erreurs. L'algorithme de régression de gradient, un outil pour trouver les meilleurs paramètres du modèle, est mentionné en tant qu'algorithme d'apprentissage. Le script conclut en soulignant que ces notions sont essentielles pour comprendre comment fonctionne l'apprentissage supervisé, qu'il s'agisse de régression ou de classification.

Mindmap

Keywords

💡Apprentissage supervisé

L'apprentissage supervisé est une méthode du machine learning où la machine apprend à partir d'exemples étiquetés (x, y), c'est-à-dire des données d'entrée et leurs résultats attendus. Dans la vidéo, cette technique est décrite comme une stratégie où la machine doit apprendre à associer des entrées (features) avec des sorties (target), par exemple pour prédire le prix d'un appartement.

💡Dataset

Un dataset est un ensemble de données utilisé pour entraîner un modèle en apprentissage supervisé. Dans le contexte de la vidéo, il est expliqué qu'un dataset contient deux types de variables : les features (les facteurs qui influencent) et la target (ce que l'on veut prédire). Par exemple, la surface d'un appartement peut être une feature, et le prix de l'appartement est la target.

💡Target variable

La target variable représente l'objectif à prédire dans un dataset d'apprentissage supervisé. Elle est le résultat ou l'étiquette associée aux features. Par exemple, dans le cas d'un dataset pour estimer le prix des appartements, la target variable serait le prix à prédire, tandis que les features pourraient inclure la surface ou l'emplacement.

💡Features

Les features sont les variables d'entrée qui influencent la target dans un modèle d'apprentissage supervisé. Elles représentent les caractéristiques ou les facteurs liés aux données observées. Par exemple, la taille, l'adresse ou la qualité d'un appartement sont des features qui influencent son prix (target) dans le dataset.

💡Modèle

Un modèle en machine learning est une représentation mathématique utilisée pour faire des prédictions à partir de données. Dans la vidéo, il est expliqué que le modèle est choisi par l'utilisateur et qu'il peut être linéaire ou polynômial, par exemple, avec des paramètres que la machine doit apprendre. Un modèle linéaire simple serait f(x) = ax + b.

💡Paramètres

Les paramètres sont les coefficients ajustables d'un modèle qui permettent à la machine de mieux prédire les résultats en fonction des données d'entrée. Dans un modèle linéaire, ces paramètres seraient 'a' et 'b' dans la fonction f(x) = ax + b. Dans la vidéo, il est dit que la machine apprend ces paramètres pour minimiser les erreurs.

💡Fonction coût

La fonction coût mesure l'erreur entre les prédictions du modèle et les résultats réels dans un dataset. C'est un concept fondamental dans l'apprentissage supervisé, car elle permet de quantifier la performance du modèle. L'objectif est de minimiser cette fonction pour que le modèle fasse des prédictions plus précises. Par exemple, si le modèle prédit un prix de 300 000 € pour un appartement alors que le prix réel est de 200 000 €, l'erreur est élevée.

💡Erreur

L'erreur est la différence entre la valeur prédite par le modèle et la vraie valeur dans le dataset. Dans la vidéo, il est expliqué que la fonction coût est une somme de ces erreurs, et que l'objectif de l'apprentissage est de minimiser ces erreurs pour améliorer les prédictions du modèle.

💡Algorithme d'apprentissage

L'algorithme d'apprentissage est la méthode utilisée pour ajuster les paramètres d'un modèle afin de minimiser la fonction coût. L'exemple le plus connu dans la vidéo est l'algorithme de descente de gradient (gradient descent), qui ajuste progressivement les paramètres pour réduire les erreurs entre les prédictions et les vraies valeurs.

💡Descente de gradient

La descente de gradient est un algorithme d'optimisation utilisé pour ajuster les paramètres d'un modèle et minimiser la fonction coût. Dans la vidéo, cet algorithme est mentionné comme une méthode populaire pour trouver les paramètres optimaux qui réduisent l'erreur de prédiction dans un modèle supervisé.

Highlights

Présentation des quatre notions fondamentales de l'apprentissage supervisé.

Introduction au machine learning : donner à une machine la capacité d'apprendre sans la programmer explicitement.

Définition du dataset en apprentissage supervisé, qui contient la target (variable cible) et les features (facteurs influençant la target).

Présentation de la première notion fondamentale : le dataset et sa composition de variables cibles et de facteurs.

Explication des conventions de notation en machine learning, notamment pour les exemples et les features dans un dataset.

Utilisation de matrices et vecteurs pour représenter les datasets en machine learning.

Présentation de la deuxième notion fondamentale : le modèle, qui permet de prédire la target à partir des features.

Présentation de différents types de modèles, y compris le modèle linéaire et le modèle polynomial.

Définition des paramètres du modèle, qui sont ajustés par la machine pour optimiser les prédictions.

Présentation de la troisième notion fondamentale : la fonction coût, qui mesure l'erreur entre les prédictions du modèle et les valeurs réelles.

Explication de l'importance de minimiser la fonction coût pour améliorer la précision du modèle.

Présentation de la quatrième notion fondamentale : l'algorithme d'apprentissage, comme la descente de gradient, pour ajuster les paramètres du modèle.

Exemple d'un problème de régression pour illustrer les notions de modèle et de fonction coût.

Mention des problèmes de classification en machine learning et des notions similaires utilisées pour prédire si une cellule est cancéreuse ou non.

Résumé des quatre notions fondamentales : dataset, modèle, fonction coût et algorithme d'apprentissage.

Transcripts

play00:00

dans cette vidéo je vais vous dévoiler

play00:01

les quatre notions fondamentales de

play00:04

l'apprentissage supervisé qui vous faut

play00:06

absolument connaître et que pourtant la

play00:08

grande majorité des gens ignorent

play00:10

complètement

play00:10

c'est parti dans la première vidéo on a

play00:17

vu que le machine learning ça consiste à

play00:19

donner à une machine la capacité

play00:21

d'apprendre sans l'a programmée de façon

play00:23

explicite

play00:24

une des stratégies qu'on peut utiliser

play00:25

c'est l'apprentissage supervisé qui

play00:28

consiste à montrer à la machine des

play00:30

exemples x y et à lui demander de

play00:33

trouver l'association qui relie x ou y

play00:36

en fait une association y égale f 2 x

play00:39

ces exemples qu'on lui montre on a dit

play00:41

qu'on les mettait dans un data 7

play00:43

et c'est là notre première notion

play00:45

fondamentale de l'apprentissage

play00:46

superviser en apprentissage superviser

play00:49

d'autres dates à 7 contient toujours

play00:50

deux types de variables d'un côté en à

play00:53

la target variable c'est notre objectif

play00:55

c'est ce qu'on veut que la machine

play00:57

apprennent à prédire par exemple prix

play01:00

d'un appartement

play01:01

le cours de la bourse identifier si un

play01:04

email est un spam ou pain spam et de

play01:06

l'autre côté on a les filles cheers

play01:09

les facteurs ce qui viennent influencer

play01:11

la valeur de y

play01:12

on peut dire que y est une fonction de

play01:15

toutes ces features y égale f 2 x 1 et

play01:18

du 2 x 3 par exemple on peut dire x ans

play01:20

et la surface d'un appartement il 2

play01:22

c'est la qualité de l'appartement x3

play01:24

c'est l'adresse postale etc etc alors

play01:27

une chose que vous devez savoir c'est

play01:29

que par convention en othe petit m

play01:31

le nombre d'exemples qu'on a dans notre

play01:34

data 7 c'est à dire le nombre de lignes

play01:36

et on va aussi noté petit end le nom de

play01:39

fischer qu'on a dans le data 7 c'est à

play01:41

dire le nombre de colonnes hormis la

play01:44

colonne y une autre convention qu'on a

play01:47

en machine learning c'est que pour

play01:49

désigner une cellule en particulier dans

play01:52

notre date 7 par exemple cette cellule

play01:54

eh bien on va noter le numéro de

play01:58

l'exemple au dessus du xe et le numéro

play02:01

de la feature en dessous par exemple

play02:03

cette cellule c'est la cellule x-23 donc

play02:06

c'est la troisième fille tueur

play02:08

deuxième exemple qu'on a dans notre data

play02:11

7 donc au final quand vous ferez du

play02:13

machine learning vous verrez toujours

play02:14

des dates à 7 qui ressemble à ça ou au

play02:17

moment de les traduire en vecteur et en

play02:20

figures et bien on aura un vecteur

play02:22

target y qui sera un vecteur avec m

play02:25

ligne c'est à dire m éléments et on aura

play02:28

une matrice 6 am ligne et n colonnes non

play02:32

plus une matrice m x n qui ressemblera à

play02:35

ça et on va utiliser ces vecteurs et ses

play02:37

matrices dans les prochaines vidéos vous

play02:39

verrez ce sera extrêmement important en

play02:40

machine learning la deuxième notions

play02:42

fondamentales en sup vase learning c'est

play02:45

la notion de modèle en effet à partir du

play02:47

data 7 on peut visualiser un nuage de

play02:49

points et on peut se dire bah on

play02:51

pourrait créer un modèle un modèle par

play02:52

exemple linéaire quelqu'un on aurait un

play02:54

modèle f 2 x égal à x + b une simple

play02:59

fonction affine telle qu'on la prend au

play03:00

collège mais on pourrait se dire non un

play03:02

modèle on dirait qu'un modèle

play03:03

polynomiale ça rentre un petit peu mieux

play03:05

dans notre nuage de points ok kaba on

play03:07

aura un polynôme 2° d'eau ax carré plus

play03:10

bas peut-être bx plus et on n'en sait

play03:12

rien ou bien un polynôme de degré 3

play03:16

auquel cas on aura b x cube

play03:18

vous comprenez idée on a un modèle et ce

play03:21

modèle il a ce qu'on appelle des

play03:24

paramètres

play03:24

ça ce sont les coefficients de notre

play03:27

polynôme abcd autant de coefficient

play03:30

qu'on a ça c'est ce qu'on appelle donc

play03:32

les paramètres et c'est notre deuxième

play03:35

notions fondamentales du super vague

play03:38

learning le modèle et c'est le paramètre

play03:40

il est important de préciser que c'est

play03:42

nous qui décidons

play03:43

quel modèle la machine doit utiliser et

play03:46

vous verrez que c'est la machine qui

play03:47

doit apprendre les paramètres de ce

play03:49

modèle la troisième notions

play03:52

fondamentales en superbike herning c'est

play03:54

la notion de fonctions coup ce modèle

play03:57

canton l'utilisent par rapport à notre

play03:59

data 7 puis nous donne des erreurs en

play04:02

effet si on considère par exemple cet

play04:04

appartement qui avait une surface de

play04:06

dire 150 m² et bien dans notre data 7 on

play04:11

avait un point ici qui nous montre que

play04:16

cet appartement valait peut-être

play04:17

simplement deux cent mille euros

play04:19

mais notre modèle étant une

play04:22

généralisation de l'ensemble des points

play04:24

qu'on a à disposition de la dette à 7

play04:27

il prédit une valeur bien supérieure

play04:30

il prédit une valeur de peut-être et

play04:32

bien trois cent mille euros

play04:33

eh bien on va dire qu'il ya une erreur

play04:35

par rapport à cette donnée qu'on avait

play04:37

dans le data 7 qui est y est notre

play04:40

prédiction f 2 x et ses erreurs et cette

play04:44

erreur et bien on peut la trouver sur

play04:45

tous les points de notre e dataset quand

play04:48

on les assemble toutes ensemble de ses

play04:50

erreurs et on donne ce qu'on appelle la

play04:52

fonction coup et c'est donc notre

play04:54

troisième notions fondamentales en

play04:56

apprentissage superviser allons droit au

play04:59

but

play04:59

avoir un bon modèle c'est avoir un

play05:02

modèle qui nous donnent de petites

play05:03

erreurs logiques et bien c'est là la 4e

play05:08

notions fondamentales de l'apprentissage

play05:10

superviser et peut-être une des notions

play05:12

les plus importantes du machine learning

play05:14

la notion d'algorithmes d'apprentissage

play05:17

machine learning

play05:18

on va développer une stratégie qui

play05:21

cherche à trouver quels sont les

play05:23

paramètres a b c d et c qui minimisent

play05:27

la fonction coup c'est à dire qu'ils

play05:31

minimisent l'ensemble de nos erreurs

play05:33

pour minimiser cette fonction coup donc

play05:35

on utilise un algorithme d'apprentissage

play05:37

et il en existe beaucoup

play05:39

un des plus connus c'est l'algorithme de

play05:42

la descente de gradient ce que les

play05:43

doubles et appelle grayden descent et on

play05:46

verra dans les prochaines vidéos comment

play05:47

l'utiliser bon là j'ai pu vous illustrer

play05:50

ces quatre notion avec un exemple de

play05:52

problèmes de régression mais

play05:54

rappelez-vous en machine learning il

play05:55

existe aussi les problèmes de

play05:56

classification et bien on va exactement

play05:58

retrouver les mêmes notions dans un

play06:00

problème de classification par exemple

play06:02

si vous cherchez à prédire si une

play06:04

cellule est une cellule cancéreuse ou

play06:06

non vous allez rassemblé 1 dataset de

play06:10

cellules que vous avez pu observer

play06:12

certaines seront des cellules

play06:15

cancéreuses ou quelqu'un on dira que y

play06:16

vaut en est d'autres secondes

play06:19

non cancéreuses auquel cas on dira que y

play06:21

vos héros puis vous regarderez comme ça

play06:23

des données selon différents facteurs

play06:25

peut être un premier facteur qui est la

play06:27

taille de la cellule

play06:28

un autre facteur qui est la taille du

play06:30

noyau etc etc

play06:32

et puis vous récolterez dénombre

play06:33

associés à ces exemples vous donnerez un

play06:36

modèle avec des paramètres que la

play06:38

machine devra apprendre avec les

play06:39

paramètres complètement random

play06:41

complètement aléatoire au début ce

play06:44

modèle il ira peut-être bon bah tout ce

play06:46

qui est de ce côté là c'est du bleu et

play06:48

tout ce qui est de ce côté là c'est du

play06:49

rouge puis la machine verra qu'elle aura

play06:51

une fonction coup un petit peu élevés

play06:53

parce que elle aura mal classés deux

play06:56

cellules

play06:56

parmi les exemples qui a dans le data

play06:59

cette algérie que ces deux cellules qui

play07:01

sont censés être des cellules non

play07:02

cancéreuse et qui ont été classés comme

play07:04

des cellules cancéreuses sont une erreur

play07:06

du coup elle modifiera un petit peu les

play07:12

paramètres dans son modèle afin de

play07:14

minimiser cette fonction coup et elle

play07:16

trouvera un modèle qui ressemblera aux

play07:20

suivante dans lequel ni ramon bas tout

play07:22

ce qui est de ce côté c'est bleu tout ce

play07:23

qu'ils seront de ce côté là celle rouge

play07:25

et du coup elle aura appris à prédire si

play07:28

une cellule est une cellule est une

play07:29

cellule cancéreuse ou non

play07:31

donc ce que vous devez bien retenir ce

play07:34

sont des quatre notions fondamentales en

play07:36

sup vague learning la notion de dataset

play07:38

qui contient toujours deux types de

play07:40

variables la target et les phishers la

play07:43

notion de modèle que vous donnez à la

play07:46

machine avec les paramètres que la

play07:47

machine doit apprendre la notion de

play07:50

fonctions cookies et l'ensemble des

play07:51

erreurs entre les prédictions de votre

play07:54

modèle et les vraies valeurs du data 7

play07:57

et la notion d'algorithmes

play07:59

d'apprentissage qui cherchent à

play08:00

minimiser la fonction coup en trouvant

play08:03

quels sont les meilleurs paramètres a b

play08:05

c etc

play08:07

en complément vous êtes libre ne

play08:09

recevoir par email une copie de mon

play08:10

livre à prendre le machine learning en

play08:12

une semaine

play08:13

pour cela tout ce que vous avez faire

play08:14

cliquer sur le lien qui dans la

play08:16

description

play08:16

n'hésitez pas à vous abonner c'est le

play08:19

meilleur moyen pour me soutenir et

play08:20

m'encourager

play08:21

c'est complètement gratuit à bientôt

play08:22

pour une prochaine vidéo ciao

play08:25

[Musique]

play08:33

l'ati

play08:34

oh

play08:36

[Musique]

Rate This

5.0 / 5 (0 votes)

الوسوم ذات الصلة
Apprentissage SuperviséMachine LearningModèles LinéairesFonction de PerteAlgorithmes d'ApprentissageDonnées StructuréesPrédictionsClassificationRégressionParamètres du Modèle
هل تحتاج إلى تلخيص باللغة الإنجليزية؟