APPRENTISSAGE SUPERVISÉ : LES 4 ÉTAPES - ML#2
Summary
TLDRDans cette vidéo, les quatre notions fondamentales de l'apprentissage supervisé sont abordées. On commence par expliquer les concepts de dataset, qui inclut une 'target' et des 'features'. Ensuite, la notion de modèle est introduite, avec des paramètres que la machine apprend. On découvre aussi la fonction coût, qui mesure l'erreur entre les prédictions du modèle et les valeurs réelles. Enfin, l'algorithme d'apprentissage, comme la descente de gradient, est utilisé pour minimiser cette erreur et affiner le modèle. Ces notions sont valables pour les problèmes de régression et de classification.
Takeaways
- 😀 L'apprentissage supervisé est une stratégie de machine learning qui permet à une machine d'apprendre sans être programmée explicitement.
- 🔍 Un dataset en apprentissage supervisé contient deux types de variables : la variable cible (y) et les features (X) qui influencent la valeur de y.
- 📊 La convention en machine learning stipule que le nombre d'exemples dans un dataset est représenté par m (nombre de lignes) et le nombre de features par n (nombre de colonnes sans la colonne y).
- 📐 Pour désigner une cellule spécifique dans un dataset, on utilise la notation (exemple, feature), comme x23 pour la troisième feature du deuxième exemple.
- 🧠 Un modèle en machine learning est une généralisation des données qui permet de faire des prédictions. Il peut être linéaire, polynomial, etc., et possède des paramètres à apprendre.
- 📉 La fonction de coût (ou loss function) évalue les erreurs du modèle par rapport aux données de training et est utilisée pour ajuster les paramètres du modèle.
- 🔍 Un bon modèle est celui qui minimise la fonction de coût, c'est-à-dire les erreurs entre les prédictions du modèle et les valeurs réelles du dataset.
- 🤖 Les algorithmes d'apprentissage, comme la descente de gradient, sont utilisés pour trouver les paramètres du modèle qui minimisent la fonction de coût.
- 🔄 Les problèmes de classification en machine learning suivent les mêmes principes que les problèmes de régression, avec des datasets, des modèles, des fonctions de coût et des algorithmes d'apprentissage.
- 💌 L'auteur propose de recevoir un livre gratuitement par email pour approfondir la compréhension du machine learning en une semaine.
Q & A
Qu'est-ce que l'apprentissage supervisé en machine learning ?
-L'apprentissage supervisé consiste à montrer à la machine des exemples (x, y) et à lui demander de trouver l'association entre x et y, ce qui revient à apprendre une fonction y = f(x).
Quelle est la première notion fondamentale en apprentissage supervisé mentionnée dans la vidéo ?
-La première notion est celle du dataset, qui contient deux types de variables : les 'features' (facteurs explicatifs) et la 'target' (la variable cible que la machine doit apprendre à prédire).
Comment les exemples et les features sont-ils représentés dans un dataset ?
-Les exemples sont représentés par des lignes (appelées m), tandis que les features sont représentées par des colonnes (appelées n) dans une matrice m x n.
Qu'est-ce qu'un modèle en machine learning ?
-Un modèle est une représentation mathématique, comme une fonction linéaire ou polynomiale, qui cherche à relier les features (x) à la target (y).
Quels sont les paramètres d'un modèle en apprentissage supervisé ?
-Les paramètres sont les coefficients du modèle (comme les coefficients d'un polynôme) que la machine doit apprendre à ajuster pour minimiser les erreurs de prédiction.
Qu'est-ce que la fonction de coût dans l'apprentissage supervisé ?
-La fonction de coût mesure l'erreur entre les prédictions du modèle et les vraies valeurs du dataset. Minimiser cette fonction est crucial pour améliorer les performances du modèle.
Quel est le rôle des algorithmes d'apprentissage dans le machine learning ?
-Les algorithmes d'apprentissage, comme la descente de gradient, cherchent à ajuster les paramètres du modèle de manière à minimiser la fonction de coût, et ainsi réduire les erreurs.
Quelle différence y a-t-il entre un problème de régression et un problème de classification en machine learning ?
-Dans un problème de régression, la target (y) est une variable continue, tandis que dans un problème de classification, la target est discrète, comme la prédiction d'une classe (ex : cellule cancéreuse ou non).
Comment les erreurs de classification sont-elles traitées par un modèle ?
-Le modèle ajuste ses paramètres pour minimiser les erreurs en fonction de la fonction de coût, cherchant ainsi à mieux classer les exemples dans les bonnes catégories lors des itérations suivantes.
Quels sont les quatre concepts fondamentaux de l'apprentissage supervisé selon la vidéo ?
-Les quatre concepts fondamentaux sont : le dataset (target et features), le modèle (et ses paramètres), la fonction de coût (qui mesure l'erreur) et l'algorithme d'apprentissage (qui minimise la fonction de coût).
Outlines
🤖 Principes de l'apprentissage supervisé
Cette partie du script introduit les quatre notions fondamentales de l'apprentissage supervisé en machine learning. L'auteur explique que l'apprentissage supervisé permet à une machine d'apprendre à partir d'exemples sans être programmée explicitement. Le data set est divisé en deux types de variables : la variable cible (y) que l'on souhaite prédire et les features (X) qui influencent cette variable. Le script mentionne également les conventions pour représenter les données et les cellules spécifiques dans un tableau, ainsi que la traduction de ces données en vecteurs et matrices qui seront utilisées dans les prochaines vidéos.
📊 Modèles et fonctions de coût en apprentissage supervisé
Le script continue sur la notion de modèle en machine learning, qui est un modèle mathématique utilisé pour faire des prédictions à partir des données. Il explique comment les modèles peuvent être linéaires ou polynomials et ont des paramètres à apprendre. Ensuite, il introduit la notion de fonction de coût qui évalue les erreurs faites par le modèle en comparant ses prédictions avec les valeurs réelles du data set. L'objectif est de trouver un modèle qui minimise ces erreurs. L'algorithme de régression de gradient, un outil pour trouver les meilleurs paramètres du modèle, est mentionné en tant qu'algorithme d'apprentissage. Le script conclut en soulignant que ces notions sont essentielles pour comprendre comment fonctionne l'apprentissage supervisé, qu'il s'agisse de régression ou de classification.
Mindmap
Keywords
💡Apprentissage supervisé
💡Dataset
💡Target variable
💡Features
💡Modèle
💡Paramètres
💡Fonction coût
💡Erreur
💡Algorithme d'apprentissage
💡Descente de gradient
Highlights
Présentation des quatre notions fondamentales de l'apprentissage supervisé.
Introduction au machine learning : donner à une machine la capacité d'apprendre sans la programmer explicitement.
Définition du dataset en apprentissage supervisé, qui contient la target (variable cible) et les features (facteurs influençant la target).
Présentation de la première notion fondamentale : le dataset et sa composition de variables cibles et de facteurs.
Explication des conventions de notation en machine learning, notamment pour les exemples et les features dans un dataset.
Utilisation de matrices et vecteurs pour représenter les datasets en machine learning.
Présentation de la deuxième notion fondamentale : le modèle, qui permet de prédire la target à partir des features.
Présentation de différents types de modèles, y compris le modèle linéaire et le modèle polynomial.
Définition des paramètres du modèle, qui sont ajustés par la machine pour optimiser les prédictions.
Présentation de la troisième notion fondamentale : la fonction coût, qui mesure l'erreur entre les prédictions du modèle et les valeurs réelles.
Explication de l'importance de minimiser la fonction coût pour améliorer la précision du modèle.
Présentation de la quatrième notion fondamentale : l'algorithme d'apprentissage, comme la descente de gradient, pour ajuster les paramètres du modèle.
Exemple d'un problème de régression pour illustrer les notions de modèle et de fonction coût.
Mention des problèmes de classification en machine learning et des notions similaires utilisées pour prédire si une cellule est cancéreuse ou non.
Résumé des quatre notions fondamentales : dataset, modèle, fonction coût et algorithme d'apprentissage.
Transcripts
dans cette vidéo je vais vous dévoiler
les quatre notions fondamentales de
l'apprentissage supervisé qui vous faut
absolument connaître et que pourtant la
grande majorité des gens ignorent
complètement
c'est parti dans la première vidéo on a
vu que le machine learning ça consiste à
donner à une machine la capacité
d'apprendre sans l'a programmée de façon
explicite
une des stratégies qu'on peut utiliser
c'est l'apprentissage supervisé qui
consiste à montrer à la machine des
exemples x y et à lui demander de
trouver l'association qui relie x ou y
en fait une association y égale f 2 x
ces exemples qu'on lui montre on a dit
qu'on les mettait dans un data 7
et c'est là notre première notion
fondamentale de l'apprentissage
superviser en apprentissage superviser
d'autres dates à 7 contient toujours
deux types de variables d'un côté en à
la target variable c'est notre objectif
c'est ce qu'on veut que la machine
apprennent à prédire par exemple prix
d'un appartement
le cours de la bourse identifier si un
email est un spam ou pain spam et de
l'autre côté on a les filles cheers
les facteurs ce qui viennent influencer
la valeur de y
on peut dire que y est une fonction de
toutes ces features y égale f 2 x 1 et
du 2 x 3 par exemple on peut dire x ans
et la surface d'un appartement il 2
c'est la qualité de l'appartement x3
c'est l'adresse postale etc etc alors
une chose que vous devez savoir c'est
que par convention en othe petit m
le nombre d'exemples qu'on a dans notre
data 7 c'est à dire le nombre de lignes
et on va aussi noté petit end le nom de
fischer qu'on a dans le data 7 c'est à
dire le nombre de colonnes hormis la
colonne y une autre convention qu'on a
en machine learning c'est que pour
désigner une cellule en particulier dans
notre date 7 par exemple cette cellule
eh bien on va noter le numéro de
l'exemple au dessus du xe et le numéro
de la feature en dessous par exemple
cette cellule c'est la cellule x-23 donc
c'est la troisième fille tueur
deuxième exemple qu'on a dans notre data
7 donc au final quand vous ferez du
machine learning vous verrez toujours
des dates à 7 qui ressemble à ça ou au
moment de les traduire en vecteur et en
figures et bien on aura un vecteur
target y qui sera un vecteur avec m
ligne c'est à dire m éléments et on aura
une matrice 6 am ligne et n colonnes non
plus une matrice m x n qui ressemblera à
ça et on va utiliser ces vecteurs et ses
matrices dans les prochaines vidéos vous
verrez ce sera extrêmement important en
machine learning la deuxième notions
fondamentales en sup vase learning c'est
la notion de modèle en effet à partir du
data 7 on peut visualiser un nuage de
points et on peut se dire bah on
pourrait créer un modèle un modèle par
exemple linéaire quelqu'un on aurait un
modèle f 2 x égal à x + b une simple
fonction affine telle qu'on la prend au
collège mais on pourrait se dire non un
modèle on dirait qu'un modèle
polynomiale ça rentre un petit peu mieux
dans notre nuage de points ok kaba on
aura un polynôme 2° d'eau ax carré plus
bas peut-être bx plus et on n'en sait
rien ou bien un polynôme de degré 3
auquel cas on aura b x cube
vous comprenez idée on a un modèle et ce
modèle il a ce qu'on appelle des
paramètres
ça ce sont les coefficients de notre
polynôme abcd autant de coefficient
qu'on a ça c'est ce qu'on appelle donc
les paramètres et c'est notre deuxième
notions fondamentales du super vague
learning le modèle et c'est le paramètre
il est important de préciser que c'est
nous qui décidons
quel modèle la machine doit utiliser et
vous verrez que c'est la machine qui
doit apprendre les paramètres de ce
modèle la troisième notions
fondamentales en superbike herning c'est
la notion de fonctions coup ce modèle
canton l'utilisent par rapport à notre
data 7 puis nous donne des erreurs en
effet si on considère par exemple cet
appartement qui avait une surface de
dire 150 m² et bien dans notre data 7 on
avait un point ici qui nous montre que
cet appartement valait peut-être
simplement deux cent mille euros
mais notre modèle étant une
généralisation de l'ensemble des points
qu'on a à disposition de la dette à 7
il prédit une valeur bien supérieure
il prédit une valeur de peut-être et
bien trois cent mille euros
eh bien on va dire qu'il ya une erreur
par rapport à cette donnée qu'on avait
dans le data 7 qui est y est notre
prédiction f 2 x et ses erreurs et cette
erreur et bien on peut la trouver sur
tous les points de notre e dataset quand
on les assemble toutes ensemble de ses
erreurs et on donne ce qu'on appelle la
fonction coup et c'est donc notre
troisième notions fondamentales en
apprentissage superviser allons droit au
but
avoir un bon modèle c'est avoir un
modèle qui nous donnent de petites
erreurs logiques et bien c'est là la 4e
notions fondamentales de l'apprentissage
superviser et peut-être une des notions
les plus importantes du machine learning
la notion d'algorithmes d'apprentissage
machine learning
on va développer une stratégie qui
cherche à trouver quels sont les
paramètres a b c d et c qui minimisent
la fonction coup c'est à dire qu'ils
minimisent l'ensemble de nos erreurs
pour minimiser cette fonction coup donc
on utilise un algorithme d'apprentissage
et il en existe beaucoup
un des plus connus c'est l'algorithme de
la descente de gradient ce que les
doubles et appelle grayden descent et on
verra dans les prochaines vidéos comment
l'utiliser bon là j'ai pu vous illustrer
ces quatre notion avec un exemple de
problèmes de régression mais
rappelez-vous en machine learning il
existe aussi les problèmes de
classification et bien on va exactement
retrouver les mêmes notions dans un
problème de classification par exemple
si vous cherchez à prédire si une
cellule est une cellule cancéreuse ou
non vous allez rassemblé 1 dataset de
cellules que vous avez pu observer
certaines seront des cellules
cancéreuses ou quelqu'un on dira que y
vaut en est d'autres secondes
non cancéreuses auquel cas on dira que y
vos héros puis vous regarderez comme ça
des données selon différents facteurs
peut être un premier facteur qui est la
taille de la cellule
un autre facteur qui est la taille du
noyau etc etc
et puis vous récolterez dénombre
associés à ces exemples vous donnerez un
modèle avec des paramètres que la
machine devra apprendre avec les
paramètres complètement random
complètement aléatoire au début ce
modèle il ira peut-être bon bah tout ce
qui est de ce côté là c'est du bleu et
tout ce qui est de ce côté là c'est du
rouge puis la machine verra qu'elle aura
une fonction coup un petit peu élevés
parce que elle aura mal classés deux
cellules
parmi les exemples qui a dans le data
cette algérie que ces deux cellules qui
sont censés être des cellules non
cancéreuse et qui ont été classés comme
des cellules cancéreuses sont une erreur
du coup elle modifiera un petit peu les
paramètres dans son modèle afin de
minimiser cette fonction coup et elle
trouvera un modèle qui ressemblera aux
suivante dans lequel ni ramon bas tout
ce qui est de ce côté c'est bleu tout ce
qu'ils seront de ce côté là celle rouge
et du coup elle aura appris à prédire si
une cellule est une cellule est une
cellule cancéreuse ou non
donc ce que vous devez bien retenir ce
sont des quatre notions fondamentales en
sup vague learning la notion de dataset
qui contient toujours deux types de
variables la target et les phishers la
notion de modèle que vous donnez à la
machine avec les paramètres que la
machine doit apprendre la notion de
fonctions cookies et l'ensemble des
erreurs entre les prédictions de votre
modèle et les vraies valeurs du data 7
et la notion d'algorithmes
d'apprentissage qui cherchent à
minimiser la fonction coup en trouvant
quels sont les meilleurs paramètres a b
c etc
en complément vous êtes libre ne
recevoir par email une copie de mon
livre à prendre le machine learning en
une semaine
pour cela tout ce que vous avez faire
cliquer sur le lien qui dans la
description
n'hésitez pas à vous abonner c'est le
meilleur moyen pour me soutenir et
m'encourager
c'est complètement gratuit à bientôt
pour une prochaine vidéo ciao
[Musique]
l'ati
oh
[Musique]
Voir Plus de Vidéos Connexes
Fixed price VS Agile (time material) approach
Analyser une Pièce de Théâtre : Les notions à connaître
NSI - PROTOCOLE TCP/IP - MODELE OSI
Comprendre les modèles OSI et TCP/IP
Distinction Sûretés Réelles et Sûretés Personnelles : [Droit des sûretés]
12 auteurs de management à connaitre absolument pour l'épreuve de CEJM
5.0 / 5 (0 votes)