Week 3 -- Capsule 1 -- Nearest Neighbor

MATH-ML1
3 Sept 202019:04

Summary

TLDRDans ce script, l'introduction au machine learning supervisé est abordée, notamment le modèle 'nearest neighbor'. Le focus est sur les modèles linéaires, principalement pour la classification, bien que mentionnant leur extension à la régression et l'estimation de densité. Les modèles sont divisés en modèles non-probabilistes (comme 'nearest neighbor' et 'support vector machines') et modèles probabilistes (comme 'naive bayes'). L'approche 'nearest neighbor' est expliquée, y compris la sélection du nombre de voisins (hyperparamètre k) à l'aide d'un ensemble de validation pour optimiser les performances. Les avantages et les défis de l'utilisation de 'nearest neighbor', notamment la nécessité de stocker l'ensemble des données et la robustesse en présence d'outliers, sont discutés.

Takeaways

  • 📚 Cette semaine, nous introduisons l'apprentissage supervisé et le modèle d'apprentissage supervisé appelé 'plus proche voisin'.
  • 🔍 Nous allons explorer différents modèles d'apprentissage supervisé, principalement linéaires, avec un focus sur la classification, bien que ces modèles puissent être étendus à la régression ou à l'estimation de densité.
  • 🏫 Nous aborderons deux types de modèles : les modèles non-probabilistes (comme le plus proche voisin et les machines à vecteurs de soutien) et les modèles probabilistes (notamment le modèle de Bayes naïf).
  • 🏠 Dans l'apprentissage supervisé, nous avons un ensemble de caractéristiques ou de fonctionnalités et une cible, appelée 'y', qui peut être une classification (par exemple, la rapidité de vente d'une maison).
  • 🔍 Le modèle 'plus proche voisin' (KNN) est un modèle non paramétrique simple et puissant qui ne nécessite pas de phase d'apprentissage : il utilise les instances d'apprentissage pour prédire les voisins du test.
  • 🔢 Le KNN peut être étendu au 'k plus proches voisins', où une nouvelle instance est classée selon le vote majoritaire de ses 'k' voisins les plus proches.
  • 🔧 Le choix du paramètre 'k' est crucial et peut être optimisé à l'aide d'un jeu de validation pour trouver la valeur qui donne la meilleure performance.
  • 📈 L'utilisation de 'k' plus élevé peut rendre la frontière de décision plus lisse, tandis que 'k' plus faible peut être moins robuste face aux bruits ou aux valeurs atypiques.
  • 💾 Le KNN est un approche non paramétrique qui nécessite de stocker l'ensemble des données d'apprentissage et peut être coûteux en termes de recherche des voisins les plus proches.
  • 🔄 Les bibliothèques telles que scikit-learn permettent des recherches plus rapides des voisins les plus proches, parfois en utilisant des approximations ou en prétraitant les données pour une recherche plus efficace.

Q & A

  • Quel est le modèle d'apprentissage supervisé introduit en premier dans le script ?

    -Le premier modèle d'apprentissage supervisé introduit est le modèle 'nearest neighbor'.

  • Quels sont les deux types de modèles d'apprentissage supervisé abordés dans le script ?

    -Les deux types de modèles d'apprentissage supervisé abordés sont les modèles non-probabilistes, y compris les voisins les plus proches et les machines à vecteurs de soutien, et les modèles probabilistes, en particulier les modèles de Bayes naïfs.

  • Pourquoi le modèle 'nearest neighbor' est-il choisi comme premier modèle dans le script ?

    -Le modèle 'nearest neighbor' est choisi en premier parce qu'il est conceptuellement très simple et qu'il est un modèle puissant.

  • Comment fonctionne le modèle 'nearest neighbor' pour la classification ?

    -Le modèle 'nearest neighbor' classe une instance en fonction de son voisin le plus proche pour le '1 nearest neighbor' ou en fonction du vote majoritaire de ses 'k' voisins les plus proches pour le 'k nearest neighbor'.

  • Quelle est la différence entre le '1 nearest neighbor' et le 'k nearest neighbor' ?

    -Le '1 nearest neighbor' classe une instance selon son premier voisin le plus proche, tandis que le 'k nearest neighbor' classe une instance selon le vote majoritaire de ses 'k' voisins les plus proches.

  • Comment le choix de 'k' affecte-t-il la performance du modèle 'nearest neighbor' ?

    -Le choix de 'k' est un hyperparamètre qui affecte fortement la performance du modèle. Un 'k' trop petit peut être peu robuste, tandis qu'un 'k' trop grand peut sur-ajuster au jeu de données d'apprentissage.

  • Quels sont les défis associés à l'utilisation du modèle 'nearest neighbor' ?

    -Les défis incluent la nécessité de stocker l'ensemble du jeu de données, la recherche des voisins les plus proches qui peut être coûteuse, et les performances réduites en présence de données à haute dimension en raison du phénomène de 'curse of dimensionality'.

  • Comment le modèle 'nearest neighbor' peut-il être étendu au-delà de la classification ?

    -Le modèle 'nearest neighbor' peut être étendu aux problèmes de régression en prenant par exemple la moyenne des valeurs des voisins les plus proches pour prédire une cible continue.

  • Quelle est la garantie théorique fournie par le script concernant le modèle 'nearest neighbor' ?

    -Si le jeu de données d'apprentissage tend vers l'infini et que 'k' est égal à un, l'erreur de test est limitée par deux fois l'erreur optimale.

  • Comment le script suggère-t-il de choisir le meilleur 'k' pour le modèle 'nearest neighbor' ?

    -Le script suggère d'utiliser un jeu de validation pour essayer différentes valeurs de 'k' et de choisir celle qui donne les meilleurs résultats sur ce jeu de validation.

Outlines

plate

Cette section est réservée aux utilisateurs payants. Améliorez votre compte pour accéder à cette section.

Améliorer maintenant

Mindmap

plate

Cette section est réservée aux utilisateurs payants. Améliorez votre compte pour accéder à cette section.

Améliorer maintenant

Keywords

plate

Cette section est réservée aux utilisateurs payants. Améliorez votre compte pour accéder à cette section.

Améliorer maintenant

Highlights

plate

Cette section est réservée aux utilisateurs payants. Améliorez votre compte pour accéder à cette section.

Améliorer maintenant

Transcripts

plate

Cette section est réservée aux utilisateurs payants. Améliorez votre compte pour accéder à cette section.

Améliorer maintenant
Rate This

5.0 / 5 (0 votes)

Étiquettes Connexes
Apprentissage SuperviséModèle K-NNClassificationMachine LearningModèles LinéairesRégresseionEstimation de DensitéApprentissage Non-ParamétriqueSélection de KValidation de Modèle