I Trained AI to Predict Sports

Green Code

10 Mar 202511:20

Summary

TLDRDans cette vidéo, le créateur explore l'utilisation de l'apprentissage automatique pour prédire les résultats des matchs de tennis en construisant un arbre de décision et une forêt aléatoire à partir de 95 000 matchs ATP. Après avoir nettoyé les données et introduit les cotes ELO spécifiques à chaque surface, il utilise XGBoost pour améliorer la précision des prédictions, atteignant 85 %. Le modèle a correctement prédit les résultats de l'Open d'Australie 2024, y compris le vainqueur Jannik Sinner. Une suite pourrait prédire le champion de Wimbledon, selon l'intérêt des spectateurs.

Takeaways

😀 L'algorithme Random Forest est un modèle d'apprentissage automatique puissant basé sur des arbres de décision.
😀 Le créateur de la vidéo utilise des données de matchs de tennis pour entraîner le modèle et prédire les résultats des matchs.
😀 Les données utilisées proviennent de l'ensemble des matchs ATP de 1981 à 2024, comprenant des statistiques détaillées sur les joueurs.
😀 Le modèle commence par la création d'un arbre de décision basique, basé sur des critères comme la classe des passagers dans le Titanic pour illustrer son fonctionnement.
😀 Un arbre de décision divise les données en fonction des meilleures variables de séparation, telles que la classe du passager, le sexe, etc.
😀 Les données de tennis sont nettoyées, combinées et enrichies avec des statistiques comme les différences d'âge et de taille des joueurs.
😀 Le classement Elo est utilisé pour évaluer le niveau des joueurs, et des classements Elo spécifiques aux surfaces sont aussi calculés pour affiner les prédictions.
😀 Le modèle de prédiction utilise un arbre de décision, mais le processus est lent, ce qui conduit à l'utilisation de la version SKlearn pour de meilleures performances.
😀 L'utilisation des forêts aléatoires améliore la stabilité du modèle en créant plusieurs arbres de décision à partir de sous-ensembles aléatoires des données.
😀 Après des ajustements et des tests, le modèle atteint une précision de 85% grâce à XGBoost, une version améliorée des forêts aléatoires qui optimise la performance.
😀 Le modèle a bien prédit les résultats de l'Open d'Australie 2025, avec une précision de 85% et une prédiction correcte du vainqueur, Jannik Sinner.

Q & A

Qu'est-ce que l'algorithme Random Forest et comment fonctionne-t-il ?
-Le Random Forest est un algorithme d'apprentissage automatique puissant basé sur les arbres de décision. Il fonctionne en créant plusieurs arbres de décision à partir de sous-ensembles aléatoires des données, puis en combinant les résultats des arbres via un vote majoritaire pour produire une prédiction plus stable et plus précise.
Quelles sont les caractéristiques importantes utilisées dans ce modèle pour prédire le gagnant d'un match de tennis ?
-Les principales caractéristiques utilisées dans le modèle pour prédire les résultats des matchs de tennis sont le classement ELO des joueurs, les différences de classement entre les joueurs, l'âge, la taille, le nombre de matchs gagnés récemment, ainsi que des statistiques spécifiques comme les doubles fautes ou les breaks.
Pourquoi le modèle Random Forest a-t-il été utilisé dans cette vidéo ?
-Le modèle Random Forest a été utilisé pour améliorer la stabilité et la précision des prédictions par rapport à un seul arbre de décision. En utilisant plusieurs arbres avec des sous-ensembles de données différents, le modèle devient plus robuste et moins sensible aux variations des données.
Quelle est la principale différence entre un arbre de décision et un Random Forest ?
-La principale différence réside dans le fait qu'un arbre de décision est unique et peut être sensible aux variations des données, tandis qu'un Random Forest combine plusieurs arbres pour prendre une décision, ce qui rend le modèle plus robuste et moins susceptible au surapprentissage.
Comment le classement ELO est-il calculé et appliqué dans ce projet ?
-Le classement ELO mesure le niveau de compétence d'un joueur en fonction de ses victoires et défaites. Dans ce projet, le classement ELO a été appliqué à chaque joueur de tennis pour évaluer leur niveau et prédire les résultats des matchs. Il est mis à jour après chaque victoire ou défaite, augmentant ou diminuant en fonction de l'issue de la rencontre.
Quel était le taux de précision du modèle basé sur l'arbre de décision ?
-Le modèle basé sur l'arbre de décision a atteint une précision de 74 %, ce qui est prometteur, mais en utilisant simplement le classement ELO, une précision de 72 % a été obtenue, montrant que d'autres facteurs peuvent améliorer les prédictions.
Pourquoi l'implémentation personnelle d'un Random Forest a-t-elle été trop lente ?
-L'implémentation personnelle du Random Forest a été trop lente en raison de la taille des données utilisées, avec 95 000 matchs de tennis. Le traitement de cette quantité de données avec une approche manuelle était trop long, d'où l'utilisation de la bibliothèque SKlearn pour une exécution plus rapide.
Quel modèle a donné les meilleurs résultats en termes de précision ?
-Le modèle XGBoost a donné les meilleurs résultats avec une précision de 85 %. Ce modèle utilise le renforcement (boosting) et la régularisation pour éviter le surapprentissage et améliorer les performances par rapport à un Random Forest classique.
Quelle a été la précision du modèle lors de la prédiction du tournoi de l'Open d'Australie 2024 ?
-Le modèle a prédit correctement 99 des 116 matchs de l'Open d'Australie 2024, avec une précision de 85 %. Il a également correctement prédit que Jannik Sinner gagnerait tous ses matchs, ce qui montre une bonne performance du modèle dans un contexte réel.
Pourquoi l'auteur a-t-il choisi de montrer l'évolution du classement ELO des joueurs de tennis dans la vidéo ?
-L'auteur a choisi de montrer l'évolution du classement ELO des joueurs pour illustrer comment ce système peut refléter le niveau de compétence des joueurs au fil du temps, en particulier pour les grands joueurs comme Roger Federer, Rafael Nadal, et Novak Djokovic, ainsi que pour démontrer la capacité du modèle à prédire les résultats basés sur ce classement.