Training an unbeatable AI in Trackmania

Yosh

30 Sept 202320:41

Summary

TLDRDans cette vidéo, un développeur partage son parcours de trois ans pour créer une intelligence artificielle capable de battre son propre temps dans le jeu de course Trackmania. Après plusieurs échecs et ajustements, l'IA améliore progressivement ses performances grâce à l'apprentissage par renforcement. En fin de compte, l'IA surpasse même son créateur sur des circuits complexes, démontrant sa capacité à maîtriser les lignes de conduite et les techniques de dérive. Ce projet, bien qu'un succès, soulève des questions sur la généralisation et la complexité des jeux pour l'IA.

Takeaways

😀 L'IA dans Trackmania s'améliore au fil du temps grâce à l'apprentissage par renforcement, où elle apprend par essais et erreurs.
😀 Au début, l'IA prend des décisions aléatoires, mais à mesure qu'elle progresse, elle apprend à choisir des actions plus efficaces pour terminer les pistes plus rapidement.
😀 Les principales difficultés rencontrées lors de l'entraînement de l'IA sont liées aux récompenses à court terme (comme percuter un mur) versus les récompenses à long terme (réussir un bon virage).
😀 L'IA a d'abord eu du mal à éviter les murs, un problème courant dans l'apprentissage par renforcement en raison des mauvaises récompenses initiales.
😀 Après plusieurs ajustements, l'IA a cessé de percuter les murs et a commencé à réaliser des performances plus proches du temps personnel du créateur.
😀 L'IA, après un long entraînement de plusieurs heures, a dépassé le créateur sur une piste complexe, prouvant sa capacité à apprendre et à s'améliorer.
😀 Un des défis de l'IA était de comprendre la disposition des virages à venir sur une nouvelle piste, ce qui a nécessité l'ajout de nouveaux inputs pour simuler les courbes à venir.
😀 La complexité des entrées et des ajustements à apporter, comme l'ajout d'infos sur les roues en contact avec la route, a amélioré la prise de décision de l'IA.
😀 Bien que l'IA puisse être très efficace et constante sur des circuits qu'elle a déjà entraînés, elle est moins performante sur des circuits qu'elle n'a pas encore rencontrés.
😀 Le créateur a essayé d'entraîner l'IA à utiliser des techniques avancées comme le drift (dérive), mais l'IA a d'abord choisi de ne pas utiliser cette technique malgré son potentiel pour gagner du temps.

Q & A

Qu'est-ce que l'intelligence artificielle (IA) dans le jeu Trackmania ?
-L'IA dans Trackmania est un système qui apprend à jouer au jeu de manière autonome grâce à un réseau neuronal artificiel. Elle s'améliore au fil du temps en utilisant l'apprentissage par renforcement, où elle apprend à maximiser les récompenses en effectuant des actions qui permettent de finir les courses plus rapidement.
Comment l'IA apprend à conduire dans Trackmania ?
-L'IA utilise un réseau neuronal artificiel pour apprendre à conduire. Elle reçoit des informations sur la situation du jeu à chaque dixième de seconde et prend des décisions basées sur ces données. Grâce à l'apprentissage par renforcement, elle est récompensée pour des actions qui l'aident à progresser sur le circuit, et elle ajuste ses actions en fonction des résultats.
Quel est le rôle du renforcement dans l'apprentissage de l'IA ?
-Le renforcement permet à l'IA de s'améliorer en récompensant ses actions. Si l'IA prend une bonne décision qui lui permet de progresser sur la piste, elle reçoit une récompense. En revanche, une action qui ralentit son avancée ou qui la fait échouer lui rapporte une faible récompense. C'est ainsi que l'IA apprend à mieux conduire avec chaque tentative.
Quels défis l'auteur a-t-il rencontrés en développant l'IA ?
-L'un des principaux défis était que l'IA se bloquait parfois dans des stratégies sous-optimales et faisait des erreurs, comme percuter les murs. Il a fallu beaucoup de tests et de réglages pour faire en sorte que l'IA cesse de se heurter aux obstacles et qu'elle progresse de manière plus fluide et cohérente.
Pourquoi l'IA a-t-elle parfois choisi de heurter les murs ?
-Lorsque l'IA percute les murs, elle obtient des récompenses immédiates en termes de progression sur la piste, ce qui peut sembler bénéfique sur le court terme. Cependant, cette stratégie est contre-productive sur le long terme, car elle ralentit l'IA, ce qui explique pourquoi il a fallu affiner l'algorithme pour éviter ces comportements.
Quels ajustements ont été nécessaires pour améliorer l'IA ?
-Des ajustements ont été effectués pour mieux configurer le réseau neuronal, réduire les comportements erratiques comme les collisions avec les murs, et ajouter des informations supplémentaires pour que l'IA puisse mieux anticiper les virages et réagir de manière plus précise.
Comment l'IA s'est-elle comportée sur une piste plus complexe ?
-Sur une piste plus complexe, l'IA a progressivement amélioré ses performances. Après plusieurs heures d'entraînement, elle est devenue plus rapide que l'auteur, bien qu'elle ait encore eu des difficultés à anticiper certaines courbes ou à gérer des situations plus complexes.
Pourquoi l'IA n'a-t-elle pas utilisé le freinage au début ?
-Au début, l'IA n'avait pas accès au freinage, car l'auteur craignait que cela complique trop l'entraînement. Le freinage peut être nécessaire pour effectuer des dérapages et améliorer la vitesse sur certaines sections de la piste, mais il a été ajouté progressivement après que l'IA ait maîtrisé les bases du jeu.
Qu'est-ce que le 'neo-drift' et pourquoi est-ce important pour l'IA ?
-Le 'neo-drift' est une technique qui permet de déclencher un dérapage contrôlé à faible vitesse, ce qui est essentiel pour maintenir la vitesse dans des virages serrés. Bien que l'IA ait découvert cette technique, elle ne l'avait pas maîtrisée, ce qui a conduit l'auteur à ajuster les récompenses pour encourager l'IA à explorer et à utiliser cette technique de manière plus stratégique.
L'IA peut-elle être considérée comme imbattable dans Trackmania ?
-L'IA a prouvé qu'elle était plus rapide et plus cohérente que l'auteur sur certaines pistes, mais elle n'est pas nécessairement imbattable. Sur des cartes plus complexes ou dans des situations nouvelles, l'IA peut encore faire des erreurs. Cependant, sur les niveaux plus simples, elle reste probablement supérieure à l'auteur et pourrait l'emporter face à de nombreux autres joueurs.