Conférence du CEDEC : Joshua Romoff explique comment créer des bots joueurs efficaces grâce au renforcement profond

Cette année, Joshua Romoff a eu l'occasion de donner une conférence au CEDEC, le plus grand séminaire sur les loisirs informatiques du Japon. Chaque année, des développeurs viennent du monde entier y présenter leurs connaissances et leur expérience en matière de technologies vidéoludiques.

Joshua Romoff, Research and Development Scientist chez Ubisoft La Forge, y a donné une conférence intitulée « Deep Reinforcement Learning for Efficient Player Bots » (L'apprentissage par renforcement profond au service de bots joueurs efficaces). Son but : expliciter la révolution que représente cette technologie de pointe dans notre approche des IA de jeux vidéo. Le travail de Joshua au sein d'Ubisoft est en effet axé sur le développement de prototypes utilisant l'apprentissage par renforcement profond (Deep Reinforcement Learning, DRL).

Le DRL est un sous-ensemble de l'intelligence artificielle qui a provoqué des remous dans divers secteurs, dont celui du jeu vidéo. Ubisoft La Forge repousse les limites en utilisant le DRL pour créer des bots joueurs plus réalistes et plus crédibles.

Navigation dans les univers de jeu

L'une des applications les plus fascinantes du DRL évoquées dans la conférence avait trait à la navigation. Les méthodes d'IA traditionnelles comme le NavMesh (mesh de navigation) ont souvent du mal à évoluer dans un environnement de jeu complexe et dynamique. Le DRL, lui, entraîne les bots à naviguer avec les mêmes commandes que le joueur, ce qui aboutit à des comportements de navigation plus crédibles et donc une expérience plus immersive pour le joueur.

[LA FORGE Studio] Talk at CEDEC: Joshua Romoff talks about how we can build Efficient player bots using Deep Reinforcement Learning - image 1

Pour plus d'informations à ce sujet, consultez cet article de blog : https://www.ubisoft.com/fr-fr/studio/laforge/news/6bRtGllmfhuDqTHRS6KVLj/deep-reinforcement-learning-for-navigation-in-aaa-video-games.

Spécification d'un comportement précis

La conférence abordait aussi l'idée de développer un comportement spécifique grâce au DRL. Autrement dit, les développeurs de jeux peuvent entraîner des bots pour qu'ils adoptent des comportements très personnalisés, ce qui crée un pipeline plus pratique d'utilisation et ouvre la « boîte noire » de l'apprentissage par renforcement. À travers un exemple inspiré des véhicules automatisés, la conférence montrait comment il est possible d'utiliser le DRL pour enseigner aux bots des manœuvres complexes telles que le respect des limitations de vitesse et le maintien d'une trajectoire particulière.

Si vous voulez en savoir plus sur les techniques utilisées pour contrôler nos bots, consultez les articles de blog suivants : https://www.ubisoft.com/fr-fr/studio/laforge/news/3l6xqVYzNUsd8UgfKFQk4G/constrained-reinforcement-learning-and-self-driving-cars-an-interns-journey et https://www.ubisoft.com/fr-fr/studio/laforge/news/6phoEAQOzIdkiMv8T2kLNS/direct-behavior-specification-via-constrained-reinforcement-learning.

Entraîner un bot à se battre dans For Honor

L'un des moments forts de la conférence a été l'application du DRL à For Honor d'Ubisoft.

Ce jeu de combat compétitif représentait un défi intéressant pour l'entraînement des bots par DRL, car contrairement à une tâche autonome comme la navigation, la victoire dans un jeu de combat dépend entièrement de l'adversaire. Il n'est donc pas facile de créer un bot dépourvu de failles que les joueurs exploiteront sans vergogne. Pour ce faire, les méthodes traditionnelles ont tendance à tricher : elles savent précisément ce que le joueur s'apprête à faire et le contrent. De notre côté, nous avons plutôt choisi d'entraîner notre agent DRL grâce à l'auto-apprentissage compétitif, qui l'entraîne en continu face à des versions antérieures de lui-même. Cette méthode a donné lieu à des résultats très intéressants, avec à la clé un bot pas facile à battre !

Voici une vidéo de notre nouvelle IA, appelée DeepBot, en plein entraînement. Chaque DeepBot s'entraîne en Duel 1 contre 1, à raison de 10 matchs par instance. Nous lançons ensuite 5 instances du jeu, chacune fonctionnant à deux fois la vitesse normale, ce qui permet à DeepBot de s'entraîner sur 50 matchs à la fois à vitesse doublée.

Synthèse :

Bien qu'il reste beaucoup à découvrir et de nombreux obstacles à franchir, la puissance du DRL ouvre la voie à des bots joueurs plus stimulants et donc à une expérience de jeu plus immersive.

Restez à l'écoute, Ubisoft La Forge vous prépare d'autres articles tout aussi intéressants !