Nouvelles de l'industrie

Est-ce que AlphaZero vaut la peine de jouer?

2018-06-02

DeepMind, une société d'intelligence artificielle appartenant à Google, a publié un nouveau document décrivant comment l'équipe a utilisé le système d'apprentissage automatique d'AlphaGo pour créer un nouveau projet appelé AlphaZero. AlphaZero utilise une technologie d'IA appelée apprentissage par renforcement, qui n'utilise que des règles de base, aucune expérience humaine, une formation à partir de rien, n'a balayé l'IA du jeu de société.

AlphaZero a d'abord conquis Go et a fait exploser un autre jeu: dans les mêmes conditions, le système avait huit heures d'entraînement et a vaincu la première IA qui a vaincu les humains - la version AlphaGo de Li Shishi; Après 4 heures d'entraînement, AI Elmo a battu le plus fort jeu d'échecs AI Stockfish et a vaincu le plus fort (échecs japonais) AI Elmo en 2 heures. Même le plus fort joueur de Go, AlphaGo, n'a pas été épargné. Formé pendant 34 heures, AlphaZero a battu AlphaGo Zero qui a été formé pendant 72 heures.

Graphique / Nombre de tirages, tirages ou pertes dans le jeu du point de vue AlphaZero (extrait du document de l'équipe DeepMind)

Renforcer l'apprentissage est si puissant. Qu'Est-ce que c'est?

Adit Deshpande, un célèbre blogueur d'Amnesty International de l'Université de Californie à Los Angeles (UCLA), a publié sur son blog une série d'articles sur Deep Learning Research Review, qui explique la force de la victoire d'AlphaGo. Dans son article, il a expliqué que le domaine de l'apprentissage automatique peut être divisé en trois catégories: apprentissage supervisé, apprentissage non supervisé et apprentissage par renforcement. L'apprentissage par renforcement peut apprendre différentes actions dans différentes situations ou environnements pour obtenir les meilleurs résultats.

Blog de Photo / Adit Deshpande Deep Learning Research Review Semaine 2: Apprentissage par renforcement

Nous imaginons un petit robot dans une petite pièce. Nous n'avons pas programmé ce robot pour bouger ou marcher ou entreprendre une action. C'est juste là. Nous voulons qu’il se déplace dans un coin de la pièce, obtienne des points de fidélité lorsque vous y arrivez et que vous perdiez des points chaque fois que vous y allez. Nous espérons que le robot atteindra le lieu désigné autant que possible et que le robot peut se déplacer dans quatre directions: est, sud, ouest et nord. Les robots sont en réalité très simples. Quel type de comportement est le plus précieux? Bien sûr, c'est un lieu désigné. Afin d'obtenir la plus grande récompense, nous ne pouvons que laisser les robots utiliser des actions qui maximisent la valeur.
Blog de Photo / Adit Deshpande Deep Learning Research Review Semaine 2: Apprentissage par renforcement

Quelle est la valeur de l'explosion des jeux d'échecs humains par AlphaZero?

AlphaGo Zero est une percée, AlphaZero aussi? Des experts étrangers ont analysé que ce dernier avait réalisé quatre avancées technologiques:

Premièrement, AlphaGo Zero optimise en fonction du ratio de gain, considère seulement la victoire, deux types de résultats négatifs; Et AlphaZero est en fonction du résultat à poursuivre l'optimisation, a pris en compte la possibilité telle que cravate.

Deuxièmement, AlphaGo Zero va changer la direction du conseil pour l'apprentissage par renforcement, tandis que AlphaZero ne le fera pas. Go board est empilé, alors que les échecs et les échecs ne le sont pas, alors AlphaZero est plus polyvalent.

Troisièmement, AlphaGo Zero continuera à choisir la meilleure version du taux de remplacement, tandis que AlphaZero ne met à jour qu'un réseau neuronal, réduisant ainsi le risque d'entraîner de mauvais résultats.

4. Les hyperparamètres de la section de recherche d'AlphaGo Zero sont obtenus par optimisation bayésienne. La sélection aura une grande influence sur le résultat de l'estimation. AlphaZero réutilise le même hyper-paramètre pour tous les jeux, il n'est donc pas nécessaire de faire des ajustements spécifiques pour le jeu.

Le quatrième paradigme de l’architecte supérieur de l’apprentissage automatique, Tu Weiwei, a déclaré à geek park qu’AlphaZero avait des percées et des limites:

Tout d'abord, DeepMind Le cœur de cette thèse est de prouver la polyvalence de la stratégie AlphaGo Zero sur le problème des échecs; il n'y a pas de point culminant spécial dans la méthode. AlphaZero est en fait une version étendue de la stratégie AlphaGo Zero de Go à d’autres jeux de société similaires, et bat l’autre AI de jeux de société basée sur la technologie. Ils étaient les meilleurs avant.

Deuxièmement, AlphaZero est seulement un "universel" moteur pour des jeux de société similaires qui ont un jeu d’informations bien défini et parfait. AlphaZero rencontrera toujours des difficultés pour d'autres problèmes plus complexes.

Plus tôt, lorsque Ryukyu Sun Jian a interprété AlphaGo Zero, il a déclaré: «L'apprentissage enrichi peut être étendu à de nombreux autres domaines et il n'est pas si facile de l'utiliser dans le monde réel. Par exemple, l'apprentissage par renforcement peut être utilisé pour rechercher de nouveaux médicaments et de nouveaux médicaments. La structure doit être recherchée. Après la recherche, il est transformé en médicament. Alors, comment vraiment tester le médicament est efficace. Ce coût en boucle fermée est très coûteux et très lent. Il est très difficile pour vous de le rendre aussi simple que de jouer aux échecs.

Troisièmement, AlphaZero a également besoin de beaucoup de ressources informatiques pour résoudre le problème relativement "simple". problème d'échecs, et le coût est très élevé. Selon les parcs de geek, DeepMind a déclaré dans le journal qu’ils utilisaient 5000 TPU de première génération pour générer des jeux auto-jouables et utilisait 64 TPU de deuxième génération pour former des réseaux de neurones. Auparavant, certains experts ont déclaré à certains médias que, même si les performances du TPU étaient étonnantes, le coût serait très élevé. Certains investisseurs d'une organisation internationale de capital-risque se sont également fait des amis dans ce cercle. Un des mots est: "Cette puce chère, je regarde juste ..."

Quatrièmement, le AlphaZero actuel peut être éloigné de "Go God". sur Go. Gagner des gens ne représente pas Dieu. La structure actuelle du réseau et la stratégie de formation ne sont pas optimales. En fait, cela vaut la peine d’étudier plus avant.

Bien qu'il existe certaines limites, ses scénarios d'application méritent d'être explorés. De nombreux autres domaines de recherche méritent une attention particulière dans le cadre de la recherche qui rend l'apprentissage de la machine plus général, comme AutoML, l'apprentissage de la migration, etc. Dans le même temps, il convient également d’attirer l’attention sur la manière d’obtenir un moteur AI plus général à un coût moindre (coût de calcul, coût d’expertise de domaine) et de rendre l’IA plus utile dans des applications pratiques.

Les voyages au goutte à goutte sont une zone spéciale. Selon les parcs de geek, les DJ utilisent la technologie de l’intelligence artificielle pour faire correspondre les conducteurs et les passagers entre des distances en ligne droites déraisonnables (éventuellement sur des rivières) et des missions. Les passagers ayant le moins de temps passé en voiture ont connu beaucoup d'optimisation technique. Ils ont également rencontré des problèmes et ont travaillé dur pour eux: lors de la formation de systèmes d'intelligence artificielle, des technologies telles que les grappes GPU peuvent être utilisées. Cependant, lorsque les conducteurs et les passagers sont jumelés, les performances en temps réel sont requises et la configuration est réduite. Par conséquent, comment assurer l'exactitude est également une recherche. Le personnel explore la question.

Mais Tu Weiwei a affirmé les efforts de DeepMind dans la direction de "l'intelligence artificielle universelle".