Algorithm Na Nakapag-aral 'Pong' Ngayon Napakahusay sa 'Flappy Bird', Still Single

Алгоритмы Поиска Пути на Python. Алгоритм А*, Дейкстры, Поиск в ширину [ Pygame ]

Алгоритмы Поиска Пути на Python. Алгоритм А*, Дейкстры, Поиск в ширину [ Pygame ]
Anonim

Pagpapabuti sa isang malalim na pag-aaral ng paraan na pinasimulan para sa Pong, Space Invaders, at iba pang mga laro sa Atari, ang mag-aaral ng computer science sa Stanford University na si Kevin Chen ay lumikha ng isang algorithm na medyo maganda sa klasikong 2014 side-scroller Flappy Bird. Si Chen ay may leveraged na konsepto na kilala bilang "q-learning," kung saan ang isang ahente ay naglalayong mapabuti ang marka ng gantimpala nito sa bawat pag-ulit ng pag-play, upang magawa ang halos imposible at imposibleng nakakahumaling na laro.

Si Chen ay lumikha ng isang sistema kung saan ang kanyang algorithm ay na-optimize upang humingi ng tatlong gantimpala: isang maliit na positibong gantimpala para sa bawat frame na ito ay nanatiling buhay, isang malaking gantimpala para sa pagpasa sa isang tubo, at isang pantay na malaki (ngunit negatibong) gantimpala para sa namamatay. Kaya motivated, ang tinatawag na malalim-q network ay maaaring lumalabag sa mga tao, ayon sa ulat Chen nagsulat: "Matagumpay naming na-play ang laro Flappy Bird sa pamamagitan ng pag-aaral tuwid mula sa mga pixel at ang iskor, pagkamit ng super-tao resulta."

Ang orihinal na papel ng Atari, na inilathala noong 2015 sa Kalikasan, ay nagmula sa kumpanya ng Google na pagmamay-ari ng DeepMind (sikat na ngayon para sa kanyang karunungan ng sinaunang Chinese board game Go). Ang tagumpay ng DeepMind ay isang pambihirang tagumpay sa na kinuha ang visual - o pixel, hindi bababa sa - impormasyon, at, na may napakaliit na input, ay ma-maximize ang mga gantimpala. Ang ganitong sistema ng gantimpala ay inihalintulad sa dopaminergic na tugon ng utak, pinasimple lamang.

Hindi ito ang unang pagkakataon na nakamit ng isang algorithm ang flapping bird: Ang isang naunang klase ng mga mag-aaral ng computer science sa Stanford University ay lumikha ng isang programa na, nang sanay na sa isang gabi, ang iskor nito ay pinabuting mula sa 0 na mga tubo na dumaan sa 1,600.