Paano Gumawa ng DeepMind ang isang Eerily Self-Taong A.I. Na Makakaapekto sa mga Tao

AlphaGo - The Movie | Full Documentary

AlphaGo - The Movie | Full Documentary

Talaan ng mga Nilalaman:

Anonim

Ang mga computer ay pinapasan ang aming mga marupok na asno ng tao sa chess para sa ilang mga dekada ngayon. Ang unang pagkakataon na nangyari ito ay noong 1996, nang malinlang ng Deep Blue ng IBM ang world champion na si Gary Kasperov. Ngunit isang bagong pag-aaral mula sa alpabetong A.I. Ang sangkap na DeepMind ay nagbigay ng liwanag sa kung paano limitado sa saklaw na ang tunay na tagumpay ay tunay na tagumpay.

Para sa isa, ang Kasperov ay bumalik sa likod, nanalo ng tatlong laro at gumuhit ng dalawang beses sa isang anim na laro playoff, bawat isang gulang Araw araw na balita ulat.

Ngunit higit na kapansin-pansin, gaya ng sinabi ng mananaliksik na DeepMind na si Julian Schrittwieser Kabaligtaran, ang mga application tulad ng Deep Blue ay na-program nang mano-mano. Nangangahulugan ito na kailangang ituro ng mga tao ang A.I. ang lahat ng bagay na kailangan nito upang malaman tungkol sa kung paano pangasiwaan ang lahat ng maiisip na maaaring mangyari. Sa madaling salita, maaari lamang itong maging kasing ganda ng programming ng mga tao. At habang ang Deep Blue ay maliwanag na nakakakuha ng magandang sa chess; bigyan ito ng isa pang, katulad, ang laro tulad ng Go at ito ay hindi naging clueless.

Ang Alpha Zero ay ganap na naiiba. Sa isang bagong pag-aaral na inilathala ngayon sa journal Agham, ang mga may-akda ay nagbubunyag kung paano sila hindi makapagturo ng Alpha Zero kung paano matalo ang mga tao sa chess, ngunit kung paano magtuturo sa Alpha Zero kung paano turuan ang sarili nito upang makabisado ang maraming mga laro.

Paano Magtuturo A.I. Upang Ituro ang Sarili

Ang Alpha Zero ay binuo gamit ang isang pamamaraan na tinatawag na malalim na reinforcement learning. Mahalaga, ito ay nagsasangkot ng pagtuturo sa A.I. isang bagay na napaka-simple, tulad ng mga pangunahing panuntunan ng chess, at pagkatapos ay ginagawa ang simpleng bagay na iyon nang paulit-ulit hanggang sa matutunan nito ang mas kumplikado, kagiliw-giliw na mga bagay tulad ng estratehiya at pamamaraan.

"Ayon sa kaugalian … ang mga tao ay kukuha ng kanilang kaalaman tungkol sa laro at subukang i-code ito sa mga panuntunan," sabi ni Schrittwieser, na nagtatrabaho sa Alpha Zero sa halos apat na taon. "Ang aming diskarte ay paulit-ulit naming sinimulan, at pagkatapos ay i-play ang mga laro laban sa sarili nito, at mula sa mga laro mismo maaari itong malaman kung ano ang mga diskarte sa trabaho."

Ang lahat ng Alpha Zero ay nakakakuha ng mga pangunahing panuntunan, at mula roon ay natututo kung paano manalo sa pamamagitan ng paglalaro mismo. Ayon sa bagong mga natuklasan, umabot lamang ng siyam na oras para sa Alpha Zero upang makabisado ang chess, 12 oras upang makabisado sa Shogi, at humigit-kumulang na 13 araw upang makabisado ang Go. Dahil nagpe-play ito mismo, ito ay mahalagang itinuturo. Ito ay ginagawang mincemeat ng lahat ng mga world champion na algorithm na pinangunahan ng tao, na pinapaloob ang 2017 world champion sa Shogi na 91 porsiyento ng oras.

"Maaari itong malaya na matuklasan ang mga kagiliw-giliw na kaalaman tungkol sa laro," sabi ni Schrittwieser. "Ito ay humantong sa mga programa na mas lalong nakararami ng tao."

Gayunpaman ang estilo nito ay parang tao at malikhain, gayunpaman, malamang na sulit din ito, sabi niya, sapat na upang ang Alpha Zero ay magagawang mangibabaw sa halos anumang laro kung saan may access ito sa lahat ng available na impormasyon. Sa katunayan, ang Alpha Zero ay napaka sopistikado, maaaring kailangan naming lumipat sa isang ganap na magkakaibang uri ng mga laro upang mapanatili ang pagtulak sa mga hangganan ng kung paano A.I. malulutas nito ang mga problema.

Bakit Alpa Zero Ay Kaya Magaling

A.I. Gustung-gusto ng mga mananaliksik ang paggamit ng mga laro na ito bilang mga bakuran ng pagsubok para sa kailanman-mas sopistikadong mga paraan ng mga algorithm para sa ilang mga kadahilanan. Ang mga ito ay matikas, at ang mga tao ay na-play ang mga ito para sa daan-daang taon, para sa isa, ibig sabihin mayroon kang maraming mga potensyal na mga challengers upang subukan ang iyong algorithm sa. Ngunit ang mga ito ay kumplikado rin at masalimuot, masyadong, na nangangahulugan na maaari silang magsilbing stepping-stone sa A.I. na maaaring malutas ang mga problema sa tunay na mundo. Sinabi ni Schrittwieser na ang susunod na lugar ng pananaliksik ay ang paglikha ng isang algorithm tulad ng Alpha Zero na maaari pa ring gumawa ng pinakamainam na desisyon na may hindi perpektong impormasyon.

"Sa lahat ng mga laro na ito, alam mo ang lahat ng nangyayari," sabi niya. "Sa totoong mundo, maaaring alam mo lamang ang bahagi ng impormasyon. Maaari mong malaman ang iyong sariling mga card, ngunit hindi mo alam ang iyong kalaban, mayroon kang bahagyang impormasyon."

Mayroon pa ring ilang boardgames na may kakayahang magbigay ng mga algorithm tulad ng Alpha Zero na ganitong uri ng hamon, masyadong - Sinabi ni Schrittwieser Stratego, kung saan ang mga manlalaro ay nagtago ng kanilang mga gumagalaw mula sa isa't isa - at Starcraft, na isa pang lugar ng interes para sa mga mananaliksik na nakatuon sa paglalaro ng DeepMind.

"Nais naming gawin ang mga problema na aming tinutugunan nang higit pa at mas kumplikado," sabi niya. "Ngunit laging isang dimensyon sa isang pagkakataon."

Kasabay nito, ang susunod na henerasyon ng Deep Mind ng computerized problem-solvers ay nagpapakita na ang potensyal na lumipat mula sa mundo ng paglalaro patungo sa tunay na mundo. Mas maaga sa linggong ito, inihayag nito ang isa pang algorithm na tinatawag na AlphaFold, na may kakayahang extrapolating ng sequence ng protina sa isang tumpak na hula ng istraktura ng 3D nito.Ito ay isang problema na natapos na mga siyentipiko para sa mga dekada at maaaring makatulong na buksan ang pinto upang pagalingin para sa mga sakit mula sa Alzheimer sa cystic fibrosis.