Ang Deep 'Reinforcement Learning' ay Mga Robot sa Pagtuturo Bagong Mga Kasanayan sa Mabilis Nang Higit Pa

$config[ads_kvadrat] not found

Ang Sa Iyo Ay Akin | Episode 64 (1/4) | November 12, 2020

Ang Sa Iyo Ay Akin | Episode 64 (1/4) | November 12, 2020
Anonim

Ang mga robot ay natututo kung paano makumpleto ang mga gawain sa mga virtual na mundo na lumalaki, na bumubuo ng mga kasanayan sa isang oras na maaaring tumagal ng ilang buwan. Ang kunwa ng malalim na reinforcement learning (o Deep RL) ay nangangahulugang isang kasanayan na normal na kukuha ng 55 araw para sa isang A.I. upang matuto sa tunay na mundo ay tumatagal lamang ng isang araw sa sobrang bilis ng silid-aralan.

"Nakuha ng potensyal na baguhin ang tunay na maaaring gawin sa domain ng robotics," sabi ni Raia Hadsell, isang siyentipikong pananaliksik na may Google DeepMind, sa Re-Work Deep Learning Summit sa London noong Huwebes. "Maaari nating malaman ang mga kasanayan sa antas ng tao."

Ito ay maaaring tunog counter-intuitive, bilang tiyak na ang buong punto ng mga robot ay ang mga programmers maaaring magturo sa kanila upang gawin ang mga bagay, right? Bagaman ang pagdisenyo ng isang makina na nagpapatakbo sa tunay na mundo, bagaman, ang mga robot ay nangangailangan ng isang buong maraming data upang maunawaan kung paano gumawa ng isang gawain sa isang hindi pamilyar na sitwasyon. A.I. maaaring gamitin ang data na ito upang "matuto" ng isang kasanayang batay sa lahat ng mga pangyayari na dumating bago.

Kinokolekta ng malalim na reinforcement learning ang data na katulad nito sa kung paano natututo ang mga tao: isang robot ang makukumpleto ng isang gawain nang paulit-ulit, tulad ng nakahahalina ng bola, at nag-record ng data upang bumuo ng isang larawan kung paano pinakamahusay na mahuli ang isang bola sa isang bagong sitwasyon. Nang ginagamit ng DeepMind ang modelo noong 2013 upang turuan ang isang robot kung paano makabisado ang mga laro ng Atari, sa pamamagitan lamang ng pag-upo sa harap ng screen at pagsabi sa layunin ng pagtatapos, minamahal ito ng mga siyentipikong komunidad.

Ang problema ay, ito ay tumatagal magpakailanman. Kailangan mong itapon ang mga bola sa isang robot nang paulit-ulit, o sa kaso ng Atari, iwanan ang robot na nag-iisa sa kanyang kwarto para sa isang sandali. Ang pagpapatakbo ng isang simulation ng MuJoCo, na sinamahan ng isang progresibong neural network, ang mga trainer ay maaaring magpatakbo ng isang programa na mimics ng robot, inililipat ang natutunan na pag-uugali sa robot at mapa ang mga virtual na paggalaw sa tunay na mundo.

"Maaari naming patakbuhin ang mga simulator sa buong araw at buong gabi," sabi ni Hadsell.

Ang mga resulta ay nagsasalita para sa kanilang sarili. Ang robot na ito, na nakakuha ng diploma sa nakahahalina, ay maaari na ngayong sumunod sa mga virtual na bola na tila sila ay tunay, na sinisimulan ito para sa malaking araw kapag hinihiling na makatawag ng tunay na bola:

$config[ads_kvadrat] not found