Ito AI Neural Network Mula sa Nvidia Lumilikha Photorealistic Pekeng Imahe

Fantasy Romance Movie 2020 | Magical Beau and Campus Belle, Eng Sub | Love Story, Full Movie 4K

Fantasy Romance Movie 2020 | Magical Beau and Campus Belle, Eng Sub | Love Story, Full Movie 4K
Anonim

Sa isang sulyap, ang larawan sa tuktok ay nagmumukhang isang ordinaryong larawan ng isang karaniwang kalye, kinuha alinman sa mula sa isang dash cam o mula sa isang tao na walang kamali-mali upang malihis sa daan upang snap ng isang larawan ng naturang isang pangmundo tanawin.

Ngunit tumingin ka ng isang mas malapit. Pansinin kung paano ang bitag ng trapiko ay bahagyang bingkong, o kung paano ang ilang mga kotse ay tila malabo? Mayroong mali dito. Ito ay hindi isang litrato sa lahat. Ito ay isang imahe na nilikha ganap sa pamamagitan ng isang A.I.

Ang mga siyentipiko ng computer mula sa tech company na Nvidia at ng University of California, Berkeley ay nagsulat ng isang papel na pananaliksik, na magagamit sa preprint sa arXiv, na nagdedetalye kung paano sila nakakakuha ng neural network upang makabuo ng makatotohanang mga larawan sa kalye at mga larawan ng tao. Kasama pa nga nila ang isang user interface na nagbibigay-daan sa iyo na mag-tweak ang mga larawan gayunpaman gusto mo sa pamamagitan ng pagdaragdag ng dagdag na mga dahon o pagbago ng panahon.

"Ang paglalaro ay mabilis na lumalaki, dahil ang mga tao ay nagugustuhan ng pakikipag-ugnayan sa isa't isa sa mga virtual na kapaligiran," Sinasabi sa Ming-Yu Liu, isang senior scientist sa Nvidia, Kabaligtaran sa isang email. "Gayunpaman, ang paggawa ng mga virtual na mundo ay mahal sa teknolohiya ngayon, sapagkat nangangailangan ito ng mga artist na malinaw na modelo at gayahin ang texture at pag-iilaw para sa mundo na kanilang itinatayo. Sa pamamagitan ng pagsasaling imahen sa imahe, maaari lamang naming lagyan ng sample ang tunay na mundo upang lumikha ng mga virtual na mundo."

Ang mga network ng neural ay mga modelo na ginagamit upang gumana tulad ng isang utak ng tao sa pamamagitan ng pagkuha ng impormasyon, pag-aaplay nito, at pag-aaral mula sa mga resulta. Ang pananaliksik na ito ay gumagamit ng mga espesyal na uri ng neural nets na ipinakilala ni Ian Goodfellow noong 2014, na tinatawag na generative adversarial networks - o GANs - na karaniwang binubuo ng dalawang network, ang generator at discriminator.

Ang generator ay binibigyan ng mga larawan at nagsisimula upang lumikha ng mga artipisyal na imahe na katulad ng mga ibinigay. Pagkatapos ay nagpapakita ito ng isang halo ng mga imahe na ito ay ibinigay at ang mga pekeng sa discriminator, na ang trabaho ay upang sabihin sa kanila bukod. Habang nagpapatuloy ang prosesong ito, nagiging mas mahusay ang generator sa paggaya ng orihinal na mga imahe at nagiging mas mahusay ang discriminator sa pagsasabi ng mga pekeng hiwalay. Ang mga resulta ay ang ilang mga medyo nakakumbinsi - at ganap na pekeng - mga larawan.

Ang pananaliksik na ito ay binuo sa tradisyonal na modelo ng GAN sa pamamagitan ng pagdaragdag ng paghahati sa mga generator at mga network ng discriminator sa ilang mga sub-network, na nagbibigay-daan para sa output ng mas mataas na resolution ng mga imahe. Ang mga neural network ay maaari ring kumuha sa isang semantiko mapa - o isang blueprint ng kung paano ang larawan ay dapat na hitsura - at punan ang mga texture autonomously. Ang mga gumagamit ay maaaring kahit na pumunta sa plano at baguhin ang mga bagay kung nais nilang magdagdag ng mga gusali sa halip ng mga puno sa isang kalye-view o gawin ang mga mata mas malawak na sa isang portrait.

Inihahambing ng papel ang mga resulta nito sa mga katulad na eksperimentong ginawa gamit ang pamamaraang ito, ang pinaka-tanyag na isa ay pix2pix. Ang pag-aaral ng Nvidia at UC Berkeley ay makakagawa ng mga larawan na may mga detalye bilang maliit at tumpak na nababasa na mga plato ng lisensya, habang ang pix2pix ay nagpapalabas ng mga imahe na halos hitsura ng mga kuwadro ng tubig.

Habang ang tool na ito ay maaaring magamit upang kumita ng ilang mga libreng reddit karma na may ilang mga katawa-tawa mga larawan, ang mga may-akda makita ang malaking potensyal sa paggamit ng diskarte na ito upang makabuo ng makatotohanang graphics na may lamang ng isang simpleng plano.

Daan-daang oras ng matapang na paggawa ang bumubuo sa mga virtual na mundo para magamit sa Google Maps, pelikula, at video game. Sinabi ni Liu na ang modelong ito ay maaaring magsilbing isang paraan upang masakit na makuha ang karamihan ng pagdidisenyo na tapos na at pagkatapos ay pumunta sa at mag-tweak ang mga detalye sa ibang pagkakataon.

"Sa halip na rendering ang mundo sa pamamagitan ng malinaw na pagmomodelo ito, maaari naming bumuo ng mundo nang ganap sa pamamagitan ng paggamit ng imahe-sa-imahe pagsasalin upang isalin sa pagitan ng isang simpleng modelo ng mundo na hindi naglalaman ng anumang texture o ilaw, at isang photo-makatotohanang output. Ang kakayahan na ito ay dapat na magkano ang mas mura upang bumuo ng mga virtual na mundo, "sabi niya Kabaligtaran.

Para sa susunod na hakbang sa pananaliksik na ito, ang koponan ay nagnanais na galugarin ang video-to-video na pagsasalin, na magagamit ang mga neural nets upang lumikha ng makatotohanang mga video. Ang isang layunin na sinabi ni Lui ay hinamon ang mga mananaliksik sa larangan.

Ngayon alam mo kung gaano kadali nalikha ang mga pekeng larawan. Huwag pinagkakatiwalaan ang lahat ng nakikita mo sa mga imahe ng Google.