Paano Tinutukoy ng Multi-Armed Bandit Ano ang Mga Ad at Mga Kuwento na Nakikita Mo Online

CS885 Lecture 8a: Multi-armed bandits

CS885 Lecture 8a: Multi-armed bandits
Anonim

Isipin na ikaw ay isang sugarol at ikaw ay nakatayo sa harap ng ilang mga slot machine. Ang iyong layunin ay upang mapakinabangan ang iyong mga panalo, ngunit hindi mo talaga alam ang anumang bagay tungkol sa mga potensyal na gantimpala na inaalok ng bawat makina. Gayunpaman, nauunawaan mo na ang mga hilahin mo at ang dalas na iyong ginagawa ay makakaapekto sa mga resulta ng iyong binge sa pagsusugal.

Ang sitwasyong ito, na nakaharap sa araw-araw sa pamamagitan ng mga bisita sa Las Vegas at Atlantic City (sa kahit anong antas ang mga tao ay pupunta pa rin sa Atlantic City) ay isang klasikong logic puzzle na tinatawag na "Multi-Armed Bandit" - mga slot machine na tinutukoy bilang "One-Armed Bandit "sa pamamagitan ng pag-iipon ng mga uri ng Reno dahil mayroon silang isang pingga at kumukuha ng pera ng mga tao. Kahit na walang tamang paraan upang matugunan ang mga sitwasyon ng Multi-Armed Bandit - ang pinakamalapit na kandidato ay Gittins Index - may mga madiskarteng diskarte sa pagtugon sa mga problemang ito na nakikita mo nang hindi nagrerehistro araw-araw kapag pumunta ka sa online. Maraming mga algorithm na namamahala sa paraan ng nilalaman ay lumitaw sa pamamagitan ng Google at sa mga website ay binuo sa paligid ng mga diskarte sa MAB. Ang layunin sa halos lahat ng mga kaso ay i-link ang pag-aaral at mga resulta at mapakinabangan ang potensyal para sa pareho.

Ang isang multi-armed bandit na diskarte ay ginagamit ng Ang Washington Post upang malaman kung anong mga larawan at mga headline ang malamang na mag-click, at sa pamamagitan ng mga wireless network upang malaman kung anong pinakamainam, ang mga ruta ng enerhiya-conserving ang pinakamahusay. Ang mga algorithm na lumalago sa mga pamamaraang MBA ay napakahalaga sa mga kumpanyang ito at marami pang iba dahil sila talaga ang tumutukoy kung kailan at kung saan ang mga advertisement ay lilitaw sa online.

Ang pag-uunawa kung anong mga ad ang ipapakita sa mga tao ay isang mahirap na problema dahil may napakaraming armadong bandido na tumatakbo sa paligid ng mga pag-click sa online. Ang mga algorithm ng MAB para sa mga patalastas ay kadalasang gumagamit ng isang mabilis na pagbabago ng "mortal na multi-armed bandit problem," na inilalapat sa mga limitadong panahon. Ang data ng trapiko ay ginagamit upang bumuo ng lalong epektibong pamamaraan.

Mahirap i-peg MAB sa isang eksaktong layunin, dahil posible na lumikha ng maraming variation ng formula. Halimbawa, ang mga armadong pangkat ng K-armado ay mayroong "mga armas" na nakikipagkumpetensya upang makuha ang pinakamataas na inaasahang gantimpala. Ang contextualize bandits ay pareho ngunit may "ekspertong payo" - data na dati na nakolekta sa gumagamit - at ang web-handa na pinangalanang "ILOVETOCONBANDITS" ay gumagana lamang sa isang iskedyul ng mga naunang tinukoy na round. Sa kaibahan, ang isang klasikal na pamamaraan ng MAB ay walang posibleng impormasyon sa panig at ang resulta ay nakasalalay lamang sa potensyal ng pagkilos na pinili.

Habang ang pinaka-kapaki-pakinabang na aplikasyon para sa mga MAB sa ngayon ay mukhang may kaugnayan sa internet, ang mga mananaliksik ay nagtatrabaho sa paghahanap ng isang paraan upang mailapat ang mga ito sa mga sitwasyong "totoong buhay" (aka meatspace). Sa isang 2015 na papel, kinikilala ng mga mananaliksik mula sa University of British Columbia ang aplikasyon ng MAB sa mga medikal na pagsubok. Ang layunin, kung MABs patunayan na posible dito, ay na ang isang MAB algorithm ay maaaring masukat ang epekto ng isang partikular na gamot. Ang malinaw na problema ay na maliban kung ang isang computer-modulated na bersyon ng ito ay maaaring malikha, ang pagpunta sa diskarteng ito ay simpleng maging masyadong oras-ubos. Walang paraan na ang isang disenyo ng MAB ay maaaring ilagay sa loob ng isang klinikal na pagsubok.

Ang ideya ay maganda, ngunit hindi magagawa sa ngayon. Hanggang sa dumarating ang hinaharap, madarama mo ang nakakatawang presensya ng isang multi-armed bandit kapag nahihirapan kang mag-click sa mga pop-up na ad.