Pag-unawa sa Likas na Wika ang Kinabukasan ng A.I. Voice Recognition

$config[ads_kvadrat] not found

Wit.ai Speech Recognition Demo

Wit.ai Speech Recognition Demo
Anonim

Sa pagdating ng Alexa at ang patuloy na kapasidad ni Alexa sa Amazon upang makakuha ng higit pang mga gawain (at makakuha ng higit pa at higit pang sassy), marami ang nagtataka: ano ang susunod para sa pag-unawa sa natural na wika at mga interface ng pakikipag-usap ng boses?

Mayroong ilang mga kumpanya leeg-at-leeg sa lahi na ito. May Wit.ai, ang kumpanya ng Facebook nakuha - maaari kang laruan sa paligid na may demo. (Subukan ang utos na ito: "Gusto kong manood ng mga pusa.") Ang Apple ay may HomeKit nito at, kasama ito, ay ginagawa kung ano ang pinakagusto ng Apple - kicking ass. Nasa labas din ang Amazon kasama ang Alexa-equipped Echo at Echo Dot.

Ang isang kumpanya na mainit sa landas ng pag-unawa sa natural na wika ay MindMeld. Ang MindMeld ay nagbibigay ng natural na kakayahan sa pag-unawa sa wika sa iba pang mga kumpanya na naghahanap upang magdagdag ng intelihente mga interface ng boses sa kanilang mga produkto, serbisyo, o mga aparato. Ang kumpanya na nakabase sa San Francisco ay nagbibigay ng mga kasosyo sa imprastraktura at mga pagpipilian sa pagpapasadya tulad na ang kanilang mga aparato ay maaaring magkaroon ng kanilang sariling, pinong-tono na personal na katulong. Kamakailang inihayag ng MindMeld ang pakikipagsosyo sa Spotify, ngunit nagtatrabaho din sa mga kompanya ng automotiw, mga ahensya ng pagtatanggol, mga kumpanya ng e-commerce, at iba pa. (At, natural, hindi maibabahagi ang maraming detalye ng gayong mga pakikipagsosyo.)

Kabaligtaran nagsalita sa Sam Vasisht ng MindMeld tungkol sa kalagayan ng patlang ng pagkilala ng boses - ngunit mabilis niyang itinuturo na ang "pagkilala ng boses," bilang isang enterprise, ay isang "pandaigdigang paksa." Sa mga panahong ito, ito ay tungkol sa "pag-unawa sa natural na wika. "Ang pagkilala ng boses ay halos umabot sa kaitaasan nito: pagkaraan ng 50 taon na pag-unlad, ang mga AIS ay maaari na ngayong epektibong makilala ang pagsasalita. Ang mga sistemang ito ay halos mas mahusay kaysa sa mga tao sa trabaho, at tiyak na malampasan lamang ang mga mortal sa lalong madaling panahon.

Ang predictable susunod na hakbang, pagkatapos - tulad ng pag-unlad ng isang bata - ay upang turuan ang mga sistema sa maunawaan ang wika na maaari nilang makilala ngayon. "Ang taong ito ay nagsasalita ng mga salita; ito ang mga salitang "malayo mula sa," naiintindihan ko kung ano ang sinasabi ng taong ito; hayaan mo akong tumulong."

At ang karagdagang hakbang at pag-unlad ay nangangailangan ng interpretasyon ng ibig sabihin: Pagsasamahin ang paraan ng pag-iisip ng isip ng tao. Mayroong dalawang bahagi sa equation na ito. Ang una ay layunin: Ano ang layunin o hangarin ng tao sa pagsasalita sa pangungusap na ito? Ang isang computer na maaaring makuha ang isang layunin mula sa isang pasalitang pangungusap ay maaaring "maunawaan" na nais ng tao na makaapekto x o makipag-ugnay sa y. Naaugnay sa prosesong ito ay ang ikalawang bahagi ng equation: Entity. Ang A.I. dapat malaman kung paano matukoy ang entidad na tinutugunan, ang layunin ng layunin ng tao.

Upang gawin ito, ang MindMeld ay hindi (bilang hinulaan, o inaasahan) na nagtatrabaho sa mga pilosopo. Gumagamit ito ng mga eksperto sa natural na wika, ngunit marami sa mga A.I. Ang "pag-aaral" na proseso ay mismo ang relatibong mga kamay-off. Kung itinuturo mo ang sistema upang maunawaan ang mga order ng kape, kailangan mong ipakita sa sistema ang lahat ng iba't ibang mga paraan na maaaring magmumula ng kape ang mga tao.

"Gusto ko ng isang moka."

"Puwede ba akong magkaroon ng isang tasa ng joe?"

"Isang malaking kape para sa akin."

At doon nga ang mga eksperto sa likas na wika - mga lingguwista - pumasok. Ngunit kahit na hindi na kinakailangan dahil maaari naming crowdsource ang data. Ang mga tool na ito ay nagbibigay-daan sa iyo upang hilingin sa libu-libong tao ang parehong tanong at itala ang kanilang mga tugon. Pagkatapos ay pakainin mo ang mga tugon na iyon sa A.I., at voila: ang A.I. maaaring tumugon sa malawak na hanay ng posibleng mga katanungan. "Mula sa libu-libong mga tanong, ngayon ay maaari lamang naming makina-matutunan kung paano mabuo ang bilyun-bilyong iba pang mga query," sabi ni Vasisht.

Kabaligtaran Nagtanong si Vasisht, na matagal nang tagaloob sa A.I. at likas na wika ng pang-unawa ng wika, upang isip-isip para sa amin.

Maaari bang makilahok ang MindMeld sa pinalawak na pag-uusap? Halimbawa, kung humingi ako ng isang follow-up na tanong, ang A.I. naiintindihan at patuloy na pagtugon?

Oo. Iyon ay bahagi ng disenyo. Kung ang isang tao ay humingi ng isang tanong na hindi kumpleto - kaya, halimbawa, kung ako ay nag-order ng kape, at hindi ko tinukoy ang laki ng kape na gusto ko, babalik ito at sasabihin, "Anong laki ng kape ang ginagawa mo gusto mo?"

Inaasahan mo ba ang anumang progreso sa pagsusuring Turing?

Sa tingin ko kami ay medyo malapit sa ito. Ibig kong sabihin, ginawa ni IBM Watson Ang panganib!, at sa palagay ko ito ay isang magandang halimbawa. Kami ay sa puntong iyon: Ito ay nakakakuha ng napakalapit. Tulad ng, ngayon, sa mga tuntunin ng pagkilala sa pagsasalita sa punto kung saan ang mga machine ay kasing ganda ng mga tao, sa palagay ko kami ay tiyak na sa susunod na tatlo hanggang limang taon - maging isang punto kung saan ang karamihan sa mga voice na ito sa pakikipag-usap ang mga sistema ay itinuturing na kasing ganda ng mga tao.

Anong uri ng mga bagay sa pag-aautomat sa tahanan ang ginagawa ng MindMeld?

Maaari naming ilapat ang aming teknolohiya sa anumang uri ng produkto, anumang uri ng serbisyo, anumang uri ng domain ng data. Ang pag-aautomat ng tahanan ay isa sa mga iyon. Sa loob ng bahay, mayroon kang kontrol sa pag-iilaw, termostat, mga sistema ng seguridad, mga sistema ng audio, mga sistema ng video, lahat ng mga bagay na iyon. Maaari naming kontrolin ang alinman sa mga sistema na ibinigay na mayroong naaangkop na interface.

Ano ang gusto mong mahawakan mo sa MindMeld sa loob ng iyong sariling tahanan?

Tingin ko na mas advanced na mga kaso ng paggamit - tulad ng pakikipag-usap sa aking Spotify upang sabihing "I-play sa akin ang playlist ng Rolling Stones," o "I-play sa akin ang musikang klasikal ngayong gabi" - ang mga uri ng mga bagay na magiging … kasindak-sindak.

Ano ang mas hindi inaasahang o out-of-the-box na gusto mong kontrolin gamit ang iyong boses?

Ang mga bagay na inilarawan ko sa iyo ay ang mga bagay na sa palagay ko ay nalalapit na. Sa madaling salita, ang mga ito ay mangyayari sa lalong madaling panahon. Ano ang hindi mangyayari kaagad, sa palagay ko, magiging mga bagay tulad ng microwave, coffee machine, at refrigerator. Ang pagkakaroon ng mga ganitong uri ng mga kasangkapan ay kinokontrol - kaya maaari ko talaga sabihin, "Ay ang aking coffee machine handa na para sa paggawa ng kape? I-on ang coffee machine "at kung hindi pa ito na-prepped, dapat itong bumalik at sabihin" Sorry, ngunit ang iyong coffee machine ay hindi pa handa "- ang uri ng katalinuhan ay hindi pa umiiral. Iyon ay ang banal na Kopita: Saan ang bawat aparato ay maaaring makipag-usap pabalik sa iyo at sabihin sa iyo kung ano ang maaari at hindi magagawa. Ngunit hindi pa kami naroroon.

Ano sa palagay mo ang humahawak sa industriya?

Ang mga ito ay lubhang mababang gastos na mga kagamitan, ngayon. Ibig kong sabihin, ang mga ito ay mga kasangkapan na maaari mong bilhin para sa halos wala. Sampung taon na ang nakalilipas, nagkakahalaga pa ng marami.Kaya, ang pagtatayo sa mga bagong tampok ay isang bagay na nagdaragdag sa mga gastos ng mga aparatong ito. Sa huli, ang kasalukuyang halaga ng panukala ay napakalakas; karamihan sa mga tagagawa ay hindi nakakiling upang magdagdag ng mga bagong tampok, maliban kung ang mga ito ay nasa isang napakababang punto ng gastos.

Sa tingin ko iyon ang isang aspeto nito. Ang iba pang aspeto nito ay, pinag-uusapan natin ang pagkakaroon ng mga aparatong ito na konektado. Kaya, dapat na higit pa sa isang voice-case na paggamit upang kumonekta sa mga device na ito. Mayroon bang mas maraming kakayahan na kailangang sumakay sa koneksyon bago sila maging mabubuhay.

Alam mo ba ang anumang kumpanya na nagtatrabaho sa huling kakayahan na iyon?

Ang isang pulutong ng mga kumpanya ng semiconductor ay nagtatrabaho sa napaka-low-cost arrays mikropono. Ang uri ng bagay na maaari mong i-embed talaga - sa napakababang gastos, sa halos anumang aparato o application - na magpapahintulot doon upang maging isang voice input. At hindi mo kailangang tumayo sa tabi ng mga aparatong ito - maaari kang makipag-usap mula sa 10 talampakan ang layo. Ang pagtatayo ng kakayahan na iyon - sa palagay ko iyon ang panimulang punto. At sa palagay ko'y pahihintulutan ng mga tao na simulan ang paglagay ng mga mikropono sa mga device, at pagkatapos ay ang iba, ang mga advanced na kakayahan ay susundan. Ngunit sa ngayon, hindi ko alam ang anumang kumpanya na nagtatayo ng ganitong uri ng isang smart coffee machine, o smart microwave, o washing machine.

Ano ang iyong pinakamahusay na pagtatantya para sa kapag mayroon kaming ganap na matalinong mga bahay, ganap na smart apartment?

Sa ngayon, kami ay halos may lahat ng mga mahahalagang subsystem sa bahay na nais ng mga tao na awtomatiko, na may kakayahan na maging awtomatiko. Kabilang dito ang mga ilaw, thermostat, mga sistema ng seguridad, mga pintuan ng garahe, mga kandado sa harap ng pinto - mga bagay na tulad nito. Lahat ng mga bagay na ito ay maaaring gawin. Ang isyu ay talagang nakapaligid sa mga puntos ng presyo. Ang mga ito ay pa rin sa punto ng presyo kung saan ito ay unang-una maaga adopters at mga tao na may isang tunay na katakut-takot na kailangan para sa kanila. Ngunit ang mga punto ng presyo sa mga bagay na ito ay bumaba nang malaki, napakabilis. Sa palagay ko malamang na makuha namin ang mga subsystem na ito sa mass-market sa susunod na ilang taon.

Ang iba pang mga bagay na pinag-usapan ko - ang pag-automate ng mga murang appliances - sa palagay ko ang mga ito ay marahil sa limang hanggang pitong taon na frame sa pinakamaagang. Mas gusto ang 10 taon bago, bago maging isang katotohanan. Ngunit, tulad ng sinabi ko dati, ang mga bagay na nangangailangan ng maraming iba pang mga bagay na magkakasama. At maaari itong mangyari nang mas maaga kung ang mga iba't ibang sangkap na ito ay magkasama nang mas maaga.

Ano sa palagay mo ang magiging hitsura ng apartment ng New York City o San Francisco, sabihin, 2050?

2050! Wow. Sa tingin ko kami ay magiging ganap doon. Ang uri ng mga bagay na nakikita natin sa mga pelikula sa science-fiction - kung saan maaari mong medyo makipag-usap sa bawat sistema sa iyong bahay, at kontrolin ang lahat ng bagay gamit ang boses - sa palagay ko ang mga uri ng mga kakayahan ay laganap. Totoong sa mga lungsod tulad ng New York at San Francisco.

$config[ads_kvadrat] not found