Meta ImageBind AI var atdarināt cilvēka uztveri

Meta publicē kodu atklātās piekļuves mākslīgajā intelektā ar nosaukumu imagebind, kas paredz attiecības starp datiem, kas ir līdzīgas tam, kā cilvēki uztver vai iztēlojas savu vidi. Lai gan attēlu ģeneratori, piemēram, Midjourney, Stable Diffusion un DALL-E 2, saista vārdus ar attēliem, ļaujot jums izveidot vizuālas ainas, pamatojoties tikai uz tekstuālu aprakstu, ImageBind sniedzas tālāk. Tas var saistīt tekstu, attēlus vai video, audio, 3D mērījumus, temperatūras datus un kustības datus, un tas tiek darīts bez iepriekšējas apmācības katrā gadījumā. Šis ir ietvara sākums, kas galu galā spēs ģenerēt sarežģītas vides no vienkāršām ievadēm, piemēram, teksta uzvednes, attēla vai audio (vai to kombinācijas).

Varat iedomāties ImageBind kā mašīnmācības tuvinājumu cilvēku mācībām. Piemēram, ja jūs stāvat dinamiskā vidē, piemēram, rosīgā pilsētas ielā, jūsu smadzenes (galvenokārt neapzināti) absorbē skatus, skaņas un citas maņu sajūtas, lai iegūtu informāciju par garāmbraucošām automašīnām, augstām ēkām, laikapstākļiem un daudz ko citu. . Cilvēki un citi dzīvnieki ir attīstījušies, lai apstrādātu šos datus mūsu ģenētiskajām priekšrocībām: izdzīvošanai un mūsu DNS tālākai nodošanai. (Jo vairāk jūs zināt par savu apkārtni, jo vairāk varat izvairīties no briesmām un pielāgoties videi, lai labāk izdzīvotu un attīstītos). Tā kā datori tuvojas dzīvnieku multisensoro savienojumu atdarināšanai, tie var izmantot šos savienojumus, lai radītu pilnībā realizētas ainas, kuru pamatā ir tikai ierobežoti datu gabali.

Tātad, lai gan jūs varētu izmantot Midjourney, lai izveidotu "basetu Gendalfa kostīmā, kas balansē uz pludmales bumbas" un iegūt salīdzinoši reālistisku šīs dīvainās ainas fotoattēlu, multimodāls AI rīks, piemēram, ImageBind, var beigties izveidot video ar suni ar atbilstošu skaņas, tostarp detalizēta dzīvojamā istaba, istabas temperatūra un precīza suņa un visu pārējo uz skatuves atrašanās vieta. "Tas rada lielisku iespēju izveidot animācijas no statiskiem attēliem, apvienojot tos ar audio uzvednēm," savā izstrādātāju emuārā atzīmē Meta pētnieki. "Piemēram, veidotājs var apvienot attēlu ar modinātāju un kūkojošu gaili un izmantot audio signālu, lai segmentētu gaili, vai modinātāja skaņu, lai segmentētu pulksteni un animētu abus video secībā."

Runājot par to, ko vēl var izdarīt ar šo jauno rotaļlietu, tas skaidri norāda uz vienu no Meta galvenajām ambīcijām: VR, jaukto realitāti un metatelpu. Piemēram, iedomājieties nākotnes austiņas, kas lidojuma laikā var izveidot pilnībā realizētas 3D ainas (ar skaņu, kustību utt.). Vai arī virtuālo spēļu izstrādātāji varētu to izmantot, lai ietaupītu ievērojamu daļu no rūpīgā darba projektēšanas procesā. Tāpat satura veidotāji var izveidot ieskaujošus videoklipus ar reālistisku skaņu celiņu un kustību, pamatojoties tikai uz tekstu, attēliem vai audio. Ir arī viegli iedomāties, kā tāds rīks kā ImageBind paver jaunas piekļuves durvis, ģenerējot reāllaika multivides aprakstus, lai palīdzētu cilvēkiem ar redzes vai dzirdes traucējumiem labāk izprast savu vidi.

Interesanti arī: Labākie instrumenti, kuru pamatā ir mākslīgais intelekts

"Tipiskajās AI sistēmās katrai attiecīgajai modalitātei ir īpaša iegulšana (ti, skaitļu vektori, kas var attēlot datus un to attiecības mašīnmācībā), " saka Meta. “ImageBind parāda, ka ir iespējams izveidot kopīgu iegulšanas telpu vairākām modalitātēm, neizmantojot datus, izmantojot katru atsevišķu modalitātes kombināciju. Tas ir svarīgi, jo pētnieki nevar izveidot datu kopas ar paraugiem, kas satur, piemēram, audio datus un siltuma datus no rosīgas pilsētas ielas vai dziļuma datus un piejūras klints tekstuālu aprakstu.

Meta uzskata, ka šī tehnoloģija galu galā pārsniegs pašreizējās sešas "jūtas", ja tā var teikt. "Lai gan mūsu pašreizējā pētījumā mēs pētījām sešas modalitātes, mēs uzskatām, ka jaunu modalitātes, kas savieno pēc iespējas vairāk maņu, piemēram, pieskārienu, runu, smaržu un fMRI smadzeņu signālus, ieviešana ļaus izveidot bagātākus uz cilvēku orientētus AI modeļus." Izstrādātāji, kas vēlas izpētīt šo jauno smilškaste, var sākt, iedziļinoties Meta atvērtā pirmkoda kodā.

Lasi arī:

JereloEngadget

Pierakstīties

0 komentāri

Iegultās atsauksmes

Skatīt visus komentārus

Citi raksti

Meta ImageBind AI var atdarināt cilvēka uztveri

Jaunākie komentāri